{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 14.999366420274551,
  "global_step": 17745,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.399280548095703,
      "epoch": 0.0,
      "learning_rate": 2.8169014084507045e-08,
      "loss": 10.0071,
      "step": 1,
      "task_loss": 4.891738414764404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.043680191040039,
      "epoch": 0.0,
      "learning_rate": 5.633802816901409e-08,
      "loss": 11.6805,
      "step": 2,
      "task_loss": 4.73251485824585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.580682754516602,
      "epoch": 0.0,
      "learning_rate": 8.450704225352114e-08,
      "loss": 10.5272,
      "step": 3,
      "task_loss": 4.749826431274414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.154165267944336,
      "epoch": 0.0,
      "learning_rate": 1.1267605633802818e-07,
      "loss": 10.5234,
      "step": 4,
      "task_loss": 4.633692741394043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.92446517944336,
      "epoch": 0.0,
      "learning_rate": 1.4084507042253522e-07,
      "loss": 10.9615,
      "step": 5,
      "task_loss": 4.72067928314209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.130830764770508,
      "epoch": 0.01,
      "learning_rate": 1.6901408450704228e-07,
      "loss": 10.3515,
      "step": 6,
      "task_loss": 4.630175590515137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.704891204833984,
      "epoch": 0.01,
      "learning_rate": 1.971830985915493e-07,
      "loss": 10.8688,
      "step": 7,
      "task_loss": 4.697543621063232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.523429870605469,
      "epoch": 0.01,
      "learning_rate": 2.2535211267605636e-07,
      "loss": 10.8928,
      "step": 8,
      "task_loss": 4.785290241241455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.853700637817383,
      "epoch": 0.01,
      "learning_rate": 2.535211267605634e-07,
      "loss": 9.9249,
      "step": 9,
      "task_loss": 4.663565158843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.901111602783203,
      "epoch": 0.01,
      "learning_rate": 2.8169014084507043e-07,
      "loss": 11.1932,
      "step": 10,
      "task_loss": 4.828158855438232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.091609954833984,
      "epoch": 0.01,
      "learning_rate": 3.0985915492957747e-07,
      "loss": 10.3821,
      "step": 11,
      "task_loss": 4.563029766082764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.824514389038086,
      "epoch": 0.01,
      "learning_rate": 3.3802816901408456e-07,
      "loss": 11.1491,
      "step": 12,
      "task_loss": 4.635919094085693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.270526885986328,
      "epoch": 0.01,
      "learning_rate": 3.6619718309859155e-07,
      "loss": 10.7159,
      "step": 13,
      "task_loss": 4.609441757202148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.251729965209961,
      "epoch": 0.01,
      "learning_rate": 3.943661971830986e-07,
      "loss": 10.9164,
      "step": 14,
      "task_loss": 4.690701484680176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.487654685974121,
      "epoch": 0.01,
      "learning_rate": 4.225352112676056e-07,
      "loss": 10.8943,
      "step": 15,
      "task_loss": 4.611202716827393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.20788860321045,
      "epoch": 0.01,
      "learning_rate": 4.507042253521127e-07,
      "loss": 10.8489,
      "step": 16,
      "task_loss": 4.61071252822876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.422500610351562,
      "epoch": 0.01,
      "learning_rate": 4.788732394366198e-07,
      "loss": 10.6796,
      "step": 17,
      "task_loss": 4.4972429275512695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.608845710754395,
      "epoch": 0.02,
      "learning_rate": 5.070422535211268e-07,
      "loss": 10.4477,
      "step": 18,
      "task_loss": 4.795047283172607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.164052963256836,
      "epoch": 0.02,
      "learning_rate": 5.352112676056338e-07,
      "loss": 10.2483,
      "step": 19,
      "task_loss": 4.690609455108643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.532797813415527,
      "epoch": 0.02,
      "learning_rate": 5.633802816901409e-07,
      "loss": 10.7818,
      "step": 20,
      "task_loss": 4.76283073425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.962697982788086,
      "epoch": 0.02,
      "learning_rate": 5.915492957746479e-07,
      "loss": 10.9846,
      "step": 21,
      "task_loss": 4.760645866394043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.07254409790039,
      "epoch": 0.02,
      "learning_rate": 6.197183098591549e-07,
      "loss": 10.836,
      "step": 22,
      "task_loss": 4.693588733673096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.156700134277344,
      "epoch": 0.02,
      "learning_rate": 6.47887323943662e-07,
      "loss": 10.9571,
      "step": 23,
      "task_loss": 4.7592997550964355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.314519882202148,
      "epoch": 0.02,
      "learning_rate": 6.760563380281691e-07,
      "loss": 11.4295,
      "step": 24,
      "task_loss": 4.613511085510254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.720993995666504,
      "epoch": 0.02,
      "learning_rate": 7.042253521126761e-07,
      "loss": 10.7734,
      "step": 25,
      "task_loss": 4.495548725128174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.651700973510742,
      "epoch": 0.02,
      "learning_rate": 7.323943661971831e-07,
      "loss": 11.107,
      "step": 26,
      "task_loss": 4.585072994232178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.273109436035156,
      "epoch": 0.02,
      "learning_rate": 7.605633802816901e-07,
      "loss": 10.9263,
      "step": 27,
      "task_loss": 4.6136016845703125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.071043014526367,
      "epoch": 0.02,
      "learning_rate": 7.887323943661972e-07,
      "loss": 11.9547,
      "step": 28,
      "task_loss": 4.565066814422607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.542444229125977,
      "epoch": 0.02,
      "learning_rate": 8.169014084507043e-07,
      "loss": 10.6434,
      "step": 29,
      "task_loss": 4.739510536193848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.029298782348633,
      "epoch": 0.03,
      "learning_rate": 8.450704225352112e-07,
      "loss": 11.1649,
      "step": 30,
      "task_loss": 4.691373348236084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.772214889526367,
      "epoch": 0.03,
      "learning_rate": 8.732394366197183e-07,
      "loss": 10.7238,
      "step": 31,
      "task_loss": 4.613551139831543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.930421829223633,
      "epoch": 0.03,
      "learning_rate": 9.014084507042254e-07,
      "loss": 10.9756,
      "step": 32,
      "task_loss": 4.706444263458252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.574166297912598,
      "epoch": 0.03,
      "learning_rate": 9.295774647887324e-07,
      "loss": 10.4798,
      "step": 33,
      "task_loss": 4.529212474822998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.481444358825684,
      "epoch": 0.03,
      "learning_rate": 9.577464788732395e-07,
      "loss": 10.0728,
      "step": 34,
      "task_loss": 4.68502950668335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.878408432006836,
      "epoch": 0.03,
      "learning_rate": 9.859154929577465e-07,
      "loss": 10.8027,
      "step": 35,
      "task_loss": 4.738052845001221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 14.702432632446289,
      "epoch": 0.03,
      "learning_rate": 1.0140845070422536e-06,
      "loss": 11.71,
      "step": 36,
      "task_loss": 4.768803596496582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.106947898864746,
      "epoch": 0.03,
      "learning_rate": 1.0422535211267606e-06,
      "loss": 10.2682,
      "step": 37,
      "task_loss": 4.6503119468688965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.527111053466797,
      "epoch": 0.03,
      "learning_rate": 1.0704225352112677e-06,
      "loss": 11.6225,
      "step": 38,
      "task_loss": 4.669107437133789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.199080467224121,
      "epoch": 0.03,
      "learning_rate": 1.0985915492957747e-06,
      "loss": 11.5687,
      "step": 39,
      "task_loss": 4.728382587432861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.792350769042969,
      "epoch": 0.03,
      "learning_rate": 1.1267605633802817e-06,
      "loss": 10.3094,
      "step": 40,
      "task_loss": 4.589993000030518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.995615005493164,
      "epoch": 0.03,
      "learning_rate": 1.1549295774647888e-06,
      "loss": 10.2234,
      "step": 41,
      "task_loss": 4.646106719970703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.894269943237305,
      "epoch": 0.04,
      "learning_rate": 1.1830985915492958e-06,
      "loss": 11.0,
      "step": 42,
      "task_loss": 4.722424507141113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.907012939453125,
      "epoch": 0.04,
      "learning_rate": 1.211267605633803e-06,
      "loss": 10.9857,
      "step": 43,
      "task_loss": 4.520284175872803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.693136215209961,
      "epoch": 0.04,
      "learning_rate": 1.2394366197183099e-06,
      "loss": 10.1582,
      "step": 44,
      "task_loss": 4.544990062713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.440729141235352,
      "epoch": 0.04,
      "learning_rate": 1.267605633802817e-06,
      "loss": 11.1325,
      "step": 45,
      "task_loss": 4.650798320770264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.90224838256836,
      "epoch": 0.04,
      "learning_rate": 1.295774647887324e-06,
      "loss": 11.3326,
      "step": 46,
      "task_loss": 4.618316650390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.97432804107666,
      "epoch": 0.04,
      "learning_rate": 1.323943661971831e-06,
      "loss": 10.0193,
      "step": 47,
      "task_loss": 4.772137641906738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.797518730163574,
      "epoch": 0.04,
      "learning_rate": 1.3521126760563382e-06,
      "loss": 11.2877,
      "step": 48,
      "task_loss": 4.579623222351074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.300416946411133,
      "epoch": 0.04,
      "learning_rate": 1.380281690140845e-06,
      "loss": 9.8252,
      "step": 49,
      "task_loss": 4.591859340667725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.106938362121582,
      "epoch": 0.04,
      "learning_rate": 1.4084507042253521e-06,
      "loss": 10.9885,
      "step": 50,
      "task_loss": 4.510244846343994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.987412452697754,
      "epoch": 0.04,
      "learning_rate": 1.4366197183098591e-06,
      "loss": 11.1488,
      "step": 51,
      "task_loss": 4.773073196411133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.975807189941406,
      "epoch": 0.04,
      "learning_rate": 1.4647887323943662e-06,
      "loss": 10.6479,
      "step": 52,
      "task_loss": 4.779064178466797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.326028823852539,
      "epoch": 0.04,
      "learning_rate": 1.4929577464788734e-06,
      "loss": 10.9567,
      "step": 53,
      "task_loss": 4.6484785079956055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.722723007202148,
      "epoch": 0.05,
      "learning_rate": 1.5211267605633803e-06,
      "loss": 10.8885,
      "step": 54,
      "task_loss": 4.783504962921143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.634294509887695,
      "epoch": 0.05,
      "learning_rate": 1.5492957746478875e-06,
      "loss": 10.4851,
      "step": 55,
      "task_loss": 4.667494773864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.207616806030273,
      "epoch": 0.05,
      "learning_rate": 1.5774647887323943e-06,
      "loss": 11.1749,
      "step": 56,
      "task_loss": 4.508828639984131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.490966796875,
      "epoch": 0.05,
      "learning_rate": 1.6056338028169016e-06,
      "loss": 10.776,
      "step": 57,
      "task_loss": 4.746265411376953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.183530807495117,
      "epoch": 0.05,
      "learning_rate": 1.6338028169014086e-06,
      "loss": 10.5301,
      "step": 58,
      "task_loss": 4.731396675109863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.617422103881836,
      "epoch": 0.05,
      "learning_rate": 1.6619718309859155e-06,
      "loss": 10.9423,
      "step": 59,
      "task_loss": 4.559072971343994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.361732482910156,
      "epoch": 0.05,
      "learning_rate": 1.6901408450704225e-06,
      "loss": 11.2359,
      "step": 60,
      "task_loss": 4.603846549987793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.512797355651855,
      "epoch": 0.05,
      "learning_rate": 1.7183098591549297e-06,
      "loss": 10.1261,
      "step": 61,
      "task_loss": 4.484249114990234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.929279327392578,
      "epoch": 0.05,
      "learning_rate": 1.7464788732394366e-06,
      "loss": 10.4392,
      "step": 62,
      "task_loss": 4.767356872558594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.293985366821289,
      "epoch": 0.05,
      "learning_rate": 1.7746478873239436e-06,
      "loss": 10.6814,
      "step": 63,
      "task_loss": 4.581082820892334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.530652046203613,
      "epoch": 0.05,
      "learning_rate": 1.8028169014084509e-06,
      "loss": 10.5422,
      "step": 64,
      "task_loss": 4.593387603759766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.658989906311035,
      "epoch": 0.05,
      "learning_rate": 1.8309859154929579e-06,
      "loss": 11.4724,
      "step": 65,
      "task_loss": 4.689209938049316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.65280532836914,
      "epoch": 0.06,
      "learning_rate": 1.8591549295774647e-06,
      "loss": 11.0593,
      "step": 66,
      "task_loss": 4.621992588043213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.59499740600586,
      "epoch": 0.06,
      "learning_rate": 1.887323943661972e-06,
      "loss": 10.7843,
      "step": 67,
      "task_loss": 4.579416751861572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.106800079345703,
      "epoch": 0.06,
      "learning_rate": 1.915492957746479e-06,
      "loss": 10.6469,
      "step": 68,
      "task_loss": 4.856501579284668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.152206420898438,
      "epoch": 0.06,
      "learning_rate": 1.943661971830986e-06,
      "loss": 11.2025,
      "step": 69,
      "task_loss": 4.75594425201416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.754813194274902,
      "epoch": 0.06,
      "learning_rate": 1.971830985915493e-06,
      "loss": 10.6631,
      "step": 70,
      "task_loss": 4.657159328460693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.337379455566406,
      "epoch": 0.06,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 10.0276,
      "step": 71,
      "task_loss": 4.761862754821777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.872325897216797,
      "epoch": 0.06,
      "learning_rate": 2.028169014084507e-06,
      "loss": 10.2641,
      "step": 72,
      "task_loss": 4.640522480010986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.693085670471191,
      "epoch": 0.06,
      "learning_rate": 2.056338028169014e-06,
      "loss": 11.5914,
      "step": 73,
      "task_loss": 4.582435607910156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.04063606262207,
      "epoch": 0.06,
      "learning_rate": 2.0845070422535212e-06,
      "loss": 10.3241,
      "step": 74,
      "task_loss": 4.766111373901367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.973433494567871,
      "epoch": 0.06,
      "learning_rate": 2.112676056338028e-06,
      "loss": 10.669,
      "step": 75,
      "task_loss": 4.4964776039123535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.486418724060059,
      "epoch": 0.06,
      "learning_rate": 2.1408450704225353e-06,
      "loss": 10.7383,
      "step": 76,
      "task_loss": 4.650036334991455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.418624877929688,
      "epoch": 0.07,
      "learning_rate": 2.1690140845070426e-06,
      "loss": 11.2113,
      "step": 77,
      "task_loss": 4.644071578979492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.922872543334961,
      "epoch": 0.07,
      "learning_rate": 2.1971830985915494e-06,
      "loss": 11.1233,
      "step": 78,
      "task_loss": 4.66641902923584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.391945838928223,
      "epoch": 0.07,
      "learning_rate": 2.2253521126760562e-06,
      "loss": 10.2484,
      "step": 79,
      "task_loss": 4.585971832275391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.599638938903809,
      "epoch": 0.07,
      "learning_rate": 2.2535211267605635e-06,
      "loss": 11.664,
      "step": 80,
      "task_loss": 4.563695430755615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.839431762695312,
      "epoch": 0.07,
      "learning_rate": 2.2816901408450707e-06,
      "loss": 10.3478,
      "step": 81,
      "task_loss": 4.771480560302734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.951419830322266,
      "epoch": 0.07,
      "learning_rate": 2.3098591549295775e-06,
      "loss": 11.4821,
      "step": 82,
      "task_loss": 4.619713306427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.799234390258789,
      "epoch": 0.07,
      "learning_rate": 2.338028169014085e-06,
      "loss": 12.058,
      "step": 83,
      "task_loss": 4.561478137969971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.449674606323242,
      "epoch": 0.07,
      "learning_rate": 2.3661971830985916e-06,
      "loss": 11.8026,
      "step": 84,
      "task_loss": 4.626176834106445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.154557228088379,
      "epoch": 0.07,
      "learning_rate": 2.3943661971830984e-06,
      "loss": 11.2429,
      "step": 85,
      "task_loss": 4.613253116607666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.895186424255371,
      "epoch": 0.07,
      "learning_rate": 2.422535211267606e-06,
      "loss": 10.5002,
      "step": 86,
      "task_loss": 4.756536960601807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.251350402832031,
      "epoch": 0.07,
      "learning_rate": 2.450704225352113e-06,
      "loss": 10.5044,
      "step": 87,
      "task_loss": 4.595606327056885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.199639320373535,
      "epoch": 0.07,
      "learning_rate": 2.4788732394366198e-06,
      "loss": 10.6771,
      "step": 88,
      "task_loss": 4.648237705230713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.980515480041504,
      "epoch": 0.08,
      "learning_rate": 2.5070422535211266e-06,
      "loss": 11.7213,
      "step": 89,
      "task_loss": 4.651578903198242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.191513061523438,
      "epoch": 0.08,
      "learning_rate": 2.535211267605634e-06,
      "loss": 10.491,
      "step": 90,
      "task_loss": 4.769591331481934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.882904052734375,
      "epoch": 0.08,
      "learning_rate": 2.563380281690141e-06,
      "loss": 10.7959,
      "step": 91,
      "task_loss": 4.662966251373291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.562097549438477,
      "epoch": 0.08,
      "learning_rate": 2.591549295774648e-06,
      "loss": 10.288,
      "step": 92,
      "task_loss": 4.714051246643066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.805070877075195,
      "epoch": 0.08,
      "learning_rate": 2.619718309859155e-06,
      "loss": 10.5045,
      "step": 93,
      "task_loss": 4.528115272521973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.064163208007812,
      "epoch": 0.08,
      "learning_rate": 2.647887323943662e-06,
      "loss": 11.4752,
      "step": 94,
      "task_loss": 4.673368453979492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.234027862548828,
      "epoch": 0.08,
      "learning_rate": 2.6760563380281692e-06,
      "loss": 10.5994,
      "step": 95,
      "task_loss": 4.416010856628418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.381855010986328,
      "epoch": 0.08,
      "learning_rate": 2.7042253521126765e-06,
      "loss": 10.8196,
      "step": 96,
      "task_loss": 4.479274749755859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.296269416809082,
      "epoch": 0.08,
      "learning_rate": 2.7323943661971833e-06,
      "loss": 10.3652,
      "step": 97,
      "task_loss": 4.63809871673584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.026663780212402,
      "epoch": 0.08,
      "learning_rate": 2.76056338028169e-06,
      "loss": 10.8135,
      "step": 98,
      "task_loss": 4.628067493438721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.557378768920898,
      "epoch": 0.08,
      "learning_rate": 2.7887323943661974e-06,
      "loss": 11.3301,
      "step": 99,
      "task_loss": 4.584196090698242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.899571418762207,
      "epoch": 0.08,
      "learning_rate": 2.8169014084507042e-06,
      "loss": 10.5453,
      "step": 100,
      "task_loss": 4.562654972076416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.915513038635254,
      "epoch": 0.09,
      "learning_rate": 2.8450704225352115e-06,
      "loss": 10.4357,
      "step": 101,
      "task_loss": 4.610260009765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.80290412902832,
      "epoch": 0.09,
      "learning_rate": 2.8732394366197183e-06,
      "loss": 10.2376,
      "step": 102,
      "task_loss": 4.529834747314453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.406658172607422,
      "epoch": 0.09,
      "learning_rate": 2.9014084507042255e-06,
      "loss": 10.1504,
      "step": 103,
      "task_loss": 4.560537338256836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.819093704223633,
      "epoch": 0.09,
      "learning_rate": 2.9295774647887324e-06,
      "loss": 10.3824,
      "step": 104,
      "task_loss": 4.6420440673828125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.025821685791016,
      "epoch": 0.09,
      "learning_rate": 2.9577464788732396e-06,
      "loss": 10.6693,
      "step": 105,
      "task_loss": 4.599424839019775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.691964149475098,
      "epoch": 0.09,
      "learning_rate": 2.985915492957747e-06,
      "loss": 11.2052,
      "step": 106,
      "task_loss": 4.664707183837891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.457517623901367,
      "epoch": 0.09,
      "learning_rate": 3.0140845070422537e-06,
      "loss": 10.879,
      "step": 107,
      "task_loss": 4.648604869842529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.926033020019531,
      "epoch": 0.09,
      "learning_rate": 3.0422535211267605e-06,
      "loss": 10.9723,
      "step": 108,
      "task_loss": 4.60695219039917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.213266372680664,
      "epoch": 0.09,
      "learning_rate": 3.0704225352112678e-06,
      "loss": 10.3091,
      "step": 109,
      "task_loss": 4.490808486938477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.98620891571045,
      "epoch": 0.09,
      "learning_rate": 3.098591549295775e-06,
      "loss": 11.0937,
      "step": 110,
      "task_loss": 4.5143022537231445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.129890441894531,
      "epoch": 0.09,
      "learning_rate": 3.1267605633802823e-06,
      "loss": 9.941,
      "step": 111,
      "task_loss": 4.466829776763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.640400886535645,
      "epoch": 0.09,
      "learning_rate": 3.1549295774647887e-06,
      "loss": 10.231,
      "step": 112,
      "task_loss": 4.725858688354492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.465828895568848,
      "epoch": 0.1,
      "learning_rate": 3.183098591549296e-06,
      "loss": 11.0722,
      "step": 113,
      "task_loss": 4.593950271606445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.677474975585938,
      "epoch": 0.1,
      "learning_rate": 3.211267605633803e-06,
      "loss": 11.2786,
      "step": 114,
      "task_loss": 4.545686721801758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.140052795410156,
      "epoch": 0.1,
      "learning_rate": 3.23943661971831e-06,
      "loss": 10.1499,
      "step": 115,
      "task_loss": 4.513463020324707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.159743309020996,
      "epoch": 0.1,
      "learning_rate": 3.2676056338028173e-06,
      "loss": 10.5326,
      "step": 116,
      "task_loss": 4.595307350158691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.306463241577148,
      "epoch": 0.1,
      "learning_rate": 3.2957746478873245e-06,
      "loss": 10.7601,
      "step": 117,
      "task_loss": 4.547955513000488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.017741203308105,
      "epoch": 0.1,
      "learning_rate": 3.323943661971831e-06,
      "loss": 11.0774,
      "step": 118,
      "task_loss": 4.582327365875244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.738935470581055,
      "epoch": 0.1,
      "learning_rate": 3.352112676056338e-06,
      "loss": 11.4335,
      "step": 119,
      "task_loss": 4.462286949157715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.039283752441406,
      "epoch": 0.1,
      "learning_rate": 3.380281690140845e-06,
      "loss": 10.5954,
      "step": 120,
      "task_loss": 4.519924163818359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.270971298217773,
      "epoch": 0.1,
      "learning_rate": 3.4084507042253522e-06,
      "loss": 10.5582,
      "step": 121,
      "task_loss": 4.577351093292236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.93690299987793,
      "epoch": 0.1,
      "learning_rate": 3.4366197183098595e-06,
      "loss": 10.4955,
      "step": 122,
      "task_loss": 4.511572360992432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.33281135559082,
      "epoch": 0.1,
      "learning_rate": 3.464788732394366e-06,
      "loss": 10.7102,
      "step": 123,
      "task_loss": 4.467489242553711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.276394844055176,
      "epoch": 0.1,
      "learning_rate": 3.492957746478873e-06,
      "loss": 10.3499,
      "step": 124,
      "task_loss": 4.63872766494751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.115531921386719,
      "epoch": 0.11,
      "learning_rate": 3.521126760563381e-06,
      "loss": 10.467,
      "step": 125,
      "task_loss": 4.474095344543457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.955999374389648,
      "epoch": 0.11,
      "learning_rate": 3.549295774647887e-06,
      "loss": 10.6859,
      "step": 126,
      "task_loss": 4.427630424499512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.615371704101562,
      "epoch": 0.11,
      "learning_rate": 3.5774647887323945e-06,
      "loss": 10.9464,
      "step": 127,
      "task_loss": 4.611941814422607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.313074111938477,
      "epoch": 0.11,
      "learning_rate": 3.6056338028169017e-06,
      "loss": 10.0694,
      "step": 128,
      "task_loss": 4.407715797424316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.80350112915039,
      "epoch": 0.11,
      "learning_rate": 3.6338028169014085e-06,
      "loss": 10.1331,
      "step": 129,
      "task_loss": 4.603161334991455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.506087303161621,
      "epoch": 0.11,
      "learning_rate": 3.6619718309859158e-06,
      "loss": 10.7389,
      "step": 130,
      "task_loss": 4.655784606933594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.683990478515625,
      "epoch": 0.11,
      "learning_rate": 3.690140845070423e-06,
      "loss": 11.0823,
      "step": 131,
      "task_loss": 4.5683441162109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.482134819030762,
      "epoch": 0.11,
      "learning_rate": 3.7183098591549294e-06,
      "loss": 10.9517,
      "step": 132,
      "task_loss": 4.491758823394775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.356341361999512,
      "epoch": 0.11,
      "learning_rate": 3.7464788732394367e-06,
      "loss": 10.4455,
      "step": 133,
      "task_loss": 4.5772528648376465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.916454315185547,
      "epoch": 0.11,
      "learning_rate": 3.774647887323944e-06,
      "loss": 10.0334,
      "step": 134,
      "task_loss": 4.490162372589111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.858617782592773,
      "epoch": 0.11,
      "learning_rate": 3.8028169014084508e-06,
      "loss": 11.2223,
      "step": 135,
      "task_loss": 4.561485767364502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.848136901855469,
      "epoch": 0.11,
      "learning_rate": 3.830985915492958e-06,
      "loss": 10.651,
      "step": 136,
      "task_loss": 4.574880123138428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.8009033203125,
      "epoch": 0.12,
      "learning_rate": 3.859154929577465e-06,
      "loss": 10.6488,
      "step": 137,
      "task_loss": 4.586858749389648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.848316192626953,
      "epoch": 0.12,
      "learning_rate": 3.887323943661972e-06,
      "loss": 10.1914,
      "step": 138,
      "task_loss": 4.651371955871582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.536291122436523,
      "epoch": 0.12,
      "learning_rate": 3.915492957746479e-06,
      "loss": 11.2229,
      "step": 139,
      "task_loss": 4.531460285186768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.782855987548828,
      "epoch": 0.12,
      "learning_rate": 3.943661971830986e-06,
      "loss": 11.1588,
      "step": 140,
      "task_loss": 4.547407627105713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.685376167297363,
      "epoch": 0.12,
      "learning_rate": 3.9718309859154926e-06,
      "loss": 9.8536,
      "step": 141,
      "task_loss": 4.637712478637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.340768814086914,
      "epoch": 0.12,
      "learning_rate": 4.000000000000001e-06,
      "loss": 10.2679,
      "step": 142,
      "task_loss": 4.549135684967041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.418891906738281,
      "epoch": 0.12,
      "learning_rate": 4.028169014084508e-06,
      "loss": 11.1923,
      "step": 143,
      "task_loss": 4.4391984939575195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.523265838623047,
      "epoch": 0.12,
      "learning_rate": 4.056338028169014e-06,
      "loss": 11.1801,
      "step": 144,
      "task_loss": 4.631706237792969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.578893661499023,
      "epoch": 0.12,
      "learning_rate": 4.0845070422535216e-06,
      "loss": 11.0093,
      "step": 145,
      "task_loss": 4.563064098358154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.25750732421875,
      "epoch": 0.12,
      "learning_rate": 4.112676056338028e-06,
      "loss": 10.8373,
      "step": 146,
      "task_loss": 4.479740619659424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.698243141174316,
      "epoch": 0.12,
      "learning_rate": 4.140845070422535e-06,
      "loss": 10.6484,
      "step": 147,
      "task_loss": 4.495515823364258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.675031661987305,
      "epoch": 0.13,
      "learning_rate": 4.1690140845070425e-06,
      "loss": 10.4258,
      "step": 148,
      "task_loss": 4.516814708709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.315908432006836,
      "epoch": 0.13,
      "learning_rate": 4.197183098591549e-06,
      "loss": 10.3745,
      "step": 149,
      "task_loss": 4.388041973114014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.79265022277832,
      "epoch": 0.13,
      "learning_rate": 4.225352112676056e-06,
      "loss": 11.0548,
      "step": 150,
      "task_loss": 4.583268642425537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.573726654052734,
      "epoch": 0.13,
      "learning_rate": 4.253521126760563e-06,
      "loss": 9.6913,
      "step": 151,
      "task_loss": 4.647573471069336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.413125991821289,
      "epoch": 0.13,
      "learning_rate": 4.281690140845071e-06,
      "loss": 10.7727,
      "step": 152,
      "task_loss": 4.496472358703613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.03062629699707,
      "epoch": 0.13,
      "learning_rate": 4.309859154929578e-06,
      "loss": 10.4948,
      "step": 153,
      "task_loss": 4.47908878326416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.084280967712402,
      "epoch": 0.13,
      "learning_rate": 4.338028169014085e-06,
      "loss": 10.2389,
      "step": 154,
      "task_loss": 4.515031337738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.07840633392334,
      "epoch": 0.13,
      "learning_rate": 4.3661971830985915e-06,
      "loss": 10.2652,
      "step": 155,
      "task_loss": 4.4497971534729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.853221893310547,
      "epoch": 0.13,
      "learning_rate": 4.394366197183099e-06,
      "loss": 10.3585,
      "step": 156,
      "task_loss": 4.353901386260986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.914134979248047,
      "epoch": 0.13,
      "learning_rate": 4.422535211267606e-06,
      "loss": 10.0713,
      "step": 157,
      "task_loss": 4.575733184814453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.544150352478027,
      "epoch": 0.13,
      "learning_rate": 4.4507042253521124e-06,
      "loss": 10.7172,
      "step": 158,
      "task_loss": 4.420012474060059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.307382583618164,
      "epoch": 0.13,
      "learning_rate": 4.47887323943662e-06,
      "loss": 10.8168,
      "step": 159,
      "task_loss": 4.413660526275635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.920637130737305,
      "epoch": 0.14,
      "learning_rate": 4.507042253521127e-06,
      "loss": 10.5731,
      "step": 160,
      "task_loss": 4.3378825187683105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.677581787109375,
      "epoch": 0.14,
      "learning_rate": 4.535211267605634e-06,
      "loss": 10.5923,
      "step": 161,
      "task_loss": 4.445382595062256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.677480697631836,
      "epoch": 0.14,
      "learning_rate": 4.5633802816901414e-06,
      "loss": 11.2358,
      "step": 162,
      "task_loss": 4.370922565460205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.014175415039062,
      "epoch": 0.14,
      "learning_rate": 4.591549295774649e-06,
      "loss": 11.0791,
      "step": 163,
      "task_loss": 4.673698902130127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.011930465698242,
      "epoch": 0.14,
      "learning_rate": 4.619718309859155e-06,
      "loss": 10.2401,
      "step": 164,
      "task_loss": 4.459265232086182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.024348258972168,
      "epoch": 0.14,
      "learning_rate": 4.647887323943662e-06,
      "loss": 10.745,
      "step": 165,
      "task_loss": 4.377274990081787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.38964557647705,
      "epoch": 0.14,
      "learning_rate": 4.67605633802817e-06,
      "loss": 11.0233,
      "step": 166,
      "task_loss": 4.407256126403809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.651541709899902,
      "epoch": 0.14,
      "learning_rate": 4.704225352112676e-06,
      "loss": 10.6303,
      "step": 167,
      "task_loss": 4.491535663604736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.352401733398438,
      "epoch": 0.14,
      "learning_rate": 4.732394366197183e-06,
      "loss": 9.8787,
      "step": 168,
      "task_loss": 4.362551689147949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.053401947021484,
      "epoch": 0.14,
      "learning_rate": 4.7605633802816905e-06,
      "loss": 11.468,
      "step": 169,
      "task_loss": 4.321714401245117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.11303997039795,
      "epoch": 0.14,
      "learning_rate": 4.788732394366197e-06,
      "loss": 11.5697,
      "step": 170,
      "task_loss": 4.406832695007324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.285576820373535,
      "epoch": 0.14,
      "learning_rate": 4.816901408450705e-06,
      "loss": 10.5944,
      "step": 171,
      "task_loss": 4.349706649780273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.672544479370117,
      "epoch": 0.15,
      "learning_rate": 4.845070422535212e-06,
      "loss": 11.4187,
      "step": 172,
      "task_loss": 4.280782699584961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.2306489944458,
      "epoch": 0.15,
      "learning_rate": 4.873239436619719e-06,
      "loss": 10.7378,
      "step": 173,
      "task_loss": 4.378617763519287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.238370895385742,
      "epoch": 0.15,
      "learning_rate": 4.901408450704226e-06,
      "loss": 9.673,
      "step": 174,
      "task_loss": 4.414499282836914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.979421615600586,
      "epoch": 0.15,
      "learning_rate": 4.929577464788732e-06,
      "loss": 11.127,
      "step": 175,
      "task_loss": 4.457372188568115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.48719596862793,
      "epoch": 0.15,
      "learning_rate": 4.9577464788732395e-06,
      "loss": 10.3078,
      "step": 176,
      "task_loss": 4.589346408843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.89100170135498,
      "epoch": 0.15,
      "learning_rate": 4.985915492957747e-06,
      "loss": 9.451,
      "step": 177,
      "task_loss": 4.415113925933838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.30606746673584,
      "epoch": 0.15,
      "learning_rate": 5.014084507042253e-06,
      "loss": 10.3613,
      "step": 178,
      "task_loss": 4.371075630187988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.752979278564453,
      "epoch": 0.15,
      "learning_rate": 5.0422535211267604e-06,
      "loss": 10.5584,
      "step": 179,
      "task_loss": 4.4004621505737305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.77967357635498,
      "epoch": 0.15,
      "learning_rate": 5.070422535211268e-06,
      "loss": 9.6219,
      "step": 180,
      "task_loss": 4.3466620445251465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.760498046875,
      "epoch": 0.15,
      "learning_rate": 5.098591549295775e-06,
      "loss": 10.3036,
      "step": 181,
      "task_loss": 4.416411876678467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.75898265838623,
      "epoch": 0.15,
      "learning_rate": 5.126760563380282e-06,
      "loss": 10.6311,
      "step": 182,
      "task_loss": 4.370694160461426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.72964096069336,
      "epoch": 0.15,
      "learning_rate": 5.1549295774647894e-06,
      "loss": 10.2341,
      "step": 183,
      "task_loss": 4.471965789794922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.091055870056152,
      "epoch": 0.16,
      "learning_rate": 5.183098591549296e-06,
      "loss": 10.0255,
      "step": 184,
      "task_loss": 4.4736785888671875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.57967758178711,
      "epoch": 0.16,
      "learning_rate": 5.211267605633803e-06,
      "loss": 10.3222,
      "step": 185,
      "task_loss": 4.55633544921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.28968620300293,
      "epoch": 0.16,
      "learning_rate": 5.23943661971831e-06,
      "loss": 9.8487,
      "step": 186,
      "task_loss": 4.16321325302124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.754732131958008,
      "epoch": 0.16,
      "learning_rate": 5.267605633802817e-06,
      "loss": 10.9906,
      "step": 187,
      "task_loss": 4.37198543548584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.801636695861816,
      "epoch": 0.16,
      "learning_rate": 5.295774647887324e-06,
      "loss": 11.022,
      "step": 188,
      "task_loss": 4.3986430168151855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.378889083862305,
      "epoch": 0.16,
      "learning_rate": 5.323943661971831e-06,
      "loss": 10.438,
      "step": 189,
      "task_loss": 4.494696617126465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.736745834350586,
      "epoch": 0.16,
      "learning_rate": 5.3521126760563385e-06,
      "loss": 10.7332,
      "step": 190,
      "task_loss": 4.18865442276001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 13.501799583435059,
      "epoch": 0.16,
      "learning_rate": 5.380281690140846e-06,
      "loss": 11.8028,
      "step": 191,
      "task_loss": 4.429253578186035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.79987907409668,
      "epoch": 0.16,
      "learning_rate": 5.408450704225353e-06,
      "loss": 10.9764,
      "step": 192,
      "task_loss": 4.41756010055542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.542933464050293,
      "epoch": 0.16,
      "learning_rate": 5.436619718309859e-06,
      "loss": 10.2711,
      "step": 193,
      "task_loss": 4.3243327140808105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.842691421508789,
      "epoch": 0.16,
      "learning_rate": 5.464788732394367e-06,
      "loss": 10.1009,
      "step": 194,
      "task_loss": 4.55487060546875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.616206169128418,
      "epoch": 0.16,
      "learning_rate": 5.492957746478874e-06,
      "loss": 10.7875,
      "step": 195,
      "task_loss": 4.329843044281006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.590604782104492,
      "epoch": 0.17,
      "learning_rate": 5.52112676056338e-06,
      "loss": 10.3911,
      "step": 196,
      "task_loss": 4.5238938331604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.000479698181152,
      "epoch": 0.17,
      "learning_rate": 5.5492957746478875e-06,
      "loss": 10.4168,
      "step": 197,
      "task_loss": 4.3793134689331055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.460063934326172,
      "epoch": 0.17,
      "learning_rate": 5.577464788732395e-06,
      "loss": 10.1978,
      "step": 198,
      "task_loss": 4.384171485900879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.920083999633789,
      "epoch": 0.17,
      "learning_rate": 5.605633802816901e-06,
      "loss": 10.3119,
      "step": 199,
      "task_loss": 4.390791893005371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.767108917236328,
      "epoch": 0.17,
      "learning_rate": 5.6338028169014084e-06,
      "loss": 10.2315,
      "step": 200,
      "task_loss": 4.503992557525635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.830652236938477,
      "epoch": 0.17,
      "learning_rate": 5.661971830985916e-06,
      "loss": 11.2811,
      "step": 201,
      "task_loss": 4.384411334991455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.112621307373047,
      "epoch": 0.17,
      "learning_rate": 5.690140845070423e-06,
      "loss": 10.383,
      "step": 202,
      "task_loss": 4.314823150634766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.200511932373047,
      "epoch": 0.17,
      "learning_rate": 5.71830985915493e-06,
      "loss": 10.2679,
      "step": 203,
      "task_loss": 4.3806867599487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 12.78781509399414,
      "epoch": 0.17,
      "learning_rate": 5.746478873239437e-06,
      "loss": 10.8044,
      "step": 204,
      "task_loss": 4.352518558502197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.330766677856445,
      "epoch": 0.17,
      "learning_rate": 5.774647887323944e-06,
      "loss": 10.2156,
      "step": 205,
      "task_loss": 4.301047325134277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.77873420715332,
      "epoch": 0.17,
      "learning_rate": 5.802816901408451e-06,
      "loss": 9.8538,
      "step": 206,
      "task_loss": 4.104227542877197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.026676177978516,
      "epoch": 0.17,
      "learning_rate": 5.8309859154929575e-06,
      "loss": 9.9709,
      "step": 207,
      "task_loss": 4.47815465927124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.114535331726074,
      "epoch": 0.18,
      "learning_rate": 5.859154929577465e-06,
      "loss": 9.5795,
      "step": 208,
      "task_loss": 4.561560153961182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.44635009765625,
      "epoch": 0.18,
      "learning_rate": 5.887323943661972e-06,
      "loss": 10.4955,
      "step": 209,
      "task_loss": 4.331540584564209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.757562637329102,
      "epoch": 0.18,
      "learning_rate": 5.915492957746479e-06,
      "loss": 10.5591,
      "step": 210,
      "task_loss": 4.241861343383789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.213203430175781,
      "epoch": 0.18,
      "learning_rate": 5.9436619718309865e-06,
      "loss": 9.7532,
      "step": 211,
      "task_loss": 4.209874629974365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.92913818359375,
      "epoch": 0.18,
      "learning_rate": 5.971830985915494e-06,
      "loss": 10.6379,
      "step": 212,
      "task_loss": 4.351600170135498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.87527847290039,
      "epoch": 0.18,
      "learning_rate": 6e-06,
      "loss": 10.2812,
      "step": 213,
      "task_loss": 4.040771961212158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.90794563293457,
      "epoch": 0.18,
      "learning_rate": 6.028169014084507e-06,
      "loss": 9.5434,
      "step": 214,
      "task_loss": 4.383078575134277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.192621231079102,
      "epoch": 0.18,
      "learning_rate": 6.056338028169015e-06,
      "loss": 10.1422,
      "step": 215,
      "task_loss": 4.140993595123291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.495984077453613,
      "epoch": 0.18,
      "learning_rate": 6.084507042253521e-06,
      "loss": 10.5979,
      "step": 216,
      "task_loss": 4.143148899078369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.57532024383545,
      "epoch": 0.18,
      "learning_rate": 6.112676056338028e-06,
      "loss": 9.2703,
      "step": 217,
      "task_loss": 4.275446891784668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.774991989135742,
      "epoch": 0.18,
      "learning_rate": 6.1408450704225356e-06,
      "loss": 9.6062,
      "step": 218,
      "task_loss": 4.373274803161621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.115221977233887,
      "epoch": 0.19,
      "learning_rate": 6.169014084507042e-06,
      "loss": 9.1257,
      "step": 219,
      "task_loss": 4.054250240325928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.839506149291992,
      "epoch": 0.19,
      "learning_rate": 6.19718309859155e-06,
      "loss": 9.6512,
      "step": 220,
      "task_loss": 4.007802963256836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.441226959228516,
      "epoch": 0.19,
      "learning_rate": 6.225352112676057e-06,
      "loss": 10.3522,
      "step": 221,
      "task_loss": 4.351891994476318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.545177459716797,
      "epoch": 0.19,
      "learning_rate": 6.2535211267605646e-06,
      "loss": 9.6603,
      "step": 222,
      "task_loss": 3.86029052734375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.518407821655273,
      "epoch": 0.19,
      "learning_rate": 6.28169014084507e-06,
      "loss": 9.3919,
      "step": 223,
      "task_loss": 4.194509983062744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.588296890258789,
      "epoch": 0.19,
      "learning_rate": 6.309859154929577e-06,
      "loss": 9.7471,
      "step": 224,
      "task_loss": 4.295816898345947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.81348705291748,
      "epoch": 0.19,
      "learning_rate": 6.338028169014085e-06,
      "loss": 9.6351,
      "step": 225,
      "task_loss": 3.8114185333251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.824386596679688,
      "epoch": 0.19,
      "learning_rate": 6.366197183098592e-06,
      "loss": 10.7292,
      "step": 226,
      "task_loss": 4.024959087371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.342994689941406,
      "epoch": 0.19,
      "learning_rate": 6.394366197183099e-06,
      "loss": 10.4315,
      "step": 227,
      "task_loss": 4.115330219268799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.08212661743164,
      "epoch": 0.19,
      "learning_rate": 6.422535211267606e-06,
      "loss": 10.1037,
      "step": 228,
      "task_loss": 4.2968668937683105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.851308822631836,
      "epoch": 0.19,
      "learning_rate": 6.450704225352113e-06,
      "loss": 9.5469,
      "step": 229,
      "task_loss": 4.182309150695801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.134824752807617,
      "epoch": 0.19,
      "learning_rate": 6.47887323943662e-06,
      "loss": 9.9529,
      "step": 230,
      "task_loss": 4.4332380294799805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.498416900634766,
      "epoch": 0.2,
      "learning_rate": 6.507042253521127e-06,
      "loss": 10.3518,
      "step": 231,
      "task_loss": 4.068986892700195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.684327125549316,
      "epoch": 0.2,
      "learning_rate": 6.5352112676056345e-06,
      "loss": 9.9438,
      "step": 232,
      "task_loss": 4.112462520599365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.226621627807617,
      "epoch": 0.2,
      "learning_rate": 6.563380281690142e-06,
      "loss": 10.0708,
      "step": 233,
      "task_loss": 4.249608516693115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.985512733459473,
      "epoch": 0.2,
      "learning_rate": 6.591549295774649e-06,
      "loss": 9.872,
      "step": 234,
      "task_loss": 3.784219741821289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.859283447265625,
      "epoch": 0.2,
      "learning_rate": 6.6197183098591546e-06,
      "loss": 9.9938,
      "step": 235,
      "task_loss": 4.243819236755371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.167388916015625,
      "epoch": 0.2,
      "learning_rate": 6.647887323943662e-06,
      "loss": 9.667,
      "step": 236,
      "task_loss": 4.195701599121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.539896965026855,
      "epoch": 0.2,
      "learning_rate": 6.676056338028169e-06,
      "loss": 9.8673,
      "step": 237,
      "task_loss": 4.219735145568848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.817333221435547,
      "epoch": 0.2,
      "learning_rate": 6.704225352112676e-06,
      "loss": 9.5121,
      "step": 238,
      "task_loss": 4.044241905212402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.902064323425293,
      "epoch": 0.2,
      "learning_rate": 6.7323943661971836e-06,
      "loss": 10.0664,
      "step": 239,
      "task_loss": 4.094220161437988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.120040893554688,
      "epoch": 0.2,
      "learning_rate": 6.76056338028169e-06,
      "loss": 9.6749,
      "step": 240,
      "task_loss": 4.270837783813477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.744121551513672,
      "epoch": 0.2,
      "learning_rate": 6.788732394366197e-06,
      "loss": 9.9371,
      "step": 241,
      "task_loss": 4.072160720825195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.062346458435059,
      "epoch": 0.2,
      "learning_rate": 6.8169014084507045e-06,
      "loss": 9.9015,
      "step": 242,
      "task_loss": 4.017858505249023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.848584175109863,
      "epoch": 0.21,
      "learning_rate": 6.845070422535212e-06,
      "loss": 9.6946,
      "step": 243,
      "task_loss": 4.02824068069458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.353474617004395,
      "epoch": 0.21,
      "learning_rate": 6.873239436619719e-06,
      "loss": 10.0184,
      "step": 244,
      "task_loss": 4.092763900756836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.516221046447754,
      "epoch": 0.21,
      "learning_rate": 6.901408450704226e-06,
      "loss": 9.4275,
      "step": 245,
      "task_loss": 3.878628730773926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.124242782592773,
      "epoch": 0.21,
      "learning_rate": 6.929577464788732e-06,
      "loss": 9.845,
      "step": 246,
      "task_loss": 3.8637027740478516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.710416793823242,
      "epoch": 0.21,
      "learning_rate": 6.957746478873239e-06,
      "loss": 10.0719,
      "step": 247,
      "task_loss": 3.8311970233917236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.422137260437012,
      "epoch": 0.21,
      "learning_rate": 6.985915492957746e-06,
      "loss": 9.8397,
      "step": 248,
      "task_loss": 3.901399850845337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.122580528259277,
      "epoch": 0.21,
      "learning_rate": 7.014084507042254e-06,
      "loss": 10.5474,
      "step": 249,
      "task_loss": 3.919623613357544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.491177558898926,
      "epoch": 0.21,
      "learning_rate": 7.042253521126762e-06,
      "loss": 10.127,
      "step": 250,
      "task_loss": 4.0034356117248535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.696395874023438,
      "epoch": 0.21,
      "learning_rate": 7.070422535211269e-06,
      "loss": 9.1054,
      "step": 251,
      "task_loss": 3.9972379207611084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.478248596191406,
      "epoch": 0.21,
      "learning_rate": 7.098591549295774e-06,
      "loss": 10.1703,
      "step": 252,
      "task_loss": 4.159002304077148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.108709335327148,
      "epoch": 0.21,
      "learning_rate": 7.126760563380282e-06,
      "loss": 8.2715,
      "step": 253,
      "task_loss": 3.971951723098755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.508358001708984,
      "epoch": 0.21,
      "learning_rate": 7.154929577464789e-06,
      "loss": 9.7633,
      "step": 254,
      "task_loss": 4.063025951385498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.901662826538086,
      "epoch": 0.22,
      "learning_rate": 7.183098591549296e-06,
      "loss": 9.6771,
      "step": 255,
      "task_loss": 3.71547532081604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.490808486938477,
      "epoch": 0.22,
      "learning_rate": 7.211267605633803e-06,
      "loss": 9.8222,
      "step": 256,
      "task_loss": 4.068603992462158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.375261306762695,
      "epoch": 0.22,
      "learning_rate": 7.239436619718311e-06,
      "loss": 9.2053,
      "step": 257,
      "task_loss": 3.844226837158203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.037941932678223,
      "epoch": 0.22,
      "learning_rate": 7.267605633802817e-06,
      "loss": 9.0197,
      "step": 258,
      "task_loss": 4.190129280090332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.490335464477539,
      "epoch": 0.22,
      "learning_rate": 7.295774647887324e-06,
      "loss": 8.6459,
      "step": 259,
      "task_loss": 4.026490211486816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.559481620788574,
      "epoch": 0.22,
      "learning_rate": 7.3239436619718316e-06,
      "loss": 9.8627,
      "step": 260,
      "task_loss": 3.555706024169922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.304780006408691,
      "epoch": 0.22,
      "learning_rate": 7.352112676056339e-06,
      "loss": 9.7161,
      "step": 261,
      "task_loss": 3.4398550987243652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.942546844482422,
      "epoch": 0.22,
      "learning_rate": 7.380281690140846e-06,
      "loss": 9.9393,
      "step": 262,
      "task_loss": 3.7509469985961914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.587044715881348,
      "epoch": 0.22,
      "learning_rate": 7.408450704225353e-06,
      "loss": 9.0398,
      "step": 263,
      "task_loss": 3.8700292110443115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.495553970336914,
      "epoch": 0.22,
      "learning_rate": 7.436619718309859e-06,
      "loss": 9.9945,
      "step": 264,
      "task_loss": 3.711794853210449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.818904876708984,
      "epoch": 0.22,
      "learning_rate": 7.464788732394366e-06,
      "loss": 9.3025,
      "step": 265,
      "task_loss": 3.944291591644287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.385010719299316,
      "epoch": 0.22,
      "learning_rate": 7.492957746478873e-06,
      "loss": 8.954,
      "step": 266,
      "task_loss": 3.5303120613098145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.85380744934082,
      "epoch": 0.23,
      "learning_rate": 7.521126760563381e-06,
      "loss": 9.0208,
      "step": 267,
      "task_loss": 4.139451026916504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.270426750183105,
      "epoch": 0.23,
      "learning_rate": 7.549295774647888e-06,
      "loss": 9.3873,
      "step": 268,
      "task_loss": 3.715198278427124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.696300506591797,
      "epoch": 0.23,
      "learning_rate": 7.577464788732394e-06,
      "loss": 8.6848,
      "step": 269,
      "task_loss": 3.6412222385406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.976898193359375,
      "epoch": 0.23,
      "learning_rate": 7.6056338028169015e-06,
      "loss": 9.6739,
      "step": 270,
      "task_loss": 3.4873697757720947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.14134407043457,
      "epoch": 0.23,
      "learning_rate": 7.633802816901409e-06,
      "loss": 8.9568,
      "step": 271,
      "task_loss": 3.926787853240967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.90835189819336,
      "epoch": 0.23,
      "learning_rate": 7.661971830985916e-06,
      "loss": 9.0015,
      "step": 272,
      "task_loss": 3.7651710510253906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.074337005615234,
      "epoch": 0.23,
      "learning_rate": 7.690140845070423e-06,
      "loss": 9.7344,
      "step": 273,
      "task_loss": 3.8010449409484863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.617801666259766,
      "epoch": 0.23,
      "learning_rate": 7.71830985915493e-06,
      "loss": 9.7256,
      "step": 274,
      "task_loss": 3.441756248474121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.971430778503418,
      "epoch": 0.23,
      "learning_rate": 7.746478873239436e-06,
      "loss": 10.0853,
      "step": 275,
      "task_loss": 3.8108794689178467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.826993942260742,
      "epoch": 0.23,
      "learning_rate": 7.774647887323943e-06,
      "loss": 9.1404,
      "step": 276,
      "task_loss": 3.615917682647705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 11.469215393066406,
      "epoch": 0.23,
      "learning_rate": 7.80281690140845e-06,
      "loss": 9.4083,
      "step": 277,
      "task_loss": 3.83221173286438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.845389366149902,
      "epoch": 0.23,
      "learning_rate": 7.830985915492958e-06,
      "loss": 9.3367,
      "step": 278,
      "task_loss": 3.8096020221710205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.282831192016602,
      "epoch": 0.24,
      "learning_rate": 7.859154929577465e-06,
      "loss": 9.475,
      "step": 279,
      "task_loss": 3.779928684234619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.57934856414795,
      "epoch": 0.24,
      "learning_rate": 7.887323943661972e-06,
      "loss": 9.4847,
      "step": 280,
      "task_loss": 3.735959529876709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.969745635986328,
      "epoch": 0.24,
      "learning_rate": 7.915492957746478e-06,
      "loss": 9.1712,
      "step": 281,
      "task_loss": 3.793896198272705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.756889343261719,
      "epoch": 0.24,
      "learning_rate": 7.943661971830985e-06,
      "loss": 9.5545,
      "step": 282,
      "task_loss": 3.868887424468994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.840197563171387,
      "epoch": 0.24,
      "learning_rate": 7.971830985915494e-06,
      "loss": 9.1474,
      "step": 283,
      "task_loss": 3.5532660484313965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.261518478393555,
      "epoch": 0.24,
      "learning_rate": 8.000000000000001e-06,
      "loss": 8.8779,
      "step": 284,
      "task_loss": 3.4109644889831543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.404696464538574,
      "epoch": 0.24,
      "learning_rate": 8.028169014084509e-06,
      "loss": 8.6047,
      "step": 285,
      "task_loss": 3.8750998973846436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.01717472076416,
      "epoch": 0.24,
      "learning_rate": 8.056338028169016e-06,
      "loss": 8.8935,
      "step": 286,
      "task_loss": 3.4817116260528564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.608448028564453,
      "epoch": 0.24,
      "learning_rate": 8.084507042253521e-06,
      "loss": 9.083,
      "step": 287,
      "task_loss": 3.6901144981384277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.794292449951172,
      "epoch": 0.24,
      "learning_rate": 8.112676056338029e-06,
      "loss": 8.8886,
      "step": 288,
      "task_loss": 3.8568289279937744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.6219635009765625,
      "epoch": 0.24,
      "learning_rate": 8.140845070422536e-06,
      "loss": 8.0855,
      "step": 289,
      "task_loss": 3.8076083660125732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.150201797485352,
      "epoch": 0.24,
      "learning_rate": 8.169014084507043e-06,
      "loss": 8.4486,
      "step": 290,
      "task_loss": 3.328174591064453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.08449935913086,
      "epoch": 0.25,
      "learning_rate": 8.19718309859155e-06,
      "loss": 8.6462,
      "step": 291,
      "task_loss": 3.8236074447631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.212358474731445,
      "epoch": 0.25,
      "learning_rate": 8.225352112676056e-06,
      "loss": 8.6692,
      "step": 292,
      "task_loss": 3.365229606628418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.166473388671875,
      "epoch": 0.25,
      "learning_rate": 8.253521126760563e-06,
      "loss": 8.1912,
      "step": 293,
      "task_loss": 3.2412304878234863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.429041862487793,
      "epoch": 0.25,
      "learning_rate": 8.28169014084507e-06,
      "loss": 8.6753,
      "step": 294,
      "task_loss": 3.43083119392395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.556553840637207,
      "epoch": 0.25,
      "learning_rate": 8.309859154929578e-06,
      "loss": 8.7377,
      "step": 295,
      "task_loss": 3.623307466506958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.763278007507324,
      "epoch": 0.25,
      "learning_rate": 8.338028169014085e-06,
      "loss": 8.6758,
      "step": 296,
      "task_loss": 3.8599281311035156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.50567626953125,
      "epoch": 0.25,
      "learning_rate": 8.366197183098592e-06,
      "loss": 8.2804,
      "step": 297,
      "task_loss": 3.5250017642974854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.019044876098633,
      "epoch": 0.25,
      "learning_rate": 8.394366197183098e-06,
      "loss": 8.4272,
      "step": 298,
      "task_loss": 3.287724256515503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.530113220214844,
      "epoch": 0.25,
      "learning_rate": 8.422535211267605e-06,
      "loss": 8.5335,
      "step": 299,
      "task_loss": 3.365999460220337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.690508842468262,
      "epoch": 0.25,
      "learning_rate": 8.450704225352112e-06,
      "loss": 8.8478,
      "step": 300,
      "task_loss": 3.702277898788452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.846294403076172,
      "epoch": 0.25,
      "learning_rate": 8.47887323943662e-06,
      "loss": 8.743,
      "step": 301,
      "task_loss": 3.1246697902679443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.066999435424805,
      "epoch": 0.26,
      "learning_rate": 8.507042253521127e-06,
      "loss": 8.939,
      "step": 302,
      "task_loss": 3.4893457889556885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.889676094055176,
      "epoch": 0.26,
      "learning_rate": 8.535211267605634e-06,
      "loss": 8.1868,
      "step": 303,
      "task_loss": 3.2983694076538086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.633882522583008,
      "epoch": 0.26,
      "learning_rate": 8.563380281690141e-06,
      "loss": 8.5168,
      "step": 304,
      "task_loss": 3.6111299991607666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.143087387084961,
      "epoch": 0.26,
      "learning_rate": 8.591549295774648e-06,
      "loss": 8.9639,
      "step": 305,
      "task_loss": 3.544762134552002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.48599624633789,
      "epoch": 0.26,
      "learning_rate": 8.619718309859156e-06,
      "loss": 8.6602,
      "step": 306,
      "task_loss": 2.927975654602051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.809699058532715,
      "epoch": 0.26,
      "learning_rate": 8.647887323943663e-06,
      "loss": 8.6622,
      "step": 307,
      "task_loss": 2.973365545272827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.480162143707275,
      "epoch": 0.26,
      "learning_rate": 8.67605633802817e-06,
      "loss": 8.059,
      "step": 308,
      "task_loss": 3.3903987407684326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.841232776641846,
      "epoch": 0.26,
      "learning_rate": 8.704225352112677e-06,
      "loss": 8.8033,
      "step": 309,
      "task_loss": 3.6406338214874268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.625747680664062,
      "epoch": 0.26,
      "learning_rate": 8.732394366197183e-06,
      "loss": 7.4533,
      "step": 310,
      "task_loss": 3.4544565677642822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.78294849395752,
      "epoch": 0.26,
      "learning_rate": 8.76056338028169e-06,
      "loss": 8.392,
      "step": 311,
      "task_loss": 3.6611454486846924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.210204124450684,
      "epoch": 0.26,
      "learning_rate": 8.788732394366198e-06,
      "loss": 8.7675,
      "step": 312,
      "task_loss": 3.154282331466675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.979257583618164,
      "epoch": 0.26,
      "learning_rate": 8.816901408450705e-06,
      "loss": 8.4982,
      "step": 313,
      "task_loss": 3.34869384765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 10.051904678344727,
      "epoch": 0.27,
      "learning_rate": 8.845070422535212e-06,
      "loss": 8.2877,
      "step": 314,
      "task_loss": 3.707380771636963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.192636489868164,
      "epoch": 0.27,
      "learning_rate": 8.87323943661972e-06,
      "loss": 7.9243,
      "step": 315,
      "task_loss": 3.2126760482788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.602607727050781,
      "epoch": 0.27,
      "learning_rate": 8.901408450704225e-06,
      "loss": 8.735,
      "step": 316,
      "task_loss": 3.2603938579559326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.971074104309082,
      "epoch": 0.27,
      "learning_rate": 8.929577464788732e-06,
      "loss": 8.2543,
      "step": 317,
      "task_loss": 3.4197936058044434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.479056358337402,
      "epoch": 0.27,
      "learning_rate": 8.95774647887324e-06,
      "loss": 7.7128,
      "step": 318,
      "task_loss": 3.061222553253174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.430188179016113,
      "epoch": 0.27,
      "learning_rate": 8.985915492957747e-06,
      "loss": 8.6526,
      "step": 319,
      "task_loss": 3.7191739082336426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.039786338806152,
      "epoch": 0.27,
      "learning_rate": 9.014084507042254e-06,
      "loss": 8.8419,
      "step": 320,
      "task_loss": 3.383272886276245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.464742660522461,
      "epoch": 0.27,
      "learning_rate": 9.042253521126761e-06,
      "loss": 7.5427,
      "step": 321,
      "task_loss": 3.3240768909454346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.464814186096191,
      "epoch": 0.27,
      "learning_rate": 9.070422535211268e-06,
      "loss": 8.1164,
      "step": 322,
      "task_loss": 2.848857879638672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.866616725921631,
      "epoch": 0.27,
      "learning_rate": 9.098591549295776e-06,
      "loss": 8.6757,
      "step": 323,
      "task_loss": 3.534390449523926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.659099578857422,
      "epoch": 0.27,
      "learning_rate": 9.126760563380283e-06,
      "loss": 7.6514,
      "step": 324,
      "task_loss": 2.9656589031219482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.151924133300781,
      "epoch": 0.27,
      "learning_rate": 9.15492957746479e-06,
      "loss": 8.3515,
      "step": 325,
      "task_loss": 2.939431667327881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.243948459625244,
      "epoch": 0.28,
      "learning_rate": 9.183098591549297e-06,
      "loss": 7.703,
      "step": 326,
      "task_loss": 3.165945053100586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.604759216308594,
      "epoch": 0.28,
      "learning_rate": 9.211267605633803e-06,
      "loss": 8.1792,
      "step": 327,
      "task_loss": 3.1140804290771484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.991395950317383,
      "epoch": 0.28,
      "learning_rate": 9.23943661971831e-06,
      "loss": 7.9834,
      "step": 328,
      "task_loss": 3.0847387313842773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.874151229858398,
      "epoch": 0.28,
      "learning_rate": 9.267605633802817e-06,
      "loss": 8.1444,
      "step": 329,
      "task_loss": 3.2763946056365967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.521008491516113,
      "epoch": 0.28,
      "learning_rate": 9.295774647887325e-06,
      "loss": 7.7667,
      "step": 330,
      "task_loss": 2.8071932792663574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.044706344604492,
      "epoch": 0.28,
      "learning_rate": 9.323943661971832e-06,
      "loss": 7.58,
      "step": 331,
      "task_loss": 2.8021326065063477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.263099670410156,
      "epoch": 0.28,
      "learning_rate": 9.35211267605634e-06,
      "loss": 7.9718,
      "step": 332,
      "task_loss": 3.213937759399414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.965255737304688,
      "epoch": 0.28,
      "learning_rate": 9.380281690140845e-06,
      "loss": 8.3957,
      "step": 333,
      "task_loss": 2.7993907928466797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.224508285522461,
      "epoch": 0.28,
      "learning_rate": 9.408450704225352e-06,
      "loss": 7.7606,
      "step": 334,
      "task_loss": 3.2044272422790527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.041767120361328,
      "epoch": 0.28,
      "learning_rate": 9.43661971830986e-06,
      "loss": 8.744,
      "step": 335,
      "task_loss": 3.2426023483276367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.501925468444824,
      "epoch": 0.28,
      "learning_rate": 9.464788732394366e-06,
      "loss": 7.8225,
      "step": 336,
      "task_loss": 3.0217390060424805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.55257511138916,
      "epoch": 0.28,
      "learning_rate": 9.492957746478874e-06,
      "loss": 7.49,
      "step": 337,
      "task_loss": 3.094108819961548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.507192134857178,
      "epoch": 0.29,
      "learning_rate": 9.521126760563381e-06,
      "loss": 7.8533,
      "step": 338,
      "task_loss": 2.891679525375366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.00389575958252,
      "epoch": 0.29,
      "learning_rate": 9.549295774647887e-06,
      "loss": 7.632,
      "step": 339,
      "task_loss": 3.2321176528930664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.377330303192139,
      "epoch": 0.29,
      "learning_rate": 9.577464788732394e-06,
      "loss": 7.3427,
      "step": 340,
      "task_loss": 3.0627033710479736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.172029495239258,
      "epoch": 0.29,
      "learning_rate": 9.605633802816901e-06,
      "loss": 7.5764,
      "step": 341,
      "task_loss": 3.1100919246673584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.69929027557373,
      "epoch": 0.29,
      "learning_rate": 9.63380281690141e-06,
      "loss": 7.8047,
      "step": 342,
      "task_loss": 3.3254153728485107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.6726884841918945,
      "epoch": 0.29,
      "learning_rate": 9.661971830985917e-06,
      "loss": 7.8201,
      "step": 343,
      "task_loss": 3.1534392833709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.117541313171387,
      "epoch": 0.29,
      "learning_rate": 9.690140845070424e-06,
      "loss": 7.8886,
      "step": 344,
      "task_loss": 3.047461748123169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.083487510681152,
      "epoch": 0.29,
      "learning_rate": 9.71830985915493e-06,
      "loss": 7.4447,
      "step": 345,
      "task_loss": 2.9252357482910156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.1089887619018555,
      "epoch": 0.29,
      "learning_rate": 9.746478873239437e-06,
      "loss": 7.5206,
      "step": 346,
      "task_loss": 3.010157585144043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.355757713317871,
      "epoch": 0.29,
      "learning_rate": 9.774647887323945e-06,
      "loss": 7.6536,
      "step": 347,
      "task_loss": 2.7569308280944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.296476364135742,
      "epoch": 0.29,
      "learning_rate": 9.802816901408452e-06,
      "loss": 7.2425,
      "step": 348,
      "task_loss": 3.1172635555267334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.624408721923828,
      "epoch": 0.29,
      "learning_rate": 9.830985915492959e-06,
      "loss": 7.3258,
      "step": 349,
      "task_loss": 2.573185920715332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.931515216827393,
      "epoch": 0.3,
      "learning_rate": 9.859154929577465e-06,
      "loss": 6.4304,
      "step": 350,
      "task_loss": 2.916036367416382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.645968914031982,
      "epoch": 0.3,
      "learning_rate": 9.887323943661972e-06,
      "loss": 7.5577,
      "step": 351,
      "task_loss": 2.5563416481018066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.758049011230469,
      "epoch": 0.3,
      "learning_rate": 9.915492957746479e-06,
      "loss": 7.7769,
      "step": 352,
      "task_loss": 3.1247825622558594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.702396392822266,
      "epoch": 0.3,
      "learning_rate": 9.943661971830986e-06,
      "loss": 7.0933,
      "step": 353,
      "task_loss": 2.4408838748931885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.078197479248047,
      "epoch": 0.3,
      "learning_rate": 9.971830985915494e-06,
      "loss": 7.9552,
      "step": 354,
      "task_loss": 2.6736903190612793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.677787780761719,
      "epoch": 0.3,
      "learning_rate": 1e-05,
      "loss": 7.3869,
      "step": 355,
      "task_loss": 3.348017454147339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.968388557434082,
      "epoch": 0.3,
      "learning_rate": 1.0028169014084506e-05,
      "loss": 6.5914,
      "step": 356,
      "task_loss": 2.9288525581359863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.626275539398193,
      "epoch": 0.3,
      "learning_rate": 1.0056338028169014e-05,
      "loss": 7.0251,
      "step": 357,
      "task_loss": 2.736698865890503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.667544841766357,
      "epoch": 0.3,
      "learning_rate": 1.0084507042253521e-05,
      "loss": 7.0727,
      "step": 358,
      "task_loss": 2.985847234725952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.359759330749512,
      "epoch": 0.3,
      "learning_rate": 1.0112676056338028e-05,
      "loss": 8.3772,
      "step": 359,
      "task_loss": 2.6650466918945312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.514115810394287,
      "epoch": 0.3,
      "learning_rate": 1.0140845070422535e-05,
      "loss": 7.0417,
      "step": 360,
      "task_loss": 3.2823915481567383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.380797863006592,
      "epoch": 0.3,
      "learning_rate": 1.0169014084507043e-05,
      "loss": 6.7848,
      "step": 361,
      "task_loss": 2.8131725788116455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.297064781188965,
      "epoch": 0.31,
      "learning_rate": 1.019718309859155e-05,
      "loss": 7.2644,
      "step": 362,
      "task_loss": 2.299675703048706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.568693161010742,
      "epoch": 0.31,
      "learning_rate": 1.0225352112676057e-05,
      "loss": 7.4765,
      "step": 363,
      "task_loss": 3.154043197631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.480041027069092,
      "epoch": 0.31,
      "learning_rate": 1.0253521126760564e-05,
      "loss": 6.6906,
      "step": 364,
      "task_loss": 2.8347115516662598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.940911293029785,
      "epoch": 0.31,
      "learning_rate": 1.0281690140845072e-05,
      "loss": 7.5154,
      "step": 365,
      "task_loss": 2.691312074661255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.140597343444824,
      "epoch": 0.31,
      "learning_rate": 1.0309859154929579e-05,
      "loss": 7.5492,
      "step": 366,
      "task_loss": 2.648038625717163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.027529716491699,
      "epoch": 0.31,
      "learning_rate": 1.0338028169014086e-05,
      "loss": 6.6344,
      "step": 367,
      "task_loss": 2.761312246322632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.6353607177734375,
      "epoch": 0.31,
      "learning_rate": 1.0366197183098592e-05,
      "loss": 6.2926,
      "step": 368,
      "task_loss": 2.9303057193756104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.875520706176758,
      "epoch": 0.31,
      "learning_rate": 1.0394366197183099e-05,
      "loss": 6.2892,
      "step": 369,
      "task_loss": 2.361325979232788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.972585201263428,
      "epoch": 0.31,
      "learning_rate": 1.0422535211267606e-05,
      "loss": 7.5614,
      "step": 370,
      "task_loss": 3.0235743522644043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.407526016235352,
      "epoch": 0.31,
      "learning_rate": 1.0450704225352113e-05,
      "loss": 7.2762,
      "step": 371,
      "task_loss": 2.4804024696350098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.310657501220703,
      "epoch": 0.31,
      "learning_rate": 1.047887323943662e-05,
      "loss": 7.3853,
      "step": 372,
      "task_loss": 1.8529287576675415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.052430629730225,
      "epoch": 0.32,
      "learning_rate": 1.0507042253521126e-05,
      "loss": 7.0679,
      "step": 373,
      "task_loss": 2.546995162963867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 9.159801483154297,
      "epoch": 0.32,
      "learning_rate": 1.0535211267605633e-05,
      "loss": 7.0588,
      "step": 374,
      "task_loss": 2.5175955295562744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.318206787109375,
      "epoch": 0.32,
      "learning_rate": 1.056338028169014e-05,
      "loss": 7.3538,
      "step": 375,
      "task_loss": 2.3775901794433594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.162003993988037,
      "epoch": 0.32,
      "learning_rate": 1.0591549295774648e-05,
      "loss": 6.4381,
      "step": 376,
      "task_loss": 1.9681452512741089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.141857147216797,
      "epoch": 0.32,
      "learning_rate": 1.0619718309859155e-05,
      "loss": 7.1329,
      "step": 377,
      "task_loss": 2.357860803604126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.626873970031738,
      "epoch": 0.32,
      "learning_rate": 1.0647887323943662e-05,
      "loss": 6.979,
      "step": 378,
      "task_loss": 2.879138469696045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.316118240356445,
      "epoch": 0.32,
      "learning_rate": 1.067605633802817e-05,
      "loss": 7.3342,
      "step": 379,
      "task_loss": 2.0899975299835205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.689858436584473,
      "epoch": 0.32,
      "learning_rate": 1.0704225352112677e-05,
      "loss": 6.5487,
      "step": 380,
      "task_loss": 2.7448863983154297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.519338130950928,
      "epoch": 0.32,
      "learning_rate": 1.0732394366197184e-05,
      "loss": 6.9483,
      "step": 381,
      "task_loss": 2.334686756134033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.875733852386475,
      "epoch": 0.32,
      "learning_rate": 1.0760563380281691e-05,
      "loss": 6.4557,
      "step": 382,
      "task_loss": 2.491464614868164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.825099945068359,
      "epoch": 0.32,
      "learning_rate": 1.0788732394366199e-05,
      "loss": 6.8655,
      "step": 383,
      "task_loss": 3.117288589477539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.160243034362793,
      "epoch": 0.32,
      "learning_rate": 1.0816901408450706e-05,
      "loss": 6.6322,
      "step": 384,
      "task_loss": 1.9919565916061401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.787468910217285,
      "epoch": 0.33,
      "learning_rate": 1.0845070422535212e-05,
      "loss": 6.7109,
      "step": 385,
      "task_loss": 2.7341253757476807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.57350492477417,
      "epoch": 0.33,
      "learning_rate": 1.0873239436619719e-05,
      "loss": 6.5287,
      "step": 386,
      "task_loss": 2.167433500289917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.9347100257873535,
      "epoch": 0.33,
      "learning_rate": 1.0901408450704226e-05,
      "loss": 6.2481,
      "step": 387,
      "task_loss": 2.6592373847961426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.932929992675781,
      "epoch": 0.33,
      "learning_rate": 1.0929577464788733e-05,
      "loss": 5.7928,
      "step": 388,
      "task_loss": 2.261199951171875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.426111221313477,
      "epoch": 0.33,
      "learning_rate": 1.095774647887324e-05,
      "loss": 6.5075,
      "step": 389,
      "task_loss": 2.9510440826416016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.829806327819824,
      "epoch": 0.33,
      "learning_rate": 1.0985915492957748e-05,
      "loss": 6.3899,
      "step": 390,
      "task_loss": 2.6163406372070312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.5053582191467285,
      "epoch": 0.33,
      "learning_rate": 1.1014084507042253e-05,
      "loss": 6.8194,
      "step": 391,
      "task_loss": 2.7447805404663086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.601184844970703,
      "epoch": 0.33,
      "learning_rate": 1.104225352112676e-05,
      "loss": 6.6808,
      "step": 392,
      "task_loss": 2.228890895843506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.306127548217773,
      "epoch": 0.33,
      "learning_rate": 1.1070422535211268e-05,
      "loss": 5.984,
      "step": 393,
      "task_loss": 2.4058828353881836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.898892402648926,
      "epoch": 0.33,
      "learning_rate": 1.1098591549295775e-05,
      "loss": 5.8397,
      "step": 394,
      "task_loss": 2.6670429706573486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.8198561668396,
      "epoch": 0.33,
      "learning_rate": 1.1126760563380282e-05,
      "loss": 6.9361,
      "step": 395,
      "task_loss": 2.5320956707000732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.62319278717041,
      "epoch": 0.33,
      "learning_rate": 1.115492957746479e-05,
      "loss": 6.3765,
      "step": 396,
      "task_loss": 2.3790512084960938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.039251804351807,
      "epoch": 0.34,
      "learning_rate": 1.1183098591549295e-05,
      "loss": 6.6642,
      "step": 397,
      "task_loss": 2.634848117828369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.362253189086914,
      "epoch": 0.34,
      "learning_rate": 1.1211267605633802e-05,
      "loss": 6.0084,
      "step": 398,
      "task_loss": 2.47275447845459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.417665958404541,
      "epoch": 0.34,
      "learning_rate": 1.123943661971831e-05,
      "loss": 6.6793,
      "step": 399,
      "task_loss": 1.8105794191360474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.832834720611572,
      "epoch": 0.34,
      "learning_rate": 1.1267605633802817e-05,
      "loss": 6.757,
      "step": 400,
      "task_loss": 2.3159563541412354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.8216962814331055,
      "epoch": 0.34,
      "learning_rate": 1.1295774647887324e-05,
      "loss": 5.7547,
      "step": 401,
      "task_loss": 2.656388282775879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 8.020660400390625,
      "epoch": 0.34,
      "learning_rate": 1.1323943661971831e-05,
      "loss": 6.4662,
      "step": 402,
      "task_loss": 3.0721511840820312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.687561988830566,
      "epoch": 0.34,
      "learning_rate": 1.1352112676056339e-05,
      "loss": 5.9544,
      "step": 403,
      "task_loss": 1.8456882238388062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.287472724914551,
      "epoch": 0.34,
      "learning_rate": 1.1380281690140846e-05,
      "loss": 5.9388,
      "step": 404,
      "task_loss": 2.1965091228485107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.423454761505127,
      "epoch": 0.34,
      "learning_rate": 1.1408450704225353e-05,
      "loss": 6.4311,
      "step": 405,
      "task_loss": 2.3210530281066895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.702147483825684,
      "epoch": 0.34,
      "learning_rate": 1.143661971830986e-05,
      "loss": 5.9905,
      "step": 406,
      "task_loss": 1.5442860126495361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.609010696411133,
      "epoch": 0.34,
      "learning_rate": 1.1464788732394368e-05,
      "loss": 5.9327,
      "step": 407,
      "task_loss": 1.617924690246582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.825512886047363,
      "epoch": 0.34,
      "learning_rate": 1.1492957746478873e-05,
      "loss": 6.0024,
      "step": 408,
      "task_loss": 2.636655807495117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.43419075012207,
      "epoch": 0.35,
      "learning_rate": 1.152112676056338e-05,
      "loss": 6.2661,
      "step": 409,
      "task_loss": 1.966934084892273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.335294723510742,
      "epoch": 0.35,
      "learning_rate": 1.1549295774647888e-05,
      "loss": 6.4056,
      "step": 410,
      "task_loss": 1.8101224899291992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.057373046875,
      "epoch": 0.35,
      "learning_rate": 1.1577464788732395e-05,
      "loss": 6.5344,
      "step": 411,
      "task_loss": 2.5225822925567627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.744077682495117,
      "epoch": 0.35,
      "learning_rate": 1.1605633802816902e-05,
      "loss": 6.4567,
      "step": 412,
      "task_loss": 1.5260555744171143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.335652828216553,
      "epoch": 0.35,
      "learning_rate": 1.163380281690141e-05,
      "loss": 6.0228,
      "step": 413,
      "task_loss": 2.2052457332611084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.340767860412598,
      "epoch": 0.35,
      "learning_rate": 1.1661971830985915e-05,
      "loss": 5.6168,
      "step": 414,
      "task_loss": 2.4265236854553223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.463897705078125,
      "epoch": 0.35,
      "learning_rate": 1.1690140845070422e-05,
      "loss": 5.8554,
      "step": 415,
      "task_loss": 1.9620351791381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.8635125160217285,
      "epoch": 0.35,
      "learning_rate": 1.171830985915493e-05,
      "loss": 5.7437,
      "step": 416,
      "task_loss": 1.9623647928237915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.634193420410156,
      "epoch": 0.35,
      "learning_rate": 1.1746478873239437e-05,
      "loss": 6.4659,
      "step": 417,
      "task_loss": 2.11674427986145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.007228851318359,
      "epoch": 0.35,
      "learning_rate": 1.1774647887323944e-05,
      "loss": 5.7283,
      "step": 418,
      "task_loss": 2.2864298820495605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.314881801605225,
      "epoch": 0.35,
      "learning_rate": 1.1802816901408451e-05,
      "loss": 5.6146,
      "step": 419,
      "task_loss": 2.134979009628296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.317595958709717,
      "epoch": 0.35,
      "learning_rate": 1.1830985915492958e-05,
      "loss": 5.4815,
      "step": 420,
      "task_loss": 2.7087595462799072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.101804733276367,
      "epoch": 0.36,
      "learning_rate": 1.1859154929577466e-05,
      "loss": 5.2587,
      "step": 421,
      "task_loss": 1.9626675844192505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.282543659210205,
      "epoch": 0.36,
      "learning_rate": 1.1887323943661973e-05,
      "loss": 5.8673,
      "step": 422,
      "task_loss": 1.7465267181396484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.894416332244873,
      "epoch": 0.36,
      "learning_rate": 1.191549295774648e-05,
      "loss": 5.2359,
      "step": 423,
      "task_loss": 2.1099681854248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.275361061096191,
      "epoch": 0.36,
      "learning_rate": 1.1943661971830987e-05,
      "loss": 6.1923,
      "step": 424,
      "task_loss": 2.41560435295105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 7.7496747970581055,
      "epoch": 0.36,
      "learning_rate": 1.1971830985915493e-05,
      "loss": 5.7994,
      "step": 425,
      "task_loss": 1.7629340887069702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.424802780151367,
      "epoch": 0.36,
      "learning_rate": 1.2e-05,
      "loss": 6.0565,
      "step": 426,
      "task_loss": 3.1678268909454346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.775101184844971,
      "epoch": 0.36,
      "learning_rate": 1.2028169014084508e-05,
      "loss": 5.437,
      "step": 427,
      "task_loss": 2.5030019283294678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.5718865394592285,
      "epoch": 0.36,
      "learning_rate": 1.2056338028169015e-05,
      "loss": 5.3078,
      "step": 428,
      "task_loss": 2.5066275596618652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.6953606605529785,
      "epoch": 0.36,
      "learning_rate": 1.2084507042253522e-05,
      "loss": 5.607,
      "step": 429,
      "task_loss": 1.7345818281173706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.635362148284912,
      "epoch": 0.36,
      "learning_rate": 1.211267605633803e-05,
      "loss": 5.476,
      "step": 430,
      "task_loss": 2.7133171558380127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.189793586730957,
      "epoch": 0.36,
      "learning_rate": 1.2140845070422535e-05,
      "loss": 5.2298,
      "step": 431,
      "task_loss": 2.466742515563965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.4330878257751465,
      "epoch": 0.36,
      "learning_rate": 1.2169014084507042e-05,
      "loss": 6.2072,
      "step": 432,
      "task_loss": 2.3112761974334717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.968086242675781,
      "epoch": 0.37,
      "learning_rate": 1.219718309859155e-05,
      "loss": 5.5535,
      "step": 433,
      "task_loss": 2.097911834716797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.492676734924316,
      "epoch": 0.37,
      "learning_rate": 1.2225352112676057e-05,
      "loss": 5.5296,
      "step": 434,
      "task_loss": 2.252678394317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.1550397872924805,
      "epoch": 0.37,
      "learning_rate": 1.2253521126760564e-05,
      "loss": 5.559,
      "step": 435,
      "task_loss": 1.138802170753479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.325154781341553,
      "epoch": 0.37,
      "learning_rate": 1.2281690140845071e-05,
      "loss": 5.007,
      "step": 436,
      "task_loss": 2.09116530418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.556341171264648,
      "epoch": 0.37,
      "learning_rate": 1.2309859154929577e-05,
      "loss": 5.3766,
      "step": 437,
      "task_loss": 2.468707323074341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.4613447189331055,
      "epoch": 0.37,
      "learning_rate": 1.2338028169014084e-05,
      "loss": 5.1892,
      "step": 438,
      "task_loss": 1.9713608026504517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.277791976928711,
      "epoch": 0.37,
      "learning_rate": 1.2366197183098593e-05,
      "loss": 4.9623,
      "step": 439,
      "task_loss": 2.349102735519409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.458353042602539,
      "epoch": 0.37,
      "learning_rate": 1.23943661971831e-05,
      "loss": 5.1038,
      "step": 440,
      "task_loss": 1.8657505512237549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.963713645935059,
      "epoch": 0.37,
      "learning_rate": 1.2422535211267607e-05,
      "loss": 4.8747,
      "step": 441,
      "task_loss": 1.6702121496200562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.383641242980957,
      "epoch": 0.37,
      "learning_rate": 1.2450704225352115e-05,
      "loss": 5.2964,
      "step": 442,
      "task_loss": 1.7730185985565186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.641238689422607,
      "epoch": 0.37,
      "learning_rate": 1.247887323943662e-05,
      "loss": 5.4705,
      "step": 443,
      "task_loss": 2.4815330505371094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.389098167419434,
      "epoch": 0.38,
      "learning_rate": 1.2507042253521129e-05,
      "loss": 5.1952,
      "step": 444,
      "task_loss": 2.0686488151550293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.659499168395996,
      "epoch": 0.38,
      "learning_rate": 1.2535211267605635e-05,
      "loss": 5.1908,
      "step": 445,
      "task_loss": 1.7178361415863037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.29627799987793,
      "epoch": 0.38,
      "learning_rate": 1.256338028169014e-05,
      "loss": 4.7346,
      "step": 446,
      "task_loss": 1.6672016382217407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.6648406982421875,
      "epoch": 0.38,
      "learning_rate": 1.259154929577465e-05,
      "loss": 5.2578,
      "step": 447,
      "task_loss": 1.8567981719970703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.176135540008545,
      "epoch": 0.38,
      "learning_rate": 1.2619718309859155e-05,
      "loss": 4.7599,
      "step": 448,
      "task_loss": 1.5530396699905396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.645479202270508,
      "epoch": 0.38,
      "learning_rate": 1.2647887323943664e-05,
      "loss": 4.2562,
      "step": 449,
      "task_loss": 2.2281363010406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.526419639587402,
      "epoch": 0.38,
      "learning_rate": 1.267605633802817e-05,
      "loss": 5.2562,
      "step": 450,
      "task_loss": 1.6496117115020752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.975046157836914,
      "epoch": 0.38,
      "learning_rate": 1.2704225352112675e-05,
      "loss": 5.1088,
      "step": 451,
      "task_loss": 1.6631581783294678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.691431999206543,
      "epoch": 0.38,
      "learning_rate": 1.2732394366197184e-05,
      "loss": 5.079,
      "step": 452,
      "task_loss": 1.981769323348999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.153226852416992,
      "epoch": 0.38,
      "learning_rate": 1.276056338028169e-05,
      "loss": 5.4982,
      "step": 453,
      "task_loss": 1.962629795074463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.165278911590576,
      "epoch": 0.38,
      "learning_rate": 1.2788732394366198e-05,
      "loss": 5.4447,
      "step": 454,
      "task_loss": 2.170316219329834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.76801061630249,
      "epoch": 0.38,
      "learning_rate": 1.2816901408450704e-05,
      "loss": 5.0138,
      "step": 455,
      "task_loss": 2.1612648963928223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.014156341552734,
      "epoch": 0.39,
      "learning_rate": 1.2845070422535213e-05,
      "loss": 4.9387,
      "step": 456,
      "task_loss": 1.503078818321228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.167777061462402,
      "epoch": 0.39,
      "learning_rate": 1.2873239436619718e-05,
      "loss": 5.6637,
      "step": 457,
      "task_loss": 2.17938232421875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.8170061111450195,
      "epoch": 0.39,
      "learning_rate": 1.2901408450704226e-05,
      "loss": 4.6709,
      "step": 458,
      "task_loss": 2.34438419342041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.80134916305542,
      "epoch": 0.39,
      "learning_rate": 1.2929577464788733e-05,
      "loss": 4.1809,
      "step": 459,
      "task_loss": 1.4715136289596558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.870413303375244,
      "epoch": 0.39,
      "learning_rate": 1.295774647887324e-05,
      "loss": 4.46,
      "step": 460,
      "task_loss": 2.2589077949523926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.976487636566162,
      "epoch": 0.39,
      "learning_rate": 1.2985915492957749e-05,
      "loss": 4.8763,
      "step": 461,
      "task_loss": 1.99483323097229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.734901428222656,
      "epoch": 0.39,
      "learning_rate": 1.3014084507042255e-05,
      "loss": 4.557,
      "step": 462,
      "task_loss": 1.6392884254455566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.892328262329102,
      "epoch": 0.39,
      "learning_rate": 1.304225352112676e-05,
      "loss": 4.7721,
      "step": 463,
      "task_loss": 1.7658814191818237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.592401504516602,
      "epoch": 0.39,
      "learning_rate": 1.3070422535211269e-05,
      "loss": 4.7685,
      "step": 464,
      "task_loss": 1.7762761116027832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.010746955871582,
      "epoch": 0.39,
      "learning_rate": 1.3098591549295775e-05,
      "loss": 4.5594,
      "step": 465,
      "task_loss": 1.809626579284668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.708662033081055,
      "epoch": 0.39,
      "learning_rate": 1.3126760563380284e-05,
      "loss": 4.883,
      "step": 466,
      "task_loss": 2.0015037059783936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.425746917724609,
      "epoch": 0.39,
      "learning_rate": 1.3154929577464789e-05,
      "loss": 4.921,
      "step": 467,
      "task_loss": 1.4553717374801636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.030062675476074,
      "epoch": 0.4,
      "learning_rate": 1.3183098591549298e-05,
      "loss": 4.8975,
      "step": 468,
      "task_loss": 1.9168205261230469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.054338455200195,
      "epoch": 0.4,
      "learning_rate": 1.3211267605633804e-05,
      "loss": 4.7026,
      "step": 469,
      "task_loss": 1.5936261415481567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.021197319030762,
      "epoch": 0.4,
      "learning_rate": 1.3239436619718309e-05,
      "loss": 4.5822,
      "step": 470,
      "task_loss": 2.4459683895111084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.034005641937256,
      "epoch": 0.4,
      "learning_rate": 1.3267605633802818e-05,
      "loss": 4.861,
      "step": 471,
      "task_loss": 1.8167698383331299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.40986967086792,
      "epoch": 0.4,
      "learning_rate": 1.3295774647887324e-05,
      "loss": 4.624,
      "step": 472,
      "task_loss": 1.7690730094909668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.652115821838379,
      "epoch": 0.4,
      "learning_rate": 1.3323943661971833e-05,
      "loss": 4.9469,
      "step": 473,
      "task_loss": 1.5728529691696167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.479743480682373,
      "epoch": 0.4,
      "learning_rate": 1.3352112676056338e-05,
      "loss": 4.2529,
      "step": 474,
      "task_loss": 1.422099232673645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.027270317077637,
      "epoch": 0.4,
      "learning_rate": 1.3380281690140845e-05,
      "loss": 4.9862,
      "step": 475,
      "task_loss": 1.2742600440979004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.533626556396484,
      "epoch": 0.4,
      "learning_rate": 1.3408450704225353e-05,
      "loss": 4.8484,
      "step": 476,
      "task_loss": 2.153365135192871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.344356536865234,
      "epoch": 0.4,
      "learning_rate": 1.343661971830986e-05,
      "loss": 4.7074,
      "step": 477,
      "task_loss": 1.7212892770767212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.367631435394287,
      "epoch": 0.4,
      "learning_rate": 1.3464788732394367e-05,
      "loss": 4.5214,
      "step": 478,
      "task_loss": 2.682474136352539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6466073989868164,
      "epoch": 0.4,
      "learning_rate": 1.3492957746478874e-05,
      "loss": 3.966,
      "step": 479,
      "task_loss": 2.036750078201294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 6.014623641967773,
      "epoch": 0.41,
      "learning_rate": 1.352112676056338e-05,
      "loss": 4.7547,
      "step": 480,
      "task_loss": 2.1078786849975586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.491680145263672,
      "epoch": 0.41,
      "learning_rate": 1.3549295774647889e-05,
      "loss": 4.8602,
      "step": 481,
      "task_loss": 2.774101495742798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.545058727264404,
      "epoch": 0.41,
      "learning_rate": 1.3577464788732394e-05,
      "loss": 4.4193,
      "step": 482,
      "task_loss": 1.5826956033706665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.66225528717041,
      "epoch": 0.41,
      "learning_rate": 1.3605633802816903e-05,
      "loss": 4.6291,
      "step": 483,
      "task_loss": 1.8062714338302612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.48625373840332,
      "epoch": 0.41,
      "learning_rate": 1.3633802816901409e-05,
      "loss": 4.543,
      "step": 484,
      "task_loss": 1.469786286354065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.348448753356934,
      "epoch": 0.41,
      "learning_rate": 1.3661971830985918e-05,
      "loss": 4.6631,
      "step": 485,
      "task_loss": 2.100823163986206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.386277675628662,
      "epoch": 0.41,
      "learning_rate": 1.3690140845070423e-05,
      "loss": 3.9344,
      "step": 486,
      "task_loss": 1.5757336616516113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.583735466003418,
      "epoch": 0.41,
      "learning_rate": 1.3718309859154929e-05,
      "loss": 4.505,
      "step": 487,
      "task_loss": 1.696644902229309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.987791061401367,
      "epoch": 0.41,
      "learning_rate": 1.3746478873239438e-05,
      "loss": 4.5897,
      "step": 488,
      "task_loss": 1.454193115234375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.7178471088409424,
      "epoch": 0.41,
      "learning_rate": 1.3774647887323943e-05,
      "loss": 4.5046,
      "step": 489,
      "task_loss": 1.6560149192810059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.322027206420898,
      "epoch": 0.41,
      "learning_rate": 1.3802816901408452e-05,
      "loss": 4.6219,
      "step": 490,
      "task_loss": 1.3628454208374023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.011401176452637,
      "epoch": 0.41,
      "learning_rate": 1.3830985915492958e-05,
      "loss": 4.4868,
      "step": 491,
      "task_loss": 1.4787832498550415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.560376167297363,
      "epoch": 0.42,
      "learning_rate": 1.3859154929577464e-05,
      "loss": 4.3755,
      "step": 492,
      "task_loss": 1.821246862411499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.015873432159424,
      "epoch": 0.42,
      "learning_rate": 1.3887323943661972e-05,
      "loss": 4.059,
      "step": 493,
      "task_loss": 2.150442600250244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.43079948425293,
      "epoch": 0.42,
      "learning_rate": 1.3915492957746478e-05,
      "loss": 4.4465,
      "step": 494,
      "task_loss": 1.63032066822052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.230546951293945,
      "epoch": 0.42,
      "learning_rate": 1.3943661971830987e-05,
      "loss": 3.9347,
      "step": 495,
      "task_loss": 2.1113345623016357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.571636199951172,
      "epoch": 0.42,
      "learning_rate": 1.3971830985915493e-05,
      "loss": 4.1927,
      "step": 496,
      "task_loss": 2.2503652572631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.891207695007324,
      "epoch": 0.42,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 4.5598,
      "step": 497,
      "task_loss": 1.677118182182312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.944802284240723,
      "epoch": 0.42,
      "learning_rate": 1.4028169014084509e-05,
      "loss": 4.5944,
      "step": 498,
      "task_loss": 1.3673174381256104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3295037746429443,
      "epoch": 0.42,
      "learning_rate": 1.4056338028169014e-05,
      "loss": 3.6315,
      "step": 499,
      "task_loss": 1.2290605306625366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.096893787384033,
      "epoch": 0.42,
      "learning_rate": 1.4084507042253523e-05,
      "loss": 3.8787,
      "step": 500,
      "task_loss": 1.007515549659729
    },
    {
      "epoch": 0.42,
      "eval_accuracy": 0.7163168316831683,
      "eval_loss": 3.9970788955688477,
      "eval_runtime": 209.9035,
      "eval_samples_per_second": 120.293,
      "eval_steps_per_second": 0.943,
      "step": 500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6166276931762695,
      "epoch": 0.42,
      "learning_rate": 1.4112676056338029e-05,
      "loss": 4.179,
      "step": 501,
      "task_loss": 2.1177053451538086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.112758159637451,
      "epoch": 0.42,
      "learning_rate": 1.4140845070422538e-05,
      "loss": 4.122,
      "step": 502,
      "task_loss": 1.1636425256729126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.054601192474365,
      "epoch": 0.42,
      "learning_rate": 1.4169014084507043e-05,
      "loss": 4.0992,
      "step": 503,
      "task_loss": 1.3891127109527588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.384589195251465,
      "epoch": 0.43,
      "learning_rate": 1.4197183098591549e-05,
      "loss": 3.9424,
      "step": 504,
      "task_loss": 1.8737651109695435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.473025321960449,
      "epoch": 0.43,
      "learning_rate": 1.4225352112676058e-05,
      "loss": 3.8042,
      "step": 505,
      "task_loss": 1.904947280883789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.354865550994873,
      "epoch": 0.43,
      "learning_rate": 1.4253521126760563e-05,
      "loss": 3.3452,
      "step": 506,
      "task_loss": 1.4950652122497559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3768842220306396,
      "epoch": 0.43,
      "learning_rate": 1.4281690140845072e-05,
      "loss": 3.8154,
      "step": 507,
      "task_loss": 0.8713154792785645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.34188175201416,
      "epoch": 0.43,
      "learning_rate": 1.4309859154929578e-05,
      "loss": 3.9933,
      "step": 508,
      "task_loss": 0.8645720481872559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.059744834899902,
      "epoch": 0.43,
      "learning_rate": 1.4338028169014083e-05,
      "loss": 4.1655,
      "step": 509,
      "task_loss": 1.5869700908660889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.584723949432373,
      "epoch": 0.43,
      "learning_rate": 1.4366197183098592e-05,
      "loss": 3.9234,
      "step": 510,
      "task_loss": 1.9012998342514038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.2749104499816895,
      "epoch": 0.43,
      "learning_rate": 1.4394366197183098e-05,
      "loss": 3.7552,
      "step": 511,
      "task_loss": 1.674513816833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.051058769226074,
      "epoch": 0.43,
      "learning_rate": 1.4422535211267607e-05,
      "loss": 3.6376,
      "step": 512,
      "task_loss": 1.4297312498092651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.7422566413879395,
      "epoch": 0.43,
      "learning_rate": 1.4450704225352112e-05,
      "loss": 4.6421,
      "step": 513,
      "task_loss": 1.3113099336624146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.4815096855163574,
      "epoch": 0.43,
      "learning_rate": 1.4478873239436621e-05,
      "loss": 3.451,
      "step": 514,
      "task_loss": 1.6122208833694458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.7584569454193115,
      "epoch": 0.44,
      "learning_rate": 1.4507042253521127e-05,
      "loss": 3.8569,
      "step": 515,
      "task_loss": 1.7796612977981567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.8626341819763184,
      "epoch": 0.44,
      "learning_rate": 1.4535211267605634e-05,
      "loss": 3.2844,
      "step": 516,
      "task_loss": 1.6421499252319336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.093626499176025,
      "epoch": 0.44,
      "learning_rate": 1.4563380281690141e-05,
      "loss": 3.6682,
      "step": 517,
      "task_loss": 2.0482263565063477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.046904563903809,
      "epoch": 0.44,
      "learning_rate": 1.4591549295774649e-05,
      "loss": 3.4497,
      "step": 518,
      "task_loss": 1.434609293937683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.737701416015625,
      "epoch": 0.44,
      "learning_rate": 1.4619718309859156e-05,
      "loss": 3.4914,
      "step": 519,
      "task_loss": 1.9826374053955078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.628640174865723,
      "epoch": 0.44,
      "learning_rate": 1.4647887323943663e-05,
      "loss": 4.0874,
      "step": 520,
      "task_loss": 1.3740766048431396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.27382755279541,
      "epoch": 0.44,
      "learning_rate": 1.4676056338028169e-05,
      "loss": 3.758,
      "step": 521,
      "task_loss": 1.5452888011932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.164515495300293,
      "epoch": 0.44,
      "learning_rate": 1.4704225352112678e-05,
      "loss": 3.7604,
      "step": 522,
      "task_loss": 1.3976974487304688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.492462635040283,
      "epoch": 0.44,
      "learning_rate": 1.4732394366197183e-05,
      "loss": 3.3159,
      "step": 523,
      "task_loss": 1.4963033199310303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.437184810638428,
      "epoch": 0.44,
      "learning_rate": 1.4760563380281692e-05,
      "loss": 3.3655,
      "step": 524,
      "task_loss": 1.2165933847427368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.5983920097351074,
      "epoch": 0.44,
      "learning_rate": 1.4788732394366198e-05,
      "loss": 3.506,
      "step": 525,
      "task_loss": 1.4860986471176147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6944451332092285,
      "epoch": 0.44,
      "learning_rate": 1.4816901408450707e-05,
      "loss": 3.731,
      "step": 526,
      "task_loss": 1.3080295324325562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.71939754486084,
      "epoch": 0.45,
      "learning_rate": 1.4845070422535212e-05,
      "loss": 3.3072,
      "step": 527,
      "task_loss": 1.7853186130523682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.128744125366211,
      "epoch": 0.45,
      "learning_rate": 1.4873239436619718e-05,
      "loss": 3.5789,
      "step": 528,
      "task_loss": 1.944583773612976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.9824602603912354,
      "epoch": 0.45,
      "learning_rate": 1.4901408450704227e-05,
      "loss": 3.5889,
      "step": 529,
      "task_loss": 1.6610890626907349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.114217758178711,
      "epoch": 0.45,
      "learning_rate": 1.4929577464788732e-05,
      "loss": 3.7145,
      "step": 530,
      "task_loss": 1.4136425256729126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.364049911499023,
      "epoch": 0.45,
      "learning_rate": 1.4957746478873241e-05,
      "loss": 3.7412,
      "step": 531,
      "task_loss": 1.7477610111236572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.4147512912750244,
      "epoch": 0.45,
      "learning_rate": 1.4985915492957747e-05,
      "loss": 3.2816,
      "step": 532,
      "task_loss": 1.879472017288208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.9051833152770996,
      "epoch": 0.45,
      "learning_rate": 1.5014084507042252e-05,
      "loss": 3.7114,
      "step": 533,
      "task_loss": 1.655503511428833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.426325798034668,
      "epoch": 0.45,
      "learning_rate": 1.5042253521126761e-05,
      "loss": 3.4835,
      "step": 534,
      "task_loss": 1.6233099699020386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.682565689086914,
      "epoch": 0.45,
      "learning_rate": 1.5070422535211269e-05,
      "loss": 3.7549,
      "step": 535,
      "task_loss": 1.7456638813018799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.483036518096924,
      "epoch": 0.45,
      "learning_rate": 1.5098591549295776e-05,
      "loss": 3.2642,
      "step": 536,
      "task_loss": 1.8548330068588257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.704169273376465,
      "epoch": 0.45,
      "learning_rate": 1.5126760563380283e-05,
      "loss": 3.2959,
      "step": 537,
      "task_loss": 1.31657075881958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 5.36446475982666,
      "epoch": 0.45,
      "learning_rate": 1.5154929577464789e-05,
      "loss": 4.3327,
      "step": 538,
      "task_loss": 2.14127779006958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.7185497283935547,
      "epoch": 0.46,
      "learning_rate": 1.5183098591549298e-05,
      "loss": 3.2373,
      "step": 539,
      "task_loss": 1.4561219215393066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.815772294998169,
      "epoch": 0.46,
      "learning_rate": 1.5211267605633803e-05,
      "loss": 3.4627,
      "step": 540,
      "task_loss": 1.257128119468689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.9190382957458496,
      "epoch": 0.46,
      "learning_rate": 1.5239436619718312e-05,
      "loss": 3.5863,
      "step": 541,
      "task_loss": 1.5523756742477417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.9574642181396484,
      "epoch": 0.46,
      "learning_rate": 1.5267605633802818e-05,
      "loss": 3.336,
      "step": 542,
      "task_loss": 1.0817890167236328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.695988178253174,
      "epoch": 0.46,
      "learning_rate": 1.5295774647887325e-05,
      "loss": 3.1959,
      "step": 543,
      "task_loss": 1.3092560768127441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3063454627990723,
      "epoch": 0.46,
      "learning_rate": 1.5323943661971832e-05,
      "loss": 3.4275,
      "step": 544,
      "task_loss": 1.324326753616333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.673339605331421,
      "epoch": 0.46,
      "learning_rate": 1.535211267605634e-05,
      "loss": 3.4777,
      "step": 545,
      "task_loss": 1.5655810832977295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6682281494140625,
      "epoch": 0.46,
      "learning_rate": 1.5380281690140847e-05,
      "loss": 3.4981,
      "step": 546,
      "task_loss": 0.8035436272621155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.274836540222168,
      "epoch": 0.46,
      "learning_rate": 1.5408450704225354e-05,
      "loss": 3.3545,
      "step": 547,
      "task_loss": 1.5687724351882935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.037229537963867,
      "epoch": 0.46,
      "learning_rate": 1.543661971830986e-05,
      "loss": 3.5097,
      "step": 548,
      "task_loss": 1.4525964260101318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.924689769744873,
      "epoch": 0.46,
      "learning_rate": 1.546478873239437e-05,
      "loss": 3.1174,
      "step": 549,
      "task_loss": 1.979385495185852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.198172569274902,
      "epoch": 0.46,
      "learning_rate": 1.5492957746478872e-05,
      "loss": 3.5753,
      "step": 550,
      "task_loss": 1.8374199867248535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.2524702548980713,
      "epoch": 0.47,
      "learning_rate": 1.5521126760563383e-05,
      "loss": 2.9681,
      "step": 551,
      "task_loss": 1.1076743602752686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.386861562728882,
      "epoch": 0.47,
      "learning_rate": 1.5549295774647887e-05,
      "loss": 2.972,
      "step": 552,
      "task_loss": 1.6688483953475952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.7125134468078613,
      "epoch": 0.47,
      "learning_rate": 1.5577464788732397e-05,
      "loss": 3.2117,
      "step": 553,
      "task_loss": 1.5057034492492676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.5738308429718018,
      "epoch": 0.47,
      "learning_rate": 1.56056338028169e-05,
      "loss": 3.135,
      "step": 554,
      "task_loss": 1.0897103548049927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.906282901763916,
      "epoch": 0.47,
      "learning_rate": 1.5633802816901412e-05,
      "loss": 3.2921,
      "step": 555,
      "task_loss": 1.3482651710510254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.7278647422790527,
      "epoch": 0.47,
      "learning_rate": 1.5661971830985916e-05,
      "loss": 3.1928,
      "step": 556,
      "task_loss": 1.2032959461212158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.076094627380371,
      "epoch": 0.47,
      "learning_rate": 1.5690140845070423e-05,
      "loss": 2.8717,
      "step": 557,
      "task_loss": 1.9845432043075562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6442253589630127,
      "epoch": 0.47,
      "learning_rate": 1.571830985915493e-05,
      "loss": 3.124,
      "step": 558,
      "task_loss": 1.4958018064498901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.571322202682495,
      "epoch": 0.47,
      "learning_rate": 1.5746478873239437e-05,
      "loss": 3.5713,
      "step": 559,
      "task_loss": 0.9030741453170776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.1229770183563232,
      "epoch": 0.47,
      "learning_rate": 1.5774647887323945e-05,
      "loss": 3.1903,
      "step": 560,
      "task_loss": 1.8160704374313354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.0462615489959717,
      "epoch": 0.47,
      "learning_rate": 1.5802816901408452e-05,
      "loss": 2.9044,
      "step": 561,
      "task_loss": 0.9207674264907837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.789585590362549,
      "epoch": 0.47,
      "learning_rate": 1.5830985915492956e-05,
      "loss": 3.3481,
      "step": 562,
      "task_loss": 1.4596476554870605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.9587173461914062,
      "epoch": 0.48,
      "learning_rate": 1.5859154929577466e-05,
      "loss": 3.1575,
      "step": 563,
      "task_loss": 1.487863302230835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.6891732215881348,
      "epoch": 0.48,
      "learning_rate": 1.588732394366197e-05,
      "loss": 2.8709,
      "step": 564,
      "task_loss": 1.8249479532241821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.65269136428833,
      "epoch": 0.48,
      "learning_rate": 1.591549295774648e-05,
      "loss": 3.187,
      "step": 565,
      "task_loss": 1.4860100746154785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.382808208465576,
      "epoch": 0.48,
      "learning_rate": 1.5943661971830988e-05,
      "loss": 3.0772,
      "step": 566,
      "task_loss": 1.0431417226791382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.926156759262085,
      "epoch": 0.48,
      "learning_rate": 1.5971830985915492e-05,
      "loss": 3.4196,
      "step": 567,
      "task_loss": 1.9890713691711426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.0714714527130127,
      "epoch": 0.48,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 2.9432,
      "step": 568,
      "task_loss": 0.8034501075744629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.356598138809204,
      "epoch": 0.48,
      "learning_rate": 1.6028169014084507e-05,
      "loss": 3.4319,
      "step": 569,
      "task_loss": 1.7381786108016968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.9565725326538086,
      "epoch": 0.48,
      "learning_rate": 1.6056338028169017e-05,
      "loss": 2.9744,
      "step": 570,
      "task_loss": 1.279245376586914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6690900325775146,
      "epoch": 0.48,
      "learning_rate": 1.608450704225352e-05,
      "loss": 2.9787,
      "step": 571,
      "task_loss": 0.9212945103645325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.928852081298828,
      "epoch": 0.48,
      "learning_rate": 1.611267605633803e-05,
      "loss": 2.6834,
      "step": 572,
      "task_loss": 1.183809757232666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.5316152572631836,
      "epoch": 0.48,
      "learning_rate": 1.6140845070422536e-05,
      "loss": 3.3059,
      "step": 573,
      "task_loss": 1.6690236330032349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.863335371017456,
      "epoch": 0.48,
      "learning_rate": 1.6169014084507043e-05,
      "loss": 3.1535,
      "step": 574,
      "task_loss": 1.5338009595870972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.614313840866089,
      "epoch": 0.49,
      "learning_rate": 1.619718309859155e-05,
      "loss": 3.2997,
      "step": 575,
      "task_loss": 1.6282873153686523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.4861743450164795,
      "epoch": 0.49,
      "learning_rate": 1.6225352112676057e-05,
      "loss": 3.2612,
      "step": 576,
      "task_loss": 1.2477585077285767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2992608547210693,
      "epoch": 0.49,
      "learning_rate": 1.6253521126760565e-05,
      "loss": 2.9295,
      "step": 577,
      "task_loss": 1.4416483640670776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.021012783050537,
      "epoch": 0.49,
      "learning_rate": 1.6281690140845072e-05,
      "loss": 3.2099,
      "step": 578,
      "task_loss": 1.879157543182373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3894143104553223,
      "epoch": 0.49,
      "learning_rate": 1.6309859154929576e-05,
      "loss": 2.751,
      "step": 579,
      "task_loss": 1.8970246315002441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.664910078048706,
      "epoch": 0.49,
      "learning_rate": 1.6338028169014086e-05,
      "loss": 3.3005,
      "step": 580,
      "task_loss": 1.495977520942688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.033362865447998,
      "epoch": 0.49,
      "learning_rate": 1.636619718309859e-05,
      "loss": 3.0385,
      "step": 581,
      "task_loss": 1.0157878398895264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.566267728805542,
      "epoch": 0.49,
      "learning_rate": 1.63943661971831e-05,
      "loss": 2.9337,
      "step": 582,
      "task_loss": 1.6010215282440186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8523974418640137,
      "epoch": 0.49,
      "learning_rate": 1.6422535211267605e-05,
      "loss": 3.0873,
      "step": 583,
      "task_loss": 0.8597267866134644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 4.0205159187316895,
      "epoch": 0.49,
      "learning_rate": 1.6450704225352112e-05,
      "loss": 3.4188,
      "step": 584,
      "task_loss": 1.4471458196640015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8184781074523926,
      "epoch": 0.49,
      "learning_rate": 1.647887323943662e-05,
      "loss": 3.0886,
      "step": 585,
      "task_loss": 1.6967302560806274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3995189666748047,
      "epoch": 0.5,
      "learning_rate": 1.6507042253521126e-05,
      "loss": 2.7489,
      "step": 586,
      "task_loss": 0.6230946183204651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.598870277404785,
      "epoch": 0.5,
      "learning_rate": 1.6535211267605634e-05,
      "loss": 2.5881,
      "step": 587,
      "task_loss": 1.3241996765136719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3678393363952637,
      "epoch": 0.5,
      "learning_rate": 1.656338028169014e-05,
      "loss": 3.1029,
      "step": 588,
      "task_loss": 2.0536115169525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.995225429534912,
      "epoch": 0.5,
      "learning_rate": 1.659154929577465e-05,
      "loss": 3.1701,
      "step": 589,
      "task_loss": 1.3865033388137817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6743292808532715,
      "epoch": 0.5,
      "learning_rate": 1.6619718309859155e-05,
      "loss": 2.7423,
      "step": 590,
      "task_loss": 1.6739667654037476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.7314577102661133,
      "epoch": 0.5,
      "learning_rate": 1.6647887323943663e-05,
      "loss": 2.5873,
      "step": 591,
      "task_loss": 1.1124565601348877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.859431266784668,
      "epoch": 0.5,
      "learning_rate": 1.667605633802817e-05,
      "loss": 3.1013,
      "step": 592,
      "task_loss": 1.1225887537002563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.116793632507324,
      "epoch": 0.5,
      "learning_rate": 1.6704225352112677e-05,
      "loss": 2.9514,
      "step": 593,
      "task_loss": 1.5750210285186768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6408908367156982,
      "epoch": 0.5,
      "learning_rate": 1.6732394366197184e-05,
      "loss": 2.5462,
      "step": 594,
      "task_loss": 0.9937089681625366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.0290231704711914,
      "epoch": 0.5,
      "learning_rate": 1.676056338028169e-05,
      "loss": 2.4723,
      "step": 595,
      "task_loss": 0.9639025926589966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.731489419937134,
      "epoch": 0.5,
      "learning_rate": 1.6788732394366195e-05,
      "loss": 2.5895,
      "step": 596,
      "task_loss": 1.720457673072815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.76826810836792,
      "epoch": 0.5,
      "learning_rate": 1.6816901408450706e-05,
      "loss": 2.68,
      "step": 597,
      "task_loss": 0.8113469481468201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.48366641998291,
      "epoch": 0.51,
      "learning_rate": 1.684507042253521e-05,
      "loss": 3.0298,
      "step": 598,
      "task_loss": 2.4095141887664795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1510400772094727,
      "epoch": 0.51,
      "learning_rate": 1.687323943661972e-05,
      "loss": 2.4897,
      "step": 599,
      "task_loss": 1.5691567659378052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9961298704147339,
      "epoch": 0.51,
      "learning_rate": 1.6901408450704224e-05,
      "loss": 2.6353,
      "step": 600,
      "task_loss": 1.1834359169006348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6826374530792236,
      "epoch": 0.51,
      "learning_rate": 1.6929577464788735e-05,
      "loss": 3.2572,
      "step": 601,
      "task_loss": 1.7965114116668701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.676723003387451,
      "epoch": 0.51,
      "learning_rate": 1.695774647887324e-05,
      "loss": 2.8414,
      "step": 602,
      "task_loss": 1.653803825378418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8152341842651367,
      "epoch": 0.51,
      "learning_rate": 1.6985915492957746e-05,
      "loss": 2.422,
      "step": 603,
      "task_loss": 1.2122632265090942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6073555946350098,
      "epoch": 0.51,
      "learning_rate": 1.7014084507042253e-05,
      "loss": 2.5811,
      "step": 604,
      "task_loss": 1.5323851108551025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.943655252456665,
      "epoch": 0.51,
      "learning_rate": 1.704225352112676e-05,
      "loss": 2.5063,
      "step": 605,
      "task_loss": 1.8971638679504395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.3647165298461914,
      "epoch": 0.51,
      "learning_rate": 1.7070422535211268e-05,
      "loss": 2.367,
      "step": 606,
      "task_loss": 1.0362067222595215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.826585292816162,
      "epoch": 0.51,
      "learning_rate": 1.7098591549295775e-05,
      "loss": 3.1291,
      "step": 607,
      "task_loss": 1.4940276145935059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8632750511169434,
      "epoch": 0.51,
      "learning_rate": 1.7126760563380282e-05,
      "loss": 2.776,
      "step": 608,
      "task_loss": 1.203714370727539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.323424816131592,
      "epoch": 0.51,
      "learning_rate": 1.715492957746479e-05,
      "loss": 2.8013,
      "step": 609,
      "task_loss": 1.3272455930709839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.242588996887207,
      "epoch": 0.52,
      "learning_rate": 1.7183098591549297e-05,
      "loss": 2.6089,
      "step": 610,
      "task_loss": 1.1587406396865845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3100194931030273,
      "epoch": 0.52,
      "learning_rate": 1.7211267605633804e-05,
      "loss": 2.2678,
      "step": 611,
      "task_loss": 1.2684319019317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3272950649261475,
      "epoch": 0.52,
      "learning_rate": 1.723943661971831e-05,
      "loss": 2.5438,
      "step": 612,
      "task_loss": 1.0473456382751465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5483145713806152,
      "epoch": 0.52,
      "learning_rate": 1.7267605633802815e-05,
      "loss": 2.6998,
      "step": 613,
      "task_loss": 1.6970114707946777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0766031742095947,
      "epoch": 0.52,
      "learning_rate": 1.7295774647887326e-05,
      "loss": 2.8675,
      "step": 614,
      "task_loss": 1.0120477676391602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6893787384033203,
      "epoch": 0.52,
      "learning_rate": 1.732394366197183e-05,
      "loss": 2.8008,
      "step": 615,
      "task_loss": 1.934200406074524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.888680934906006,
      "epoch": 0.52,
      "learning_rate": 1.735211267605634e-05,
      "loss": 2.8948,
      "step": 616,
      "task_loss": 1.9365462064743042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.160521984100342,
      "epoch": 0.52,
      "learning_rate": 1.7380281690140844e-05,
      "loss": 2.3905,
      "step": 617,
      "task_loss": 2.0256783962249756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4986763000488281,
      "epoch": 0.52,
      "learning_rate": 1.7408450704225355e-05,
      "loss": 2.1184,
      "step": 618,
      "task_loss": 0.9664560556411743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.4248886108398438,
      "epoch": 0.52,
      "learning_rate": 1.743661971830986e-05,
      "loss": 2.8243,
      "step": 619,
      "task_loss": 1.353227972984314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.7675399780273438,
      "epoch": 0.52,
      "learning_rate": 1.7464788732394366e-05,
      "loss": 2.4334,
      "step": 620,
      "task_loss": 1.3117276430130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.7830591201782227,
      "epoch": 0.52,
      "learning_rate": 1.7492957746478873e-05,
      "loss": 2.7845,
      "step": 621,
      "task_loss": 1.2904573678970337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8092398643493652,
      "epoch": 0.53,
      "learning_rate": 1.752112676056338e-05,
      "loss": 2.3692,
      "step": 622,
      "task_loss": 1.949466586112976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.4860198497772217,
      "epoch": 0.53,
      "learning_rate": 1.7549295774647888e-05,
      "loss": 2.102,
      "step": 623,
      "task_loss": 1.0180561542510986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.2898504734039307,
      "epoch": 0.53,
      "learning_rate": 1.7577464788732395e-05,
      "loss": 2.4718,
      "step": 624,
      "task_loss": 1.2684690952301025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5214316844940186,
      "epoch": 0.53,
      "learning_rate": 1.7605633802816902e-05,
      "loss": 2.8561,
      "step": 625,
      "task_loss": 1.3951313495635986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.829968214035034,
      "epoch": 0.53,
      "learning_rate": 1.763380281690141e-05,
      "loss": 3.08,
      "step": 626,
      "task_loss": 1.5317842960357666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5899343490600586,
      "epoch": 0.53,
      "learning_rate": 1.7661971830985917e-05,
      "loss": 2.4464,
      "step": 627,
      "task_loss": 1.0027706623077393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6261229515075684,
      "epoch": 0.53,
      "learning_rate": 1.7690140845070424e-05,
      "loss": 2.4661,
      "step": 628,
      "task_loss": 1.2766175270080566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8844032287597656,
      "epoch": 0.53,
      "learning_rate": 1.771830985915493e-05,
      "loss": 2.2292,
      "step": 629,
      "task_loss": 1.637429118156433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1943817138671875,
      "epoch": 0.53,
      "learning_rate": 1.774647887323944e-05,
      "loss": 2.2258,
      "step": 630,
      "task_loss": 1.7106339931488037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.150585651397705,
      "epoch": 0.53,
      "learning_rate": 1.7774647887323946e-05,
      "loss": 2.6845,
      "step": 631,
      "task_loss": 0.8921009302139282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5127146244049072,
      "epoch": 0.53,
      "learning_rate": 1.780281690140845e-05,
      "loss": 2.2368,
      "step": 632,
      "task_loss": 1.7971388101577759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.811774969100952,
      "epoch": 0.53,
      "learning_rate": 1.783098591549296e-05,
      "loss": 2.4531,
      "step": 633,
      "task_loss": 1.3252023458480835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.536064624786377,
      "epoch": 0.54,
      "learning_rate": 1.7859154929577464e-05,
      "loss": 2.8178,
      "step": 634,
      "task_loss": 1.3023265600204468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0318524837493896,
      "epoch": 0.54,
      "learning_rate": 1.7887323943661975e-05,
      "loss": 2.067,
      "step": 635,
      "task_loss": 0.6948379278182983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.328010320663452,
      "epoch": 0.54,
      "learning_rate": 1.791549295774648e-05,
      "loss": 2.4967,
      "step": 636,
      "task_loss": 1.8350281715393066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.099194288253784,
      "epoch": 0.54,
      "learning_rate": 1.7943661971830986e-05,
      "loss": 2.3365,
      "step": 637,
      "task_loss": 0.8786344528198242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.998077630996704,
      "epoch": 0.54,
      "learning_rate": 1.7971830985915493e-05,
      "loss": 2.284,
      "step": 638,
      "task_loss": 1.84226393699646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6775035858154297,
      "epoch": 0.54,
      "learning_rate": 1.8e-05,
      "loss": 2.7364,
      "step": 639,
      "task_loss": 0.5221678614616394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.422546148300171,
      "epoch": 0.54,
      "learning_rate": 1.8028169014084508e-05,
      "loss": 2.756,
      "step": 640,
      "task_loss": 1.4518271684646606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6454066038131714,
      "epoch": 0.54,
      "learning_rate": 1.8056338028169015e-05,
      "loss": 2.2618,
      "step": 641,
      "task_loss": 0.955149233341217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.470529079437256,
      "epoch": 0.54,
      "learning_rate": 1.8084507042253522e-05,
      "loss": 2.5944,
      "step": 642,
      "task_loss": 1.8390703201293945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8257336616516113,
      "epoch": 0.54,
      "learning_rate": 1.811267605633803e-05,
      "loss": 2.8414,
      "step": 643,
      "task_loss": 1.3773953914642334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.182842254638672,
      "epoch": 0.54,
      "learning_rate": 1.8140845070422537e-05,
      "loss": 2.4882,
      "step": 644,
      "task_loss": 0.8225191235542297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.537513256072998,
      "epoch": 0.54,
      "learning_rate": 1.8169014084507044e-05,
      "loss": 2.4207,
      "step": 645,
      "task_loss": 0.9990071058273315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.363530158996582,
      "epoch": 0.55,
      "learning_rate": 1.819718309859155e-05,
      "loss": 2.0541,
      "step": 646,
      "task_loss": 0.8603134155273438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.501936674118042,
      "epoch": 0.55,
      "learning_rate": 1.822535211267606e-05,
      "loss": 1.9278,
      "step": 647,
      "task_loss": 0.9532979130744934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.9918746948242188,
      "epoch": 0.55,
      "learning_rate": 1.8253521126760566e-05,
      "loss": 2.5251,
      "step": 648,
      "task_loss": 0.838292121887207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5707316398620605,
      "epoch": 0.55,
      "learning_rate": 1.828169014084507e-05,
      "loss": 2.0127,
      "step": 649,
      "task_loss": 0.9503273367881775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.8221964836120605,
      "epoch": 0.55,
      "learning_rate": 1.830985915492958e-05,
      "loss": 2.136,
      "step": 650,
      "task_loss": 1.5597987174987793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6967906951904297,
      "epoch": 0.55,
      "learning_rate": 1.8338028169014084e-05,
      "loss": 2.611,
      "step": 651,
      "task_loss": 1.574896216392517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.370274543762207,
      "epoch": 0.55,
      "learning_rate": 1.8366197183098595e-05,
      "loss": 1.8281,
      "step": 652,
      "task_loss": 1.0679010152816772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.859806537628174,
      "epoch": 0.55,
      "learning_rate": 1.83943661971831e-05,
      "loss": 2.1059,
      "step": 653,
      "task_loss": 0.8147316575050354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3680334091186523,
      "epoch": 0.55,
      "learning_rate": 1.8422535211267606e-05,
      "loss": 1.9351,
      "step": 654,
      "task_loss": 1.0542118549346924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.725268602371216,
      "epoch": 0.55,
      "learning_rate": 1.8450704225352113e-05,
      "loss": 2.2329,
      "step": 655,
      "task_loss": 0.8940112590789795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.849514961242676,
      "epoch": 0.55,
      "learning_rate": 1.847887323943662e-05,
      "loss": 2.2484,
      "step": 656,
      "task_loss": 1.4287128448486328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0484797954559326,
      "epoch": 0.56,
      "learning_rate": 1.8507042253521128e-05,
      "loss": 2.0038,
      "step": 657,
      "task_loss": 0.8824728727340698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5875442028045654,
      "epoch": 0.56,
      "learning_rate": 1.8535211267605635e-05,
      "loss": 2.5317,
      "step": 658,
      "task_loss": 0.922415018081665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0197553634643555,
      "epoch": 0.56,
      "learning_rate": 1.8563380281690142e-05,
      "loss": 2.1768,
      "step": 659,
      "task_loss": 1.2689388990402222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.419966220855713,
      "epoch": 0.56,
      "learning_rate": 1.859154929577465e-05,
      "loss": 2.612,
      "step": 660,
      "task_loss": 0.615218997001648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.7805733680725098,
      "epoch": 0.56,
      "learning_rate": 1.8619718309859157e-05,
      "loss": 2.4964,
      "step": 661,
      "task_loss": 1.0263174772262573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6156039237976074,
      "epoch": 0.56,
      "learning_rate": 1.8647887323943664e-05,
      "loss": 2.2224,
      "step": 662,
      "task_loss": 2.1494550704956055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0571534633636475,
      "epoch": 0.56,
      "learning_rate": 1.867605633802817e-05,
      "loss": 2.1002,
      "step": 663,
      "task_loss": 0.680842399597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.403670072555542,
      "epoch": 0.56,
      "learning_rate": 1.870422535211268e-05,
      "loss": 2.4136,
      "step": 664,
      "task_loss": 1.095179557800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.924905776977539,
      "epoch": 0.56,
      "learning_rate": 1.8732394366197186e-05,
      "loss": 2.158,
      "step": 665,
      "task_loss": 1.8632867336273193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5188846588134766,
      "epoch": 0.56,
      "learning_rate": 1.876056338028169e-05,
      "loss": 2.0325,
      "step": 666,
      "task_loss": 0.9695818424224854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2819626331329346,
      "epoch": 0.56,
      "learning_rate": 1.87887323943662e-05,
      "loss": 2.0652,
      "step": 667,
      "task_loss": 1.4170125722885132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5591800212860107,
      "epoch": 0.56,
      "learning_rate": 1.8816901408450704e-05,
      "loss": 2.2081,
      "step": 668,
      "task_loss": 2.0005176067352295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.368297576904297,
      "epoch": 0.57,
      "learning_rate": 1.8845070422535215e-05,
      "loss": 2.1216,
      "step": 669,
      "task_loss": 2.006211042404175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5429563522338867,
      "epoch": 0.57,
      "learning_rate": 1.887323943661972e-05,
      "loss": 2.426,
      "step": 670,
      "task_loss": 1.5953952074050903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6170248985290527,
      "epoch": 0.57,
      "learning_rate": 1.8901408450704226e-05,
      "loss": 2.6653,
      "step": 671,
      "task_loss": 1.6802127361297607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9930808544158936,
      "epoch": 0.57,
      "learning_rate": 1.8929577464788733e-05,
      "loss": 1.9811,
      "step": 672,
      "task_loss": 0.7351468801498413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2782530784606934,
      "epoch": 0.57,
      "learning_rate": 1.895774647887324e-05,
      "loss": 2.0612,
      "step": 673,
      "task_loss": 1.965089201927185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7626447677612305,
      "epoch": 0.57,
      "learning_rate": 1.8985915492957747e-05,
      "loss": 2.0099,
      "step": 674,
      "task_loss": 0.8866486549377441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.910172939300537,
      "epoch": 0.57,
      "learning_rate": 1.9014084507042255e-05,
      "loss": 2.41,
      "step": 675,
      "task_loss": 1.8536746501922607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.503964424133301,
      "epoch": 0.57,
      "learning_rate": 1.9042253521126762e-05,
      "loss": 2.3273,
      "step": 676,
      "task_loss": 1.0988515615463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.383261203765869,
      "epoch": 0.57,
      "learning_rate": 1.907042253521127e-05,
      "loss": 2.1475,
      "step": 677,
      "task_loss": 0.9046470522880554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9749959707260132,
      "epoch": 0.57,
      "learning_rate": 1.9098591549295773e-05,
      "loss": 1.9294,
      "step": 678,
      "task_loss": 0.6373335123062134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.980058193206787,
      "epoch": 0.57,
      "learning_rate": 1.9126760563380284e-05,
      "loss": 1.9847,
      "step": 679,
      "task_loss": 1.4337003231048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.343250274658203,
      "epoch": 0.57,
      "learning_rate": 1.9154929577464788e-05,
      "loss": 2.0189,
      "step": 680,
      "task_loss": 1.4706759452819824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.831944227218628,
      "epoch": 0.58,
      "learning_rate": 1.9183098591549298e-05,
      "loss": 2.2685,
      "step": 681,
      "task_loss": 1.04743492603302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.026303291320801,
      "epoch": 0.58,
      "learning_rate": 1.9211267605633802e-05,
      "loss": 2.3114,
      "step": 682,
      "task_loss": 0.8355689644813538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.091902732849121,
      "epoch": 0.58,
      "learning_rate": 1.923943661971831e-05,
      "loss": 2.1291,
      "step": 683,
      "task_loss": 1.4049513339996338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8017466068267822,
      "epoch": 0.58,
      "learning_rate": 1.926760563380282e-05,
      "loss": 1.8943,
      "step": 684,
      "task_loss": 1.2781094312667847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5578627586364746,
      "epoch": 0.58,
      "learning_rate": 1.9295774647887324e-05,
      "loss": 1.9125,
      "step": 685,
      "task_loss": 1.3223499059677124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 3.2198116779327393,
      "epoch": 0.58,
      "learning_rate": 1.9323943661971834e-05,
      "loss": 2.3383,
      "step": 686,
      "task_loss": 0.9937374591827393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.399663209915161,
      "epoch": 0.58,
      "learning_rate": 1.9352112676056338e-05,
      "loss": 1.9243,
      "step": 687,
      "task_loss": 1.9996898174285889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9192755222320557,
      "epoch": 0.58,
      "learning_rate": 1.938028169014085e-05,
      "loss": 1.8341,
      "step": 688,
      "task_loss": 1.3862757682800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9410579204559326,
      "epoch": 0.58,
      "learning_rate": 1.9408450704225353e-05,
      "loss": 1.8819,
      "step": 689,
      "task_loss": 0.7355526685714722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8633229732513428,
      "epoch": 0.58,
      "learning_rate": 1.943661971830986e-05,
      "loss": 2.0529,
      "step": 690,
      "task_loss": 0.5528593063354492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5752959251403809,
      "epoch": 0.58,
      "learning_rate": 1.9464788732394367e-05,
      "loss": 1.8852,
      "step": 691,
      "task_loss": 0.5402342677116394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7484369277954102,
      "epoch": 0.58,
      "learning_rate": 1.9492957746478875e-05,
      "loss": 2.0509,
      "step": 692,
      "task_loss": 1.5105679035186768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7993571758270264,
      "epoch": 0.59,
      "learning_rate": 1.9521126760563382e-05,
      "loss": 1.9581,
      "step": 693,
      "task_loss": 1.7804815769195557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.999260425567627,
      "epoch": 0.59,
      "learning_rate": 1.954929577464789e-05,
      "loss": 2.0536,
      "step": 694,
      "task_loss": 1.663329839706421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.990776777267456,
      "epoch": 0.59,
      "learning_rate": 1.9577464788732393e-05,
      "loss": 1.9634,
      "step": 695,
      "task_loss": 1.4139103889465332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9558966159820557,
      "epoch": 0.59,
      "learning_rate": 1.9605633802816904e-05,
      "loss": 2.0181,
      "step": 696,
      "task_loss": 0.8625527620315552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8952395915985107,
      "epoch": 0.59,
      "learning_rate": 1.9633802816901407e-05,
      "loss": 1.6983,
      "step": 697,
      "task_loss": 1.0652843713760376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.475353717803955,
      "epoch": 0.59,
      "learning_rate": 1.9661971830985918e-05,
      "loss": 1.8722,
      "step": 698,
      "task_loss": 0.6927515864372253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8836183547973633,
      "epoch": 0.59,
      "learning_rate": 1.9690140845070422e-05,
      "loss": 1.9832,
      "step": 699,
      "task_loss": 0.802126407623291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2115800380706787,
      "epoch": 0.59,
      "learning_rate": 1.971830985915493e-05,
      "loss": 2.042,
      "step": 700,
      "task_loss": 1.1001917123794556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9545130729675293,
      "epoch": 0.59,
      "learning_rate": 1.9746478873239436e-05,
      "loss": 2.067,
      "step": 701,
      "task_loss": 0.977561354637146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3654390573501587,
      "epoch": 0.59,
      "learning_rate": 1.9774647887323944e-05,
      "loss": 1.7511,
      "step": 702,
      "task_loss": 0.9540075063705444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9628114700317383,
      "epoch": 0.59,
      "learning_rate": 1.980281690140845e-05,
      "loss": 2.1381,
      "step": 703,
      "task_loss": 1.2848026752471924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.4854636192321777,
      "epoch": 0.59,
      "learning_rate": 1.9830985915492958e-05,
      "loss": 2.2574,
      "step": 704,
      "task_loss": 1.850175380706787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.014627456665039,
      "epoch": 0.6,
      "learning_rate": 1.9859154929577465e-05,
      "loss": 2.0802,
      "step": 705,
      "task_loss": 2.0518641471862793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7706359624862671,
      "epoch": 0.6,
      "learning_rate": 1.9887323943661973e-05,
      "loss": 1.5677,
      "step": 706,
      "task_loss": 0.29504331946372986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.775712490081787,
      "epoch": 0.6,
      "learning_rate": 1.991549295774648e-05,
      "loss": 1.9932,
      "step": 707,
      "task_loss": 1.2281757593154907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9662954807281494,
      "epoch": 0.6,
      "learning_rate": 1.9943661971830987e-05,
      "loss": 1.9671,
      "step": 708,
      "task_loss": 1.2022144794464111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.312777042388916,
      "epoch": 0.6,
      "learning_rate": 1.9971830985915494e-05,
      "loss": 2.4283,
      "step": 709,
      "task_loss": 0.8498018980026245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2055606842041016,
      "epoch": 0.6,
      "learning_rate": 2e-05,
      "loss": 2.0791,
      "step": 710,
      "task_loss": 1.1448895931243896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.685192584991455,
      "epoch": 0.6,
      "learning_rate": 2.002816901408451e-05,
      "loss": 2.0959,
      "step": 711,
      "task_loss": 1.0867475271224976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2475881576538086,
      "epoch": 0.6,
      "learning_rate": 2.0056338028169013e-05,
      "loss": 2.2815,
      "step": 712,
      "task_loss": 1.3839083909988403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7731499671936035,
      "epoch": 0.6,
      "learning_rate": 2.0084507042253523e-05,
      "loss": 1.5799,
      "step": 713,
      "task_loss": 0.9018091559410095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.297883987426758,
      "epoch": 0.6,
      "learning_rate": 2.0112676056338027e-05,
      "loss": 2.5042,
      "step": 714,
      "task_loss": 0.8733706474304199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.743404507637024,
      "epoch": 0.6,
      "learning_rate": 2.0140845070422538e-05,
      "loss": 1.6826,
      "step": 715,
      "task_loss": 0.8548939824104309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9079421758651733,
      "epoch": 0.6,
      "learning_rate": 2.0169014084507042e-05,
      "loss": 1.535,
      "step": 716,
      "task_loss": 1.4101980924606323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8086555004119873,
      "epoch": 0.61,
      "learning_rate": 2.019718309859155e-05,
      "loss": 1.8027,
      "step": 717,
      "task_loss": 1.5646262168884277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6543513536453247,
      "epoch": 0.61,
      "learning_rate": 2.0225352112676056e-05,
      "loss": 1.8164,
      "step": 718,
      "task_loss": 0.8958156108856201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.315153121948242,
      "epoch": 0.61,
      "learning_rate": 2.0253521126760563e-05,
      "loss": 2.0155,
      "step": 719,
      "task_loss": 1.241468906402588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5242083072662354,
      "epoch": 0.61,
      "learning_rate": 2.028169014084507e-05,
      "loss": 2.0854,
      "step": 720,
      "task_loss": 1.1362740993499756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0871706008911133,
      "epoch": 0.61,
      "learning_rate": 2.0309859154929578e-05,
      "loss": 1.6224,
      "step": 721,
      "task_loss": 2.1623034477233887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.692465305328369,
      "epoch": 0.61,
      "learning_rate": 2.0338028169014085e-05,
      "loss": 1.8191,
      "step": 722,
      "task_loss": 1.259090781211853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6953015327453613,
      "epoch": 0.61,
      "learning_rate": 2.0366197183098592e-05,
      "loss": 2.0948,
      "step": 723,
      "task_loss": 0.7310623526573181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.957451343536377,
      "epoch": 0.61,
      "learning_rate": 2.03943661971831e-05,
      "loss": 1.8688,
      "step": 724,
      "task_loss": 1.6863561868667603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3317997455596924,
      "epoch": 0.61,
      "learning_rate": 2.0422535211267607e-05,
      "loss": 1.9568,
      "step": 725,
      "task_loss": 1.995743989944458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5580278635025024,
      "epoch": 0.61,
      "learning_rate": 2.0450704225352114e-05,
      "loss": 1.9575,
      "step": 726,
      "task_loss": 0.8538435697555542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7160851955413818,
      "epoch": 0.61,
      "learning_rate": 2.047887323943662e-05,
      "loss": 1.583,
      "step": 727,
      "task_loss": 1.0750534534454346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2943708896636963,
      "epoch": 0.61,
      "learning_rate": 2.050704225352113e-05,
      "loss": 1.5277,
      "step": 728,
      "task_loss": 0.5922237634658813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.468818187713623,
      "epoch": 0.62,
      "learning_rate": 2.0535211267605633e-05,
      "loss": 1.9426,
      "step": 729,
      "task_loss": 1.345767855644226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8292747735977173,
      "epoch": 0.62,
      "learning_rate": 2.0563380281690143e-05,
      "loss": 1.9934,
      "step": 730,
      "task_loss": 1.1075605154037476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3624355792999268,
      "epoch": 0.62,
      "learning_rate": 2.0591549295774647e-05,
      "loss": 1.627,
      "step": 731,
      "task_loss": 0.9934952259063721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1796648502349854,
      "epoch": 0.62,
      "learning_rate": 2.0619718309859158e-05,
      "loss": 1.7358,
      "step": 732,
      "task_loss": 0.8831654787063599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.629849672317505,
      "epoch": 0.62,
      "learning_rate": 2.064788732394366e-05,
      "loss": 1.8058,
      "step": 733,
      "task_loss": 1.9990426301956177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8622606992721558,
      "epoch": 0.62,
      "learning_rate": 2.0676056338028172e-05,
      "loss": 2.002,
      "step": 734,
      "task_loss": 0.9263083934783936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3185925483703613,
      "epoch": 0.62,
      "learning_rate": 2.0704225352112676e-05,
      "loss": 1.8303,
      "step": 735,
      "task_loss": 0.8083608150482178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.036029100418091,
      "epoch": 0.62,
      "learning_rate": 2.0732394366197183e-05,
      "loss": 1.8265,
      "step": 736,
      "task_loss": 1.1688401699066162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9127273559570312,
      "epoch": 0.62,
      "learning_rate": 2.076056338028169e-05,
      "loss": 1.298,
      "step": 737,
      "task_loss": 1.0243377685546875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.4397921562194824,
      "epoch": 0.62,
      "learning_rate": 2.0788732394366198e-05,
      "loss": 2.1223,
      "step": 738,
      "task_loss": 0.6109216213226318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9202370643615723,
      "epoch": 0.62,
      "learning_rate": 2.0816901408450705e-05,
      "loss": 2.017,
      "step": 739,
      "task_loss": 1.091659426689148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4359852075576782,
      "epoch": 0.63,
      "learning_rate": 2.0845070422535212e-05,
      "loss": 1.3062,
      "step": 740,
      "task_loss": 0.8874736428260803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1018269062042236,
      "epoch": 0.63,
      "learning_rate": 2.087323943661972e-05,
      "loss": 1.7736,
      "step": 741,
      "task_loss": 0.49894410371780396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0226125717163086,
      "epoch": 0.63,
      "learning_rate": 2.0901408450704227e-05,
      "loss": 1.6794,
      "step": 742,
      "task_loss": 1.6569796800613403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8361985683441162,
      "epoch": 0.63,
      "learning_rate": 2.0929577464788734e-05,
      "loss": 1.7061,
      "step": 743,
      "task_loss": 1.769020438194275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.152873992919922,
      "epoch": 0.63,
      "learning_rate": 2.095774647887324e-05,
      "loss": 1.7257,
      "step": 744,
      "task_loss": 2.2114181518554688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6249363422393799,
      "epoch": 0.63,
      "learning_rate": 2.098591549295775e-05,
      "loss": 1.6025,
      "step": 745,
      "task_loss": 0.6853619813919067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.416859745979309,
      "epoch": 0.63,
      "learning_rate": 2.1014084507042252e-05,
      "loss": 1.7207,
      "step": 746,
      "task_loss": 1.701546311378479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3313231468200684,
      "epoch": 0.63,
      "learning_rate": 2.1042253521126763e-05,
      "loss": 1.6129,
      "step": 747,
      "task_loss": 0.5461305975914001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8804666996002197,
      "epoch": 0.63,
      "learning_rate": 2.1070422535211267e-05,
      "loss": 1.8436,
      "step": 748,
      "task_loss": 1.6233875751495361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2577314376831055,
      "epoch": 0.63,
      "learning_rate": 2.1098591549295778e-05,
      "loss": 1.498,
      "step": 749,
      "task_loss": 0.6826940774917603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1208529472351074,
      "epoch": 0.63,
      "learning_rate": 2.112676056338028e-05,
      "loss": 1.8787,
      "step": 750,
      "task_loss": 1.098710060119629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8421151638031006,
      "epoch": 0.63,
      "learning_rate": 2.1154929577464792e-05,
      "loss": 1.6578,
      "step": 751,
      "task_loss": 1.295739769935608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5617358684539795,
      "epoch": 0.64,
      "learning_rate": 2.1183098591549296e-05,
      "loss": 1.745,
      "step": 752,
      "task_loss": 1.1658220291137695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7045674324035645,
      "epoch": 0.64,
      "learning_rate": 2.1211267605633803e-05,
      "loss": 1.6162,
      "step": 753,
      "task_loss": 1.4460628032684326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.668870449066162,
      "epoch": 0.64,
      "learning_rate": 2.123943661971831e-05,
      "loss": 1.4231,
      "step": 754,
      "task_loss": 0.8613659143447876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.307202696800232,
      "epoch": 0.64,
      "learning_rate": 2.1267605633802818e-05,
      "loss": 1.2699,
      "step": 755,
      "task_loss": 0.8277620673179626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.238795280456543,
      "epoch": 0.64,
      "learning_rate": 2.1295774647887325e-05,
      "loss": 1.4335,
      "step": 756,
      "task_loss": 0.8372811675071716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.566551685333252,
      "epoch": 0.64,
      "learning_rate": 2.1323943661971832e-05,
      "loss": 1.9548,
      "step": 757,
      "task_loss": 1.6693578958511353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4045202732086182,
      "epoch": 0.64,
      "learning_rate": 2.135211267605634e-05,
      "loss": 1.5148,
      "step": 758,
      "task_loss": 0.499186635017395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4801965951919556,
      "epoch": 0.64,
      "learning_rate": 2.1380281690140847e-05,
      "loss": 1.3672,
      "step": 759,
      "task_loss": 0.266851007938385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.640653610229492,
      "epoch": 0.64,
      "learning_rate": 2.1408450704225354e-05,
      "loss": 1.8671,
      "step": 760,
      "task_loss": 1.0046682357788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.330306053161621,
      "epoch": 0.64,
      "learning_rate": 2.143661971830986e-05,
      "loss": 1.7277,
      "step": 761,
      "task_loss": 0.8563199043273926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6619977951049805,
      "epoch": 0.64,
      "learning_rate": 2.146478873239437e-05,
      "loss": 1.3763,
      "step": 762,
      "task_loss": 1.4969401359558105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7756943702697754,
      "epoch": 0.64,
      "learning_rate": 2.1492957746478876e-05,
      "loss": 1.6836,
      "step": 763,
      "task_loss": 0.5833191871643066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5706725120544434,
      "epoch": 0.65,
      "learning_rate": 2.1521126760563383e-05,
      "loss": 1.5924,
      "step": 764,
      "task_loss": 1.0970302820205688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5795881748199463,
      "epoch": 0.65,
      "learning_rate": 2.1549295774647887e-05,
      "loss": 1.9887,
      "step": 765,
      "task_loss": 0.8463152050971985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7526946067810059,
      "epoch": 0.65,
      "learning_rate": 2.1577464788732397e-05,
      "loss": 1.5982,
      "step": 766,
      "task_loss": 1.1121677160263062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3968513011932373,
      "epoch": 0.65,
      "learning_rate": 2.16056338028169e-05,
      "loss": 1.7718,
      "step": 767,
      "task_loss": 1.260400414466858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0161058902740479,
      "epoch": 0.65,
      "learning_rate": 2.1633802816901412e-05,
      "loss": 1.6668,
      "step": 768,
      "task_loss": 0.6748580932617188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2036612033843994,
      "epoch": 0.65,
      "learning_rate": 2.1661971830985916e-05,
      "loss": 1.2715,
      "step": 769,
      "task_loss": 1.628238320350647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.245849847793579,
      "epoch": 0.65,
      "learning_rate": 2.1690140845070423e-05,
      "loss": 1.5291,
      "step": 770,
      "task_loss": 1.7865175008773804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.867519736289978,
      "epoch": 0.65,
      "learning_rate": 2.171830985915493e-05,
      "loss": 1.7824,
      "step": 771,
      "task_loss": 0.876433253288269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.55698823928833,
      "epoch": 0.65,
      "learning_rate": 2.1746478873239438e-05,
      "loss": 1.4318,
      "step": 772,
      "task_loss": 1.11099374294281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5812749862670898,
      "epoch": 0.65,
      "learning_rate": 2.1774647887323945e-05,
      "loss": 1.8844,
      "step": 773,
      "task_loss": 0.7156081199645996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6603411436080933,
      "epoch": 0.65,
      "learning_rate": 2.1802816901408452e-05,
      "loss": 1.4696,
      "step": 774,
      "task_loss": 1.7654619216918945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4288454055786133,
      "epoch": 0.65,
      "learning_rate": 2.1830985915492956e-05,
      "loss": 1.331,
      "step": 775,
      "task_loss": 0.7231191992759705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.2420077323913574,
      "epoch": 0.66,
      "learning_rate": 2.1859154929577467e-05,
      "loss": 1.7619,
      "step": 776,
      "task_loss": 1.47881281375885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2709290981292725,
      "epoch": 0.66,
      "learning_rate": 2.188732394366197e-05,
      "loss": 1.4859,
      "step": 777,
      "task_loss": 0.27060213685035706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9081125259399414,
      "epoch": 0.66,
      "learning_rate": 2.191549295774648e-05,
      "loss": 1.3351,
      "step": 778,
      "task_loss": 1.5613409280776978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.337864875793457,
      "epoch": 0.66,
      "learning_rate": 2.1943661971830985e-05,
      "loss": 1.5537,
      "step": 779,
      "task_loss": 1.3064930438995361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3826532363891602,
      "epoch": 0.66,
      "learning_rate": 2.1971830985915496e-05,
      "loss": 1.6065,
      "step": 780,
      "task_loss": 0.5846068859100342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2934510707855225,
      "epoch": 0.66,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 1.5178,
      "step": 781,
      "task_loss": 0.848359227180481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3813867568969727,
      "epoch": 0.66,
      "learning_rate": 2.2028169014084507e-05,
      "loss": 1.5789,
      "step": 782,
      "task_loss": 1.7373712062835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.390201449394226,
      "epoch": 0.66,
      "learning_rate": 2.2056338028169017e-05,
      "loss": 1.2485,
      "step": 783,
      "task_loss": 0.4696228504180908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.4078705310821533,
      "epoch": 0.66,
      "learning_rate": 2.208450704225352e-05,
      "loss": 1.6105,
      "step": 784,
      "task_loss": 0.9727026224136353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.847015142440796,
      "epoch": 0.66,
      "learning_rate": 2.2112676056338032e-05,
      "loss": 1.3837,
      "step": 785,
      "task_loss": 1.2509067058563232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4191980361938477,
      "epoch": 0.66,
      "learning_rate": 2.2140845070422536e-05,
      "loss": 1.5264,
      "step": 786,
      "task_loss": 0.4853179454803467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9770253896713257,
      "epoch": 0.66,
      "learning_rate": 2.2169014084507043e-05,
      "loss": 1.4127,
      "step": 787,
      "task_loss": 0.5723888874053955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4197728633880615,
      "epoch": 0.67,
      "learning_rate": 2.219718309859155e-05,
      "loss": 1.6484,
      "step": 788,
      "task_loss": 0.8161102533340454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8536734580993652,
      "epoch": 0.67,
      "learning_rate": 2.2225352112676057e-05,
      "loss": 1.4611,
      "step": 789,
      "task_loss": 1.018897294998169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3663787841796875,
      "epoch": 0.67,
      "learning_rate": 2.2253521126760565e-05,
      "loss": 1.5101,
      "step": 790,
      "task_loss": 1.1776089668273926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7453126907348633,
      "epoch": 0.67,
      "learning_rate": 2.2281690140845072e-05,
      "loss": 1.7365,
      "step": 791,
      "task_loss": 0.530036449432373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.253589391708374,
      "epoch": 0.67,
      "learning_rate": 2.230985915492958e-05,
      "loss": 1.5796,
      "step": 792,
      "task_loss": 1.0725141763687134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3179899454116821,
      "epoch": 0.67,
      "learning_rate": 2.2338028169014086e-05,
      "loss": 1.4805,
      "step": 793,
      "task_loss": 0.626964807510376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0312771797180176,
      "epoch": 0.67,
      "learning_rate": 2.236619718309859e-05,
      "loss": 1.4731,
      "step": 794,
      "task_loss": 1.5911962985992432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.5356333255767822,
      "epoch": 0.67,
      "learning_rate": 2.23943661971831e-05,
      "loss": 1.6017,
      "step": 795,
      "task_loss": 1.243147373199463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7455284595489502,
      "epoch": 0.67,
      "learning_rate": 2.2422535211267605e-05,
      "loss": 1.5366,
      "step": 796,
      "task_loss": 0.9062787294387817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.098499059677124,
      "epoch": 0.67,
      "learning_rate": 2.2450704225352115e-05,
      "loss": 1.6216,
      "step": 797,
      "task_loss": 1.412013292312622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.6238954067230225,
      "epoch": 0.67,
      "learning_rate": 2.247887323943662e-05,
      "loss": 1.7185,
      "step": 798,
      "task_loss": 2.6273739337921143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.001409649848938,
      "epoch": 0.67,
      "learning_rate": 2.2507042253521127e-05,
      "loss": 1.5183,
      "step": 799,
      "task_loss": 0.5990715026855469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3451969623565674,
      "epoch": 0.68,
      "learning_rate": 2.2535211267605634e-05,
      "loss": 1.6107,
      "step": 800,
      "task_loss": 0.7545828819274902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9218698740005493,
      "epoch": 0.68,
      "learning_rate": 2.256338028169014e-05,
      "loss": 1.4031,
      "step": 801,
      "task_loss": 0.35016340017318726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3398871421813965,
      "epoch": 0.68,
      "learning_rate": 2.2591549295774648e-05,
      "loss": 1.718,
      "step": 802,
      "task_loss": 1.450812578201294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5056934356689453,
      "epoch": 0.68,
      "learning_rate": 2.2619718309859156e-05,
      "loss": 1.7053,
      "step": 803,
      "task_loss": 1.2730746269226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5979478359222412,
      "epoch": 0.68,
      "learning_rate": 2.2647887323943663e-05,
      "loss": 1.2744,
      "step": 804,
      "task_loss": 1.5955917835235596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.657163143157959,
      "epoch": 0.68,
      "learning_rate": 2.267605633802817e-05,
      "loss": 1.4331,
      "step": 805,
      "task_loss": 0.8205367922782898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1600639820098877,
      "epoch": 0.68,
      "learning_rate": 2.2704225352112677e-05,
      "loss": 1.6574,
      "step": 806,
      "task_loss": 1.425527572631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.569136381149292,
      "epoch": 0.68,
      "learning_rate": 2.2732394366197185e-05,
      "loss": 1.4025,
      "step": 807,
      "task_loss": 0.8261222243309021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6623165607452393,
      "epoch": 0.68,
      "learning_rate": 2.2760563380281692e-05,
      "loss": 1.6266,
      "step": 808,
      "task_loss": 1.5448304414749146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.3062362670898438,
      "epoch": 0.68,
      "learning_rate": 2.27887323943662e-05,
      "loss": 1.5418,
      "step": 809,
      "task_loss": 1.2962450981140137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8435287475585938,
      "epoch": 0.68,
      "learning_rate": 2.2816901408450706e-05,
      "loss": 1.6467,
      "step": 810,
      "task_loss": 1.716566562652588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9329716563224792,
      "epoch": 0.69,
      "learning_rate": 2.284507042253521e-05,
      "loss": 1.1829,
      "step": 811,
      "task_loss": 0.2455202341079712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6946394443511963,
      "epoch": 0.69,
      "learning_rate": 2.287323943661972e-05,
      "loss": 1.4817,
      "step": 812,
      "task_loss": 0.7265291213989258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.35438072681427,
      "epoch": 0.69,
      "learning_rate": 2.2901408450704225e-05,
      "loss": 1.4303,
      "step": 813,
      "task_loss": 0.32950541377067566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5364727973937988,
      "epoch": 0.69,
      "learning_rate": 2.2929577464788735e-05,
      "loss": 1.3677,
      "step": 814,
      "task_loss": 1.0794832706451416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4814695119857788,
      "epoch": 0.69,
      "learning_rate": 2.295774647887324e-05,
      "loss": 1.6548,
      "step": 815,
      "task_loss": 0.6691979169845581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7386112809181213,
      "epoch": 0.69,
      "learning_rate": 2.2985915492957746e-05,
      "loss": 1.2315,
      "step": 816,
      "task_loss": 0.45963701605796814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9637730717658997,
      "epoch": 0.69,
      "learning_rate": 2.3014084507042254e-05,
      "loss": 1.2276,
      "step": 817,
      "task_loss": 0.9293928742408752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0221800804138184,
      "epoch": 0.69,
      "learning_rate": 2.304225352112676e-05,
      "loss": 1.7697,
      "step": 818,
      "task_loss": 0.9548535943031311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6787159442901611,
      "epoch": 0.69,
      "learning_rate": 2.3070422535211268e-05,
      "loss": 1.3045,
      "step": 819,
      "task_loss": 1.167372703552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.068692684173584,
      "epoch": 0.69,
      "learning_rate": 2.3098591549295775e-05,
      "loss": 1.7123,
      "step": 820,
      "task_loss": 1.0823863744735718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.105148434638977,
      "epoch": 0.69,
      "learning_rate": 2.3126760563380283e-05,
      "loss": 1.3427,
      "step": 821,
      "task_loss": 0.870733380317688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7189647555351257,
      "epoch": 0.69,
      "learning_rate": 2.315492957746479e-05,
      "loss": 1.2501,
      "step": 822,
      "task_loss": 0.9020413160324097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1557564735412598,
      "epoch": 0.7,
      "learning_rate": 2.3183098591549297e-05,
      "loss": 1.2237,
      "step": 823,
      "task_loss": 0.7066966891288757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9354766607284546,
      "epoch": 0.7,
      "learning_rate": 2.3211267605633804e-05,
      "loss": 1.5398,
      "step": 824,
      "task_loss": 1.0245102643966675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2383958101272583,
      "epoch": 0.7,
      "learning_rate": 2.323943661971831e-05,
      "loss": 1.1386,
      "step": 825,
      "task_loss": 0.4949999153614044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0761008262634277,
      "epoch": 0.7,
      "learning_rate": 2.326760563380282e-05,
      "loss": 1.2574,
      "step": 826,
      "task_loss": 0.7356624603271484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6209033727645874,
      "epoch": 0.7,
      "learning_rate": 2.3295774647887326e-05,
      "loss": 1.4434,
      "step": 827,
      "task_loss": 1.3619142770767212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9905048608779907,
      "epoch": 0.7,
      "learning_rate": 2.332394366197183e-05,
      "loss": 1.4605,
      "step": 828,
      "task_loss": 0.5368533134460449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3130991458892822,
      "epoch": 0.7,
      "learning_rate": 2.335211267605634e-05,
      "loss": 1.4246,
      "step": 829,
      "task_loss": 0.8089421987533569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6364295482635498,
      "epoch": 0.7,
      "learning_rate": 2.3380281690140845e-05,
      "loss": 1.4156,
      "step": 830,
      "task_loss": 1.0288071632385254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4404677152633667,
      "epoch": 0.7,
      "learning_rate": 2.3408450704225355e-05,
      "loss": 1.3808,
      "step": 831,
      "task_loss": 1.5474152565002441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3175069093704224,
      "epoch": 0.7,
      "learning_rate": 2.343661971830986e-05,
      "loss": 1.2124,
      "step": 832,
      "task_loss": 1.4574071168899536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1590447425842285,
      "epoch": 0.7,
      "learning_rate": 2.3464788732394366e-05,
      "loss": 1.5516,
      "step": 833,
      "task_loss": 2.39730167388916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.757013201713562,
      "epoch": 0.7,
      "learning_rate": 2.3492957746478874e-05,
      "loss": 1.4326,
      "step": 834,
      "task_loss": 1.2907358407974243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5434492826461792,
      "epoch": 0.71,
      "learning_rate": 2.352112676056338e-05,
      "loss": 1.4185,
      "step": 835,
      "task_loss": 1.3717619180679321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6866276264190674,
      "epoch": 0.71,
      "learning_rate": 2.3549295774647888e-05,
      "loss": 1.3792,
      "step": 836,
      "task_loss": 1.511733889579773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9707732796669006,
      "epoch": 0.71,
      "learning_rate": 2.3577464788732395e-05,
      "loss": 1.5399,
      "step": 837,
      "task_loss": 0.6395320296287537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3975028991699219,
      "epoch": 0.71,
      "learning_rate": 2.3605633802816902e-05,
      "loss": 1.5803,
      "step": 838,
      "task_loss": 1.253529667854309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.651561975479126,
      "epoch": 0.71,
      "learning_rate": 2.363380281690141e-05,
      "loss": 1.5676,
      "step": 839,
      "task_loss": 1.01663076877594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0138477087020874,
      "epoch": 0.71,
      "learning_rate": 2.3661971830985917e-05,
      "loss": 1.1716,
      "step": 840,
      "task_loss": 1.3856985569000244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5163414478302002,
      "epoch": 0.71,
      "learning_rate": 2.3690140845070424e-05,
      "loss": 1.7227,
      "step": 841,
      "task_loss": 1.0217088460922241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.1797614097595215,
      "epoch": 0.71,
      "learning_rate": 2.371830985915493e-05,
      "loss": 1.5388,
      "step": 842,
      "task_loss": 1.0634114742279053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.705564558506012,
      "epoch": 0.71,
      "learning_rate": 2.374647887323944e-05,
      "loss": 1.2685,
      "step": 843,
      "task_loss": 0.4624873697757721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4101500511169434,
      "epoch": 0.71,
      "learning_rate": 2.3774647887323946e-05,
      "loss": 1.4635,
      "step": 844,
      "task_loss": 0.45105597376823425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.998557686805725,
      "epoch": 0.71,
      "learning_rate": 2.380281690140845e-05,
      "loss": 1.3836,
      "step": 845,
      "task_loss": 0.7943804264068604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.304697871208191,
      "epoch": 0.71,
      "learning_rate": 2.383098591549296e-05,
      "loss": 1.3003,
      "step": 846,
      "task_loss": 0.6109516024589539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4514689445495605,
      "epoch": 0.72,
      "learning_rate": 2.3859154929577464e-05,
      "loss": 1.264,
      "step": 847,
      "task_loss": 1.6925387382507324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3824222087860107,
      "epoch": 0.72,
      "learning_rate": 2.3887323943661975e-05,
      "loss": 1.4993,
      "step": 848,
      "task_loss": 1.5330089330673218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.925555944442749,
      "epoch": 0.72,
      "learning_rate": 2.391549295774648e-05,
      "loss": 1.3338,
      "step": 849,
      "task_loss": 0.9188722968101501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9074881076812744,
      "epoch": 0.72,
      "learning_rate": 2.3943661971830986e-05,
      "loss": 1.1664,
      "step": 850,
      "task_loss": 1.4816126823425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3937077522277832,
      "epoch": 0.72,
      "learning_rate": 2.3971830985915493e-05,
      "loss": 1.5354,
      "step": 851,
      "task_loss": 1.1468114852905273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.408233642578125,
      "epoch": 0.72,
      "learning_rate": 2.4e-05,
      "loss": 1.2242,
      "step": 852,
      "task_loss": 0.8182432651519775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5206315517425537,
      "epoch": 0.72,
      "learning_rate": 2.4028169014084508e-05,
      "loss": 1.5255,
      "step": 853,
      "task_loss": 0.5622049570083618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6485689878463745,
      "epoch": 0.72,
      "learning_rate": 2.4056338028169015e-05,
      "loss": 1.1447,
      "step": 854,
      "task_loss": 0.689480721950531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5888588428497314,
      "epoch": 0.72,
      "learning_rate": 2.4084507042253522e-05,
      "loss": 1.4836,
      "step": 855,
      "task_loss": 1.5076277256011963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5022221803665161,
      "epoch": 0.72,
      "learning_rate": 2.411267605633803e-05,
      "loss": 1.3735,
      "step": 856,
      "task_loss": 0.5148055553436279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.292418122291565,
      "epoch": 0.72,
      "learning_rate": 2.4140845070422537e-05,
      "loss": 1.2752,
      "step": 857,
      "task_loss": 0.5999670624732971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3422482013702393,
      "epoch": 0.72,
      "learning_rate": 2.4169014084507044e-05,
      "loss": 1.4404,
      "step": 858,
      "task_loss": 1.231388807296753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3558201789855957,
      "epoch": 0.73,
      "learning_rate": 2.419718309859155e-05,
      "loss": 1.384,
      "step": 859,
      "task_loss": 1.6106853485107422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7219918966293335,
      "epoch": 0.73,
      "learning_rate": 2.422535211267606e-05,
      "loss": 1.1247,
      "step": 860,
      "task_loss": 0.6331835985183716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.9095728397369385,
      "epoch": 0.73,
      "learning_rate": 2.4253521126760566e-05,
      "loss": 1.5826,
      "step": 861,
      "task_loss": 0.570243239402771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8224810361862183,
      "epoch": 0.73,
      "learning_rate": 2.428169014084507e-05,
      "loss": 1.1857,
      "step": 862,
      "task_loss": 1.2648526430130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6798423528671265,
      "epoch": 0.73,
      "learning_rate": 2.430985915492958e-05,
      "loss": 1.2541,
      "step": 863,
      "task_loss": 1.7378650903701782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4397226572036743,
      "epoch": 0.73,
      "learning_rate": 2.4338028169014084e-05,
      "loss": 1.1948,
      "step": 864,
      "task_loss": 0.5610358715057373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0516607761383057,
      "epoch": 0.73,
      "learning_rate": 2.4366197183098595e-05,
      "loss": 1.1383,
      "step": 865,
      "task_loss": 1.3350591659545898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7584878206253052,
      "epoch": 0.73,
      "learning_rate": 2.43943661971831e-05,
      "loss": 1.0159,
      "step": 866,
      "task_loss": 0.38145995140075684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9113258123397827,
      "epoch": 0.73,
      "learning_rate": 2.442253521126761e-05,
      "loss": 1.0331,
      "step": 867,
      "task_loss": 1.5229811668395996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2570816278457642,
      "epoch": 0.73,
      "learning_rate": 2.4450704225352113e-05,
      "loss": 1.5074,
      "step": 868,
      "task_loss": 0.469443678855896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.004331588745117,
      "epoch": 0.73,
      "learning_rate": 2.447887323943662e-05,
      "loss": 1.5952,
      "step": 869,
      "task_loss": 0.614041805267334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.62593674659729,
      "epoch": 0.73,
      "learning_rate": 2.4507042253521128e-05,
      "loss": 1.5487,
      "step": 870,
      "task_loss": 1.087019920349121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.335922122001648,
      "epoch": 0.74,
      "learning_rate": 2.4535211267605635e-05,
      "loss": 1.159,
      "step": 871,
      "task_loss": 1.958196759223938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0230236053466797,
      "epoch": 0.74,
      "learning_rate": 2.4563380281690142e-05,
      "loss": 1.3702,
      "step": 872,
      "task_loss": 1.614214301109314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4235347509384155,
      "epoch": 0.74,
      "learning_rate": 2.459154929577465e-05,
      "loss": 1.2183,
      "step": 873,
      "task_loss": 0.7941752672195435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.139530897140503,
      "epoch": 0.74,
      "learning_rate": 2.4619718309859153e-05,
      "loss": 1.1795,
      "step": 874,
      "task_loss": 0.6531791687011719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9489515423774719,
      "epoch": 0.74,
      "learning_rate": 2.4647887323943664e-05,
      "loss": 1.0445,
      "step": 875,
      "task_loss": 0.571410596370697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5026335716247559,
      "epoch": 0.74,
      "learning_rate": 2.4676056338028168e-05,
      "loss": 1.2577,
      "step": 876,
      "task_loss": 0.8769711256027222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.63930344581604,
      "epoch": 0.74,
      "learning_rate": 2.470422535211268e-05,
      "loss": 1.5209,
      "step": 877,
      "task_loss": 1.435776948928833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3810970783233643,
      "epoch": 0.74,
      "learning_rate": 2.4732394366197186e-05,
      "loss": 1.3897,
      "step": 878,
      "task_loss": 1.0480715036392212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4205354452133179,
      "epoch": 0.74,
      "learning_rate": 2.476056338028169e-05,
      "loss": 1.443,
      "step": 879,
      "task_loss": 0.888705313205719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5702440738677979,
      "epoch": 0.74,
      "learning_rate": 2.47887323943662e-05,
      "loss": 1.5236,
      "step": 880,
      "task_loss": 1.5710365772247314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9568125009536743,
      "epoch": 0.74,
      "learning_rate": 2.4816901408450704e-05,
      "loss": 0.9789,
      "step": 881,
      "task_loss": 0.311002641916275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.064399003982544,
      "epoch": 0.75,
      "learning_rate": 2.4845070422535215e-05,
      "loss": 1.4095,
      "step": 882,
      "task_loss": 0.4654320478439331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.463811993598938,
      "epoch": 0.75,
      "learning_rate": 2.487323943661972e-05,
      "loss": 1.2228,
      "step": 883,
      "task_loss": 1.0349777936935425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.330260992050171,
      "epoch": 0.75,
      "learning_rate": 2.490140845070423e-05,
      "loss": 1.3176,
      "step": 884,
      "task_loss": 0.3665597140789032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3046895265579224,
      "epoch": 0.75,
      "learning_rate": 2.4929577464788733e-05,
      "loss": 1.1077,
      "step": 885,
      "task_loss": 1.8112586736679077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1157701015472412,
      "epoch": 0.75,
      "learning_rate": 2.495774647887324e-05,
      "loss": 1.1772,
      "step": 886,
      "task_loss": 0.8165785670280457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1765626668930054,
      "epoch": 0.75,
      "learning_rate": 2.4985915492957748e-05,
      "loss": 1.2277,
      "step": 887,
      "task_loss": 0.959071934223175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.39210844039917,
      "epoch": 0.75,
      "learning_rate": 2.5014084507042258e-05,
      "loss": 1.1557,
      "step": 888,
      "task_loss": 0.6303380131721497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5112745761871338,
      "epoch": 0.75,
      "learning_rate": 2.5042253521126762e-05,
      "loss": 1.2236,
      "step": 889,
      "task_loss": 0.8227658271789551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.458530306816101,
      "epoch": 0.75,
      "learning_rate": 2.507042253521127e-05,
      "loss": 1.3341,
      "step": 890,
      "task_loss": 0.6040553450584412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.35792076587677,
      "epoch": 0.75,
      "learning_rate": 2.5098591549295773e-05,
      "loss": 1.3678,
      "step": 891,
      "task_loss": 1.818406343460083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9112638831138611,
      "epoch": 0.75,
      "learning_rate": 2.512676056338028e-05,
      "loss": 0.9689,
      "step": 892,
      "task_loss": 1.2221039533615112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8488353490829468,
      "epoch": 0.75,
      "learning_rate": 2.515492957746479e-05,
      "loss": 1.3685,
      "step": 893,
      "task_loss": 0.5399192571640015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1704118251800537,
      "epoch": 0.76,
      "learning_rate": 2.51830985915493e-05,
      "loss": 1.3697,
      "step": 894,
      "task_loss": 1.6677066087722778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3526849746704102,
      "epoch": 0.76,
      "learning_rate": 2.5211267605633802e-05,
      "loss": 1.236,
      "step": 895,
      "task_loss": 0.17719915509223938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6340664625167847,
      "epoch": 0.76,
      "learning_rate": 2.523943661971831e-05,
      "loss": 1.4097,
      "step": 896,
      "task_loss": 0.949924886226654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.204627513885498,
      "epoch": 0.76,
      "learning_rate": 2.5267605633802817e-05,
      "loss": 1.2763,
      "step": 897,
      "task_loss": 1.313928246498108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.073024868965149,
      "epoch": 0.76,
      "learning_rate": 2.5295774647887327e-05,
      "loss": 1.2395,
      "step": 898,
      "task_loss": 0.3629971146583557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0387213230133057,
      "epoch": 0.76,
      "learning_rate": 2.5323943661971835e-05,
      "loss": 1.2244,
      "step": 899,
      "task_loss": 1.6787906885147095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0529553890228271,
      "epoch": 0.76,
      "learning_rate": 2.535211267605634e-05,
      "loss": 0.9889,
      "step": 900,
      "task_loss": 0.47505414485931396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0840511322021484,
      "epoch": 0.76,
      "learning_rate": 2.5380281690140846e-05,
      "loss": 1.2137,
      "step": 901,
      "task_loss": 1.234485149383545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3794633150100708,
      "epoch": 0.76,
      "learning_rate": 2.540845070422535e-05,
      "loss": 1.1226,
      "step": 902,
      "task_loss": 1.2335163354873657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5171444416046143,
      "epoch": 0.76,
      "learning_rate": 2.5436619718309864e-05,
      "loss": 1.335,
      "step": 903,
      "task_loss": 1.3146016597747803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0462312698364258,
      "epoch": 0.76,
      "learning_rate": 2.5464788732394367e-05,
      "loss": 1.2322,
      "step": 904,
      "task_loss": 1.0603787899017334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6236159801483154,
      "epoch": 0.76,
      "learning_rate": 2.5492957746478875e-05,
      "loss": 1.1144,
      "step": 905,
      "task_loss": 1.0404926538467407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4294679164886475,
      "epoch": 0.77,
      "learning_rate": 2.552112676056338e-05,
      "loss": 1.175,
      "step": 906,
      "task_loss": 1.8538323640823364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2322165966033936,
      "epoch": 0.77,
      "learning_rate": 2.5549295774647893e-05,
      "loss": 1.3587,
      "step": 907,
      "task_loss": 0.8721309304237366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.403357744216919,
      "epoch": 0.77,
      "learning_rate": 2.5577464788732396e-05,
      "loss": 1.1331,
      "step": 908,
      "task_loss": 1.9969061613082886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1900050640106201,
      "epoch": 0.77,
      "learning_rate": 2.5605633802816904e-05,
      "loss": 1.2502,
      "step": 909,
      "task_loss": 0.9544848799705505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2048723697662354,
      "epoch": 0.77,
      "learning_rate": 2.5633802816901408e-05,
      "loss": 1.3201,
      "step": 910,
      "task_loss": 0.8094683885574341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2010557651519775,
      "epoch": 0.77,
      "learning_rate": 2.5661971830985915e-05,
      "loss": 1.4245,
      "step": 911,
      "task_loss": 1.0904158353805542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4120368957519531,
      "epoch": 0.77,
      "learning_rate": 2.5690140845070425e-05,
      "loss": 1.4895,
      "step": 912,
      "task_loss": 0.9537250399589539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.439354419708252,
      "epoch": 0.77,
      "learning_rate": 2.5718309859154933e-05,
      "loss": 1.259,
      "step": 913,
      "task_loss": 1.6700514554977417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0164827108383179,
      "epoch": 0.77,
      "learning_rate": 2.5746478873239437e-05,
      "loss": 1.1379,
      "step": 914,
      "task_loss": 1.445932149887085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1824073791503906,
      "epoch": 0.77,
      "learning_rate": 2.5774647887323944e-05,
      "loss": 0.9786,
      "step": 915,
      "task_loss": 1.0062981843948364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6738599538803101,
      "epoch": 0.77,
      "learning_rate": 2.580281690140845e-05,
      "loss": 1.0245,
      "step": 916,
      "task_loss": 0.7041023969650269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3265666961669922,
      "epoch": 0.77,
      "learning_rate": 2.583098591549296e-05,
      "loss": 1.0805,
      "step": 917,
      "task_loss": 1.8456239700317383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.449730634689331,
      "epoch": 0.78,
      "learning_rate": 2.5859154929577466e-05,
      "loss": 1.2291,
      "step": 918,
      "task_loss": 1.549756407737732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8219128847122192,
      "epoch": 0.78,
      "learning_rate": 2.5887323943661973e-05,
      "loss": 1.0396,
      "step": 919,
      "task_loss": 0.4250470697879791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5171246528625488,
      "epoch": 0.78,
      "learning_rate": 2.591549295774648e-05,
      "loss": 1.1841,
      "step": 920,
      "task_loss": 1.1608574390411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4038668870925903,
      "epoch": 0.78,
      "learning_rate": 2.5943661971830984e-05,
      "loss": 1.3027,
      "step": 921,
      "task_loss": 1.2467811107635498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9380587339401245,
      "epoch": 0.78,
      "learning_rate": 2.5971830985915498e-05,
      "loss": 1.0248,
      "step": 922,
      "task_loss": 0.18046057224273682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1595680713653564,
      "epoch": 0.78,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 1.0287,
      "step": 923,
      "task_loss": 1.7187696695327759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9955464601516724,
      "epoch": 0.78,
      "learning_rate": 2.602816901408451e-05,
      "loss": 1.3994,
      "step": 924,
      "task_loss": 1.614405870437622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2703027725219727,
      "epoch": 0.78,
      "learning_rate": 2.6056338028169013e-05,
      "loss": 1.722,
      "step": 925,
      "task_loss": 1.4040608406066895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.737863302230835,
      "epoch": 0.78,
      "learning_rate": 2.608450704225352e-05,
      "loss": 0.9071,
      "step": 926,
      "task_loss": 0.6614607572555542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.769914150238037,
      "epoch": 0.78,
      "learning_rate": 2.611267605633803e-05,
      "loss": 1.1594,
      "step": 927,
      "task_loss": 0.699809730052948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1456923484802246,
      "epoch": 0.78,
      "learning_rate": 2.6140845070422538e-05,
      "loss": 1.2817,
      "step": 928,
      "task_loss": 0.499350905418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2274281978607178,
      "epoch": 0.78,
      "learning_rate": 2.6169014084507042e-05,
      "loss": 1.1073,
      "step": 929,
      "task_loss": 0.5901204943656921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9093064069747925,
      "epoch": 0.79,
      "learning_rate": 2.619718309859155e-05,
      "loss": 1.099,
      "step": 930,
      "task_loss": 1.5155633687973022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8206389546394348,
      "epoch": 0.79,
      "learning_rate": 2.6225352112676056e-05,
      "loss": 1.0998,
      "step": 931,
      "task_loss": 0.8410032987594604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5730984210968018,
      "epoch": 0.79,
      "learning_rate": 2.6253521126760567e-05,
      "loss": 0.8708,
      "step": 932,
      "task_loss": 0.24780869483947754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5470257997512817,
      "epoch": 0.79,
      "learning_rate": 2.628169014084507e-05,
      "loss": 1.297,
      "step": 933,
      "task_loss": 1.8907488584518433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.844429075717926,
      "epoch": 0.79,
      "learning_rate": 2.6309859154929578e-05,
      "loss": 0.9608,
      "step": 934,
      "task_loss": 1.0763490200042725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6260032653808594,
      "epoch": 0.79,
      "learning_rate": 2.6338028169014085e-05,
      "loss": 1.3468,
      "step": 935,
      "task_loss": 0.9275493025779724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0840373039245605,
      "epoch": 0.79,
      "learning_rate": 2.6366197183098596e-05,
      "loss": 1.0192,
      "step": 936,
      "task_loss": 0.4445825517177582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1052316427230835,
      "epoch": 0.79,
      "learning_rate": 2.63943661971831e-05,
      "loss": 1.2424,
      "step": 937,
      "task_loss": 0.6064824461936951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9820965528488159,
      "epoch": 0.79,
      "learning_rate": 2.6422535211267607e-05,
      "loss": 1.0387,
      "step": 938,
      "task_loss": 0.9221377372741699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1637839078903198,
      "epoch": 0.79,
      "learning_rate": 2.6450704225352114e-05,
      "loss": 1.0728,
      "step": 939,
      "task_loss": 0.44556406140327454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.01059091091156,
      "epoch": 0.79,
      "learning_rate": 2.6478873239436618e-05,
      "loss": 1.171,
      "step": 940,
      "task_loss": 1.3838677406311035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7012059092521667,
      "epoch": 0.79,
      "learning_rate": 2.650704225352113e-05,
      "loss": 0.9615,
      "step": 941,
      "task_loss": 0.6670460104942322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.413044810295105,
      "epoch": 0.8,
      "learning_rate": 2.6535211267605636e-05,
      "loss": 1.1837,
      "step": 942,
      "task_loss": 1.0936989784240723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9680198431015015,
      "epoch": 0.8,
      "learning_rate": 2.6563380281690143e-05,
      "loss": 1.1932,
      "step": 943,
      "task_loss": 0.25028887391090393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7011686563491821,
      "epoch": 0.8,
      "learning_rate": 2.6591549295774647e-05,
      "loss": 1.1243,
      "step": 944,
      "task_loss": 1.056843876838684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0838037729263306,
      "epoch": 0.8,
      "learning_rate": 2.6619718309859155e-05,
      "loss": 1.2691,
      "step": 945,
      "task_loss": 0.9585646390914917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.091071605682373,
      "epoch": 0.8,
      "learning_rate": 2.6647887323943665e-05,
      "loss": 0.9392,
      "step": 946,
      "task_loss": 0.7580676674842834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1333634853363037,
      "epoch": 0.8,
      "learning_rate": 2.6676056338028172e-05,
      "loss": 1.1695,
      "step": 947,
      "task_loss": 0.9213865399360657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8171094059944153,
      "epoch": 0.8,
      "learning_rate": 2.6704225352112676e-05,
      "loss": 1.1155,
      "step": 948,
      "task_loss": 1.906986951828003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0958267450332642,
      "epoch": 0.8,
      "learning_rate": 2.6732394366197184e-05,
      "loss": 1.364,
      "step": 949,
      "task_loss": 0.7035043239593506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.392202377319336,
      "epoch": 0.8,
      "learning_rate": 2.676056338028169e-05,
      "loss": 1.0783,
      "step": 950,
      "task_loss": 0.3435916006565094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0802960395812988,
      "epoch": 0.8,
      "learning_rate": 2.67887323943662e-05,
      "loss": 0.95,
      "step": 951,
      "task_loss": 0.7352214455604553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0303822755813599,
      "epoch": 0.8,
      "learning_rate": 2.6816901408450705e-05,
      "loss": 1.2519,
      "step": 952,
      "task_loss": 1.150357723236084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5441871881484985,
      "epoch": 0.81,
      "learning_rate": 2.6845070422535213e-05,
      "loss": 0.9342,
      "step": 953,
      "task_loss": 0.5027093291282654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3063628673553467,
      "epoch": 0.81,
      "learning_rate": 2.687323943661972e-05,
      "loss": 1.1551,
      "step": 954,
      "task_loss": 1.8270442485809326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1574537754058838,
      "epoch": 0.81,
      "learning_rate": 2.6901408450704224e-05,
      "loss": 0.9894,
      "step": 955,
      "task_loss": 0.6725310683250427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1681973934173584,
      "epoch": 0.81,
      "learning_rate": 2.6929577464788734e-05,
      "loss": 1.1553,
      "step": 956,
      "task_loss": 0.4665925204753876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4041029214859009,
      "epoch": 0.81,
      "learning_rate": 2.695774647887324e-05,
      "loss": 1.1768,
      "step": 957,
      "task_loss": 1.3812992572784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9715734124183655,
      "epoch": 0.81,
      "learning_rate": 2.698591549295775e-05,
      "loss": 0.9517,
      "step": 958,
      "task_loss": 1.1768220663070679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9792338609695435,
      "epoch": 0.81,
      "learning_rate": 2.7014084507042253e-05,
      "loss": 1.1221,
      "step": 959,
      "task_loss": 0.8877928853034973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1193790435791016,
      "epoch": 0.81,
      "learning_rate": 2.704225352112676e-05,
      "loss": 1.3041,
      "step": 960,
      "task_loss": 1.2529122829437256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5852965116500854,
      "epoch": 0.81,
      "learning_rate": 2.707042253521127e-05,
      "loss": 1.2136,
      "step": 961,
      "task_loss": 0.9345572590827942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5727506875991821,
      "epoch": 0.81,
      "learning_rate": 2.7098591549295778e-05,
      "loss": 1.2202,
      "step": 962,
      "task_loss": 1.128395438194275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.845315158367157,
      "epoch": 0.81,
      "learning_rate": 2.712676056338028e-05,
      "loss": 1.2349,
      "step": 963,
      "task_loss": 1.1872464418411255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5244837999343872,
      "epoch": 0.81,
      "learning_rate": 2.715492957746479e-05,
      "loss": 1.2224,
      "step": 964,
      "task_loss": 0.4301453232765198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5381828546524048,
      "epoch": 0.82,
      "learning_rate": 2.71830985915493e-05,
      "loss": 1.1361,
      "step": 965,
      "task_loss": 1.2516359090805054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1090247631072998,
      "epoch": 0.82,
      "learning_rate": 2.7211267605633807e-05,
      "loss": 1.0238,
      "step": 966,
      "task_loss": 1.949077844619751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2344815731048584,
      "epoch": 0.82,
      "learning_rate": 2.723943661971831e-05,
      "loss": 1.3702,
      "step": 967,
      "task_loss": 1.4908798933029175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4238150119781494,
      "epoch": 0.82,
      "learning_rate": 2.7267605633802818e-05,
      "loss": 1.1434,
      "step": 968,
      "task_loss": 0.5671489834785461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2178049087524414,
      "epoch": 0.82,
      "learning_rate": 2.7295774647887322e-05,
      "loss": 1.1111,
      "step": 969,
      "task_loss": 1.7470403909683228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8715372681617737,
      "epoch": 0.82,
      "learning_rate": 2.7323943661971836e-05,
      "loss": 0.8615,
      "step": 970,
      "task_loss": 0.8336560726165771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.0274977684020996,
      "epoch": 0.82,
      "learning_rate": 2.735211267605634e-05,
      "loss": 1.5157,
      "step": 971,
      "task_loss": 1.3173967599868774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8729153275489807,
      "epoch": 0.82,
      "learning_rate": 2.7380281690140847e-05,
      "loss": 0.8673,
      "step": 972,
      "task_loss": 0.4300232231616974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.345395803451538,
      "epoch": 0.82,
      "learning_rate": 2.7408450704225354e-05,
      "loss": 1.1339,
      "step": 973,
      "task_loss": 0.7665396332740784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.247422695159912,
      "epoch": 0.82,
      "learning_rate": 2.7436619718309858e-05,
      "loss": 1.1425,
      "step": 974,
      "task_loss": 0.6175227165222168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8730621337890625,
      "epoch": 0.82,
      "learning_rate": 2.746478873239437e-05,
      "loss": 0.9373,
      "step": 975,
      "task_loss": 0.47332218289375305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.169206976890564,
      "epoch": 0.82,
      "learning_rate": 2.7492957746478876e-05,
      "loss": 1.2858,
      "step": 976,
      "task_loss": 0.697471559047699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1268572807312012,
      "epoch": 0.83,
      "learning_rate": 2.7521126760563383e-05,
      "loss": 1.1447,
      "step": 977,
      "task_loss": 1.4639220237731934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9856197834014893,
      "epoch": 0.83,
      "learning_rate": 2.7549295774647887e-05,
      "loss": 0.8558,
      "step": 978,
      "task_loss": 1.0203348398208618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1539313793182373,
      "epoch": 0.83,
      "learning_rate": 2.7577464788732394e-05,
      "loss": 1.076,
      "step": 979,
      "task_loss": 0.5245310068130493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3737823963165283,
      "epoch": 0.83,
      "learning_rate": 2.7605633802816905e-05,
      "loss": 1.1323,
      "step": 980,
      "task_loss": 1.3838545083999634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2848079204559326,
      "epoch": 0.83,
      "learning_rate": 2.7633802816901412e-05,
      "loss": 1.2474,
      "step": 981,
      "task_loss": 1.6033955812454224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0237921476364136,
      "epoch": 0.83,
      "learning_rate": 2.7661971830985916e-05,
      "loss": 1.0589,
      "step": 982,
      "task_loss": 0.4422343671321869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1978263854980469,
      "epoch": 0.83,
      "learning_rate": 2.7690140845070423e-05,
      "loss": 1.1205,
      "step": 983,
      "task_loss": 1.0541304349899292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7401732206344604,
      "epoch": 0.83,
      "learning_rate": 2.7718309859154927e-05,
      "loss": 1.0931,
      "step": 984,
      "task_loss": 0.9673908948898315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8845313787460327,
      "epoch": 0.83,
      "learning_rate": 2.774647887323944e-05,
      "loss": 0.9096,
      "step": 985,
      "task_loss": 1.4991430044174194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0815949440002441,
      "epoch": 0.83,
      "learning_rate": 2.7774647887323945e-05,
      "loss": 1.1399,
      "step": 986,
      "task_loss": 1.4996142387390137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.417172908782959,
      "epoch": 0.83,
      "learning_rate": 2.7802816901408452e-05,
      "loss": 1.1624,
      "step": 987,
      "task_loss": 1.3256914615631104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7606383562088013,
      "epoch": 0.83,
      "learning_rate": 2.7830985915492956e-05,
      "loss": 1.2739,
      "step": 988,
      "task_loss": 1.547696590423584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1385152339935303,
      "epoch": 0.84,
      "learning_rate": 2.7859154929577463e-05,
      "loss": 0.9969,
      "step": 989,
      "task_loss": 1.6184109449386597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3226277828216553,
      "epoch": 0.84,
      "learning_rate": 2.7887323943661974e-05,
      "loss": 1.0825,
      "step": 990,
      "task_loss": 1.6336266994476318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9355644583702087,
      "epoch": 0.84,
      "learning_rate": 2.791549295774648e-05,
      "loss": 1.1211,
      "step": 991,
      "task_loss": 1.1465133428573608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7223010063171387,
      "epoch": 0.84,
      "learning_rate": 2.7943661971830985e-05,
      "loss": 0.7458,
      "step": 992,
      "task_loss": 1.2874919176101685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6090562343597412,
      "epoch": 0.84,
      "learning_rate": 2.7971830985915492e-05,
      "loss": 1.1627,
      "step": 993,
      "task_loss": 0.9001317024230957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3117129802703857,
      "epoch": 0.84,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 1.1973,
      "step": 994,
      "task_loss": 1.7932319641113281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7790877819061279,
      "epoch": 0.84,
      "learning_rate": 2.802816901408451e-05,
      "loss": 0.914,
      "step": 995,
      "task_loss": 0.7152183651924133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7137200832366943,
      "epoch": 0.84,
      "learning_rate": 2.8056338028169017e-05,
      "loss": 0.992,
      "step": 996,
      "task_loss": 0.7075108885765076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0675511360168457,
      "epoch": 0.84,
      "learning_rate": 2.808450704225352e-05,
      "loss": 1.0371,
      "step": 997,
      "task_loss": 1.4038482904434204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0240932703018188,
      "epoch": 0.84,
      "learning_rate": 2.811267605633803e-05,
      "loss": 1.0094,
      "step": 998,
      "task_loss": 1.630947232246399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6119319200515747,
      "epoch": 0.84,
      "learning_rate": 2.814084507042254e-05,
      "loss": 1.1756,
      "step": 999,
      "task_loss": 1.3929489850997925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8482211232185364,
      "epoch": 0.84,
      "learning_rate": 2.8169014084507046e-05,
      "loss": 0.8429,
      "step": 1000,
      "task_loss": 0.8347824811935425
    },
    {
      "epoch": 0.84,
      "eval_accuracy": 0.8677623762376238,
      "eval_loss": 0.6449630856513977,
      "eval_runtime": 207.4512,
      "eval_samples_per_second": 121.715,
      "eval_steps_per_second": 0.954,
      "step": 1000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7593427300453186,
      "epoch": 0.85,
      "learning_rate": 2.819718309859155e-05,
      "loss": 0.9513,
      "step": 1001,
      "task_loss": 0.4575325548648834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49188166856765747,
      "epoch": 0.85,
      "learning_rate": 2.8225352112676058e-05,
      "loss": 0.8658,
      "step": 1002,
      "task_loss": 0.5453650951385498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8746909499168396,
      "epoch": 0.85,
      "learning_rate": 2.825352112676056e-05,
      "loss": 0.8855,
      "step": 1003,
      "task_loss": 0.9244720935821533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0637762546539307,
      "epoch": 0.85,
      "learning_rate": 2.8281690140845075e-05,
      "loss": 1.0707,
      "step": 1004,
      "task_loss": 0.7581093311309814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.020636558532715,
      "epoch": 0.85,
      "learning_rate": 2.830985915492958e-05,
      "loss": 1.2159,
      "step": 1005,
      "task_loss": 2.534658193588257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.202458381652832,
      "epoch": 0.85,
      "learning_rate": 2.8338028169014087e-05,
      "loss": 0.9624,
      "step": 1006,
      "task_loss": 0.2074671983718872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0573878288269043,
      "epoch": 0.85,
      "learning_rate": 2.836619718309859e-05,
      "loss": 0.9975,
      "step": 1007,
      "task_loss": 0.7101489901542664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2075992822647095,
      "epoch": 0.85,
      "learning_rate": 2.8394366197183098e-05,
      "loss": 1.0933,
      "step": 1008,
      "task_loss": 1.172258973121643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6240395307540894,
      "epoch": 0.85,
      "learning_rate": 2.842253521126761e-05,
      "loss": 1.2332,
      "step": 1009,
      "task_loss": 1.7856272459030151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9935423731803894,
      "epoch": 0.85,
      "learning_rate": 2.8450704225352116e-05,
      "loss": 1.0819,
      "step": 1010,
      "task_loss": 2.0076398849487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2395308017730713,
      "epoch": 0.85,
      "learning_rate": 2.847887323943662e-05,
      "loss": 1.2706,
      "step": 1011,
      "task_loss": 1.4533475637435913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0621111392974854,
      "epoch": 0.85,
      "learning_rate": 2.8507042253521127e-05,
      "loss": 1.1096,
      "step": 1012,
      "task_loss": 0.4310009777545929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0929715633392334,
      "epoch": 0.86,
      "learning_rate": 2.8535211267605634e-05,
      "loss": 0.835,
      "step": 1013,
      "task_loss": 0.4668806493282318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2925875186920166,
      "epoch": 0.86,
      "learning_rate": 2.8563380281690145e-05,
      "loss": 1.0327,
      "step": 1014,
      "task_loss": 0.9138253927230835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8743935227394104,
      "epoch": 0.86,
      "learning_rate": 2.859154929577465e-05,
      "loss": 0.9421,
      "step": 1015,
      "task_loss": 1.1862988471984863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9086697101593018,
      "epoch": 0.86,
      "learning_rate": 2.8619718309859156e-05,
      "loss": 1.0868,
      "step": 1016,
      "task_loss": 1.0382267236709595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.911444365978241,
      "epoch": 0.86,
      "learning_rate": 2.8647887323943663e-05,
      "loss": 1.078,
      "step": 1017,
      "task_loss": 0.49846822023391724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8153744339942932,
      "epoch": 0.86,
      "learning_rate": 2.8676056338028167e-05,
      "loss": 0.9259,
      "step": 1018,
      "task_loss": 1.1252528429031372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.631105661392212,
      "epoch": 0.86,
      "learning_rate": 2.870422535211268e-05,
      "loss": 1.2694,
      "step": 1019,
      "task_loss": 1.381534457206726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.004510521888733,
      "epoch": 0.86,
      "learning_rate": 2.8732394366197185e-05,
      "loss": 0.803,
      "step": 1020,
      "task_loss": 1.3844407796859741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8453183174133301,
      "epoch": 0.86,
      "learning_rate": 2.8760563380281692e-05,
      "loss": 1.3293,
      "step": 1021,
      "task_loss": 0.15933802723884583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6557779312133789,
      "epoch": 0.86,
      "learning_rate": 2.8788732394366196e-05,
      "loss": 0.9872,
      "step": 1022,
      "task_loss": 0.1295677125453949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9116742014884949,
      "epoch": 0.86,
      "learning_rate": 2.881690140845071e-05,
      "loss": 0.851,
      "step": 1023,
      "task_loss": 1.0979938507080078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.042966365814209,
      "epoch": 0.87,
      "learning_rate": 2.8845070422535214e-05,
      "loss": 1.0934,
      "step": 1024,
      "task_loss": 0.2566753327846527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9466080069541931,
      "epoch": 0.87,
      "learning_rate": 2.887323943661972e-05,
      "loss": 0.8985,
      "step": 1025,
      "task_loss": 0.8659387826919556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6263465881347656,
      "epoch": 0.87,
      "learning_rate": 2.8901408450704225e-05,
      "loss": 1.0743,
      "step": 1026,
      "task_loss": 0.05690251290798187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9204387068748474,
      "epoch": 0.87,
      "learning_rate": 2.8929577464788732e-05,
      "loss": 1.0821,
      "step": 1027,
      "task_loss": 0.5582957863807678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0032994747161865,
      "epoch": 0.87,
      "learning_rate": 2.8957746478873243e-05,
      "loss": 1.254,
      "step": 1028,
      "task_loss": 1.248001217842102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9106415510177612,
      "epoch": 0.87,
      "learning_rate": 2.898591549295775e-05,
      "loss": 0.9998,
      "step": 1029,
      "task_loss": 0.993424117565155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3746155500411987,
      "epoch": 0.87,
      "learning_rate": 2.9014084507042254e-05,
      "loss": 1.1408,
      "step": 1030,
      "task_loss": 1.5024198293685913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6858294010162354,
      "epoch": 0.87,
      "learning_rate": 2.904225352112676e-05,
      "loss": 1.2943,
      "step": 1031,
      "task_loss": 0.9169073104858398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3341131210327148,
      "epoch": 0.87,
      "learning_rate": 2.9070422535211268e-05,
      "loss": 1.0637,
      "step": 1032,
      "task_loss": 0.44080108404159546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9551115036010742,
      "epoch": 0.87,
      "learning_rate": 2.909859154929578e-05,
      "loss": 1.1499,
      "step": 1033,
      "task_loss": 0.5235313773155212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3333308696746826,
      "epoch": 0.87,
      "learning_rate": 2.9126760563380283e-05,
      "loss": 1.2162,
      "step": 1034,
      "task_loss": 1.71952486038208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5737409591674805,
      "epoch": 0.87,
      "learning_rate": 2.915492957746479e-05,
      "loss": 0.8572,
      "step": 1035,
      "task_loss": 1.019910216331482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6717537641525269,
      "epoch": 0.88,
      "learning_rate": 2.9183098591549297e-05,
      "loss": 1.3113,
      "step": 1036,
      "task_loss": 1.209499716758728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7280973196029663,
      "epoch": 0.88,
      "learning_rate": 2.92112676056338e-05,
      "loss": 0.9859,
      "step": 1037,
      "task_loss": 1.6349462270736694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0677001476287842,
      "epoch": 0.88,
      "learning_rate": 2.9239436619718312e-05,
      "loss": 1.063,
      "step": 1038,
      "task_loss": 0.8625321984291077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9991448521614075,
      "epoch": 0.88,
      "learning_rate": 2.926760563380282e-05,
      "loss": 0.9983,
      "step": 1039,
      "task_loss": 0.5490456223487854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1246428489685059,
      "epoch": 0.88,
      "learning_rate": 2.9295774647887326e-05,
      "loss": 1.1354,
      "step": 1040,
      "task_loss": 0.7833432555198669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1602286100387573,
      "epoch": 0.88,
      "learning_rate": 2.932394366197183e-05,
      "loss": 1.4413,
      "step": 1041,
      "task_loss": 0.9289639592170715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9450091123580933,
      "epoch": 0.88,
      "learning_rate": 2.9352112676056337e-05,
      "loss": 0.8627,
      "step": 1042,
      "task_loss": 1.438068151473999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8193690180778503,
      "epoch": 0.88,
      "learning_rate": 2.9380281690140848e-05,
      "loss": 0.9869,
      "step": 1043,
      "task_loss": 0.5756095051765442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6654974222183228,
      "epoch": 0.88,
      "learning_rate": 2.9408450704225355e-05,
      "loss": 1.0044,
      "step": 1044,
      "task_loss": 0.5758503675460815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6927673816680908,
      "epoch": 0.88,
      "learning_rate": 2.943661971830986e-05,
      "loss": 1.2175,
      "step": 1045,
      "task_loss": 0.7513061761856079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.785949468612671,
      "epoch": 0.88,
      "learning_rate": 2.9464788732394366e-05,
      "loss": 1.2773,
      "step": 1046,
      "task_loss": 1.4937093257904053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7818616628646851,
      "epoch": 0.88,
      "learning_rate": 2.9492957746478874e-05,
      "loss": 1.2269,
      "step": 1047,
      "task_loss": 0.361010879278183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7914441823959351,
      "epoch": 0.89,
      "learning_rate": 2.9521126760563384e-05,
      "loss": 0.9013,
      "step": 1048,
      "task_loss": 0.6949283480644226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8369139432907104,
      "epoch": 0.89,
      "learning_rate": 2.9549295774647888e-05,
      "loss": 1.1611,
      "step": 1049,
      "task_loss": 1.055216908454895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8113487958908081,
      "epoch": 0.89,
      "learning_rate": 2.9577464788732395e-05,
      "loss": 1.1456,
      "step": 1050,
      "task_loss": 0.7723767757415771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.665715217590332,
      "epoch": 0.89,
      "learning_rate": 2.9605633802816903e-05,
      "loss": 0.9223,
      "step": 1051,
      "task_loss": 0.6353974342346191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.204966425895691,
      "epoch": 0.89,
      "learning_rate": 2.9633802816901413e-05,
      "loss": 1.1879,
      "step": 1052,
      "task_loss": 0.645239531993866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4019713401794434,
      "epoch": 0.89,
      "learning_rate": 2.9661971830985917e-05,
      "loss": 1.0436,
      "step": 1053,
      "task_loss": 1.1748777627944946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1226509809494019,
      "epoch": 0.89,
      "learning_rate": 2.9690140845070424e-05,
      "loss": 1.1557,
      "step": 1054,
      "task_loss": 1.283124566078186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6956405639648438,
      "epoch": 0.89,
      "learning_rate": 2.971830985915493e-05,
      "loss": 1.0039,
      "step": 1055,
      "task_loss": 0.36284139752388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4302655458450317,
      "epoch": 0.89,
      "learning_rate": 2.9746478873239436e-05,
      "loss": 1.1894,
      "step": 1056,
      "task_loss": 1.2908812761306763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.957003116607666,
      "epoch": 0.89,
      "learning_rate": 2.9774647887323946e-05,
      "loss": 1.362,
      "step": 1057,
      "task_loss": 1.5658016204833984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2597755193710327,
      "epoch": 0.89,
      "learning_rate": 2.9802816901408453e-05,
      "loss": 1.04,
      "step": 1058,
      "task_loss": 1.8159717321395874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611103177070618,
      "epoch": 0.89,
      "learning_rate": 2.983098591549296e-05,
      "loss": 0.9077,
      "step": 1059,
      "task_loss": 0.3236370086669922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2771944999694824,
      "epoch": 0.9,
      "learning_rate": 2.9859154929577465e-05,
      "loss": 0.98,
      "step": 1060,
      "task_loss": 1.5605072975158691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9398289918899536,
      "epoch": 0.9,
      "learning_rate": 2.9887323943661972e-05,
      "loss": 0.9912,
      "step": 1061,
      "task_loss": 0.6549097299575806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0897243022918701,
      "epoch": 0.9,
      "learning_rate": 2.9915492957746482e-05,
      "loss": 1.0381,
      "step": 1062,
      "task_loss": 0.9691208004951477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7724114656448364,
      "epoch": 0.9,
      "learning_rate": 2.994366197183099e-05,
      "loss": 0.8311,
      "step": 1063,
      "task_loss": 0.6471152901649475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 2.101308822631836,
      "epoch": 0.9,
      "learning_rate": 2.9971830985915494e-05,
      "loss": 1.2605,
      "step": 1064,
      "task_loss": 2.2569496631622314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.406369686126709,
      "epoch": 0.9,
      "learning_rate": 3e-05,
      "loss": 1.0822,
      "step": 1065,
      "task_loss": 0.9523471593856812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.537786602973938,
      "epoch": 0.9,
      "learning_rate": 3.0028169014084505e-05,
      "loss": 1.2433,
      "step": 1066,
      "task_loss": 0.7768912315368652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6844545602798462,
      "epoch": 0.9,
      "learning_rate": 3.005633802816902e-05,
      "loss": 0.9955,
      "step": 1067,
      "task_loss": 0.5066354274749756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.145485281944275,
      "epoch": 0.9,
      "learning_rate": 3.0084507042253523e-05,
      "loss": 0.8444,
      "step": 1068,
      "task_loss": 1.4101670980453491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5063529014587402,
      "epoch": 0.9,
      "learning_rate": 3.011267605633803e-05,
      "loss": 0.7031,
      "step": 1069,
      "task_loss": 0.9908825755119324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0153183937072754,
      "epoch": 0.9,
      "learning_rate": 3.0140845070422537e-05,
      "loss": 1.0138,
      "step": 1070,
      "task_loss": 0.9253076910972595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9802341461181641,
      "epoch": 0.9,
      "learning_rate": 3.016901408450704e-05,
      "loss": 0.9153,
      "step": 1071,
      "task_loss": 0.9065817594528198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.978416919708252,
      "epoch": 0.91,
      "learning_rate": 3.019718309859155e-05,
      "loss": 0.9961,
      "step": 1072,
      "task_loss": 1.2014515399932861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8035662174224854,
      "epoch": 0.91,
      "learning_rate": 3.022535211267606e-05,
      "loss": 0.8993,
      "step": 1073,
      "task_loss": 0.6417739391326904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3236968517303467,
      "epoch": 0.91,
      "learning_rate": 3.0253521126760566e-05,
      "loss": 0.8114,
      "step": 1074,
      "task_loss": 1.0527417659759521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.07509183883667,
      "epoch": 0.91,
      "learning_rate": 3.028169014084507e-05,
      "loss": 1.0265,
      "step": 1075,
      "task_loss": 0.5519587397575378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8223657608032227,
      "epoch": 0.91,
      "learning_rate": 3.0309859154929577e-05,
      "loss": 1.1736,
      "step": 1076,
      "task_loss": 0.5959159731864929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1561861038208008,
      "epoch": 0.91,
      "learning_rate": 3.0338028169014088e-05,
      "loss": 1.0308,
      "step": 1077,
      "task_loss": 1.2010157108306885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7439294457435608,
      "epoch": 0.91,
      "learning_rate": 3.0366197183098595e-05,
      "loss": 0.823,
      "step": 1078,
      "task_loss": 0.8983598947525024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8068455457687378,
      "epoch": 0.91,
      "learning_rate": 3.03943661971831e-05,
      "loss": 0.9542,
      "step": 1079,
      "task_loss": 0.7052931785583496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8812681436538696,
      "epoch": 0.91,
      "learning_rate": 3.0422535211267606e-05,
      "loss": 0.975,
      "step": 1080,
      "task_loss": 0.9838396906852722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1792051792144775,
      "epoch": 0.91,
      "learning_rate": 3.0450704225352117e-05,
      "loss": 1.1423,
      "step": 1081,
      "task_loss": 1.2914183139801025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.252800464630127,
      "epoch": 0.91,
      "learning_rate": 3.0478873239436624e-05,
      "loss": 1.129,
      "step": 1082,
      "task_loss": 1.3391733169555664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5945141315460205,
      "epoch": 0.91,
      "learning_rate": 3.0507042253521128e-05,
      "loss": 0.8742,
      "step": 1083,
      "task_loss": 0.3900918662548065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9994857311248779,
      "epoch": 0.92,
      "learning_rate": 3.0535211267605635e-05,
      "loss": 1.1446,
      "step": 1084,
      "task_loss": 1.0022528171539307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7893470525741577,
      "epoch": 0.92,
      "learning_rate": 3.056338028169014e-05,
      "loss": 1.0212,
      "step": 1085,
      "task_loss": 0.8449904322624207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9564645290374756,
      "epoch": 0.92,
      "learning_rate": 3.059154929577465e-05,
      "loss": 0.919,
      "step": 1086,
      "task_loss": 1.0955801010131836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.306018590927124,
      "epoch": 0.92,
      "learning_rate": 3.061971830985916e-05,
      "loss": 0.9375,
      "step": 1087,
      "task_loss": 1.036637783050537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0175807476043701,
      "epoch": 0.92,
      "learning_rate": 3.0647887323943664e-05,
      "loss": 1.0052,
      "step": 1088,
      "task_loss": 0.572571337223053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8331770896911621,
      "epoch": 0.92,
      "learning_rate": 3.067605633802817e-05,
      "loss": 0.8684,
      "step": 1089,
      "task_loss": 0.695405125617981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3837506771087646,
      "epoch": 0.92,
      "learning_rate": 3.070422535211268e-05,
      "loss": 0.8805,
      "step": 1090,
      "task_loss": 1.0553563833236694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7742348909378052,
      "epoch": 0.92,
      "learning_rate": 3.0732394366197186e-05,
      "loss": 1.0389,
      "step": 1091,
      "task_loss": 1.9606428146362305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.024019479751587,
      "epoch": 0.92,
      "learning_rate": 3.076056338028169e-05,
      "loss": 0.9524,
      "step": 1092,
      "task_loss": 0.9821241497993469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4914461374282837,
      "epoch": 0.92,
      "learning_rate": 3.07887323943662e-05,
      "loss": 1.1549,
      "step": 1093,
      "task_loss": 1.3320156335830688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.344794750213623,
      "epoch": 0.92,
      "learning_rate": 3.081690140845071e-05,
      "loss": 1.0364,
      "step": 1094,
      "task_loss": 0.6141003966331482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9001776576042175,
      "epoch": 0.93,
      "learning_rate": 3.084507042253521e-05,
      "loss": 0.7858,
      "step": 1095,
      "task_loss": 1.1340445280075073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.884434700012207,
      "epoch": 0.93,
      "learning_rate": 3.087323943661972e-05,
      "loss": 0.8789,
      "step": 1096,
      "task_loss": 0.3262295126914978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0878591537475586,
      "epoch": 0.93,
      "learning_rate": 3.090140845070423e-05,
      "loss": 0.9974,
      "step": 1097,
      "task_loss": 1.0964699983596802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1420729160308838,
      "epoch": 0.93,
      "learning_rate": 3.092957746478874e-05,
      "loss": 0.8832,
      "step": 1098,
      "task_loss": 1.0143002271652222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1730316877365112,
      "epoch": 0.93,
      "learning_rate": 3.095774647887324e-05,
      "loss": 0.9229,
      "step": 1099,
      "task_loss": 1.746788740158081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9279778599739075,
      "epoch": 0.93,
      "learning_rate": 3.0985915492957744e-05,
      "loss": 1.0695,
      "step": 1100,
      "task_loss": 0.5339331030845642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.910100519657135,
      "epoch": 0.93,
      "learning_rate": 3.101408450704226e-05,
      "loss": 1.0544,
      "step": 1101,
      "task_loss": 0.3926548659801483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3873209953308105,
      "epoch": 0.93,
      "learning_rate": 3.1042253521126766e-05,
      "loss": 1.0664,
      "step": 1102,
      "task_loss": 1.0662553310394287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5623382329940796,
      "epoch": 0.93,
      "learning_rate": 3.1070422535211266e-05,
      "loss": 0.7573,
      "step": 1103,
      "task_loss": 0.1082405224442482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3028755187988281,
      "epoch": 0.93,
      "learning_rate": 3.109859154929577e-05,
      "loss": 1.0647,
      "step": 1104,
      "task_loss": 1.4407647848129272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1238313913345337,
      "epoch": 0.93,
      "learning_rate": 3.112676056338028e-05,
      "loss": 1.0754,
      "step": 1105,
      "task_loss": 1.7303612232208252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3905248641967773,
      "epoch": 0.93,
      "learning_rate": 3.1154929577464795e-05,
      "loss": 1.0738,
      "step": 1106,
      "task_loss": 1.236681342124939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9548593759536743,
      "epoch": 0.94,
      "learning_rate": 3.1183098591549295e-05,
      "loss": 1.0944,
      "step": 1107,
      "task_loss": 0.5106108784675598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2685399055480957,
      "epoch": 0.94,
      "learning_rate": 3.12112676056338e-05,
      "loss": 0.9959,
      "step": 1108,
      "task_loss": 1.2585952281951904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7153716087341309,
      "epoch": 0.94,
      "learning_rate": 3.123943661971831e-05,
      "loss": 0.9119,
      "step": 1109,
      "task_loss": 0.6129963994026184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8258810043334961,
      "epoch": 0.94,
      "learning_rate": 3.1267605633802824e-05,
      "loss": 0.7206,
      "step": 1110,
      "task_loss": 0.7236630916595459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3312703371047974,
      "epoch": 0.94,
      "learning_rate": 3.1295774647887324e-05,
      "loss": 1.1497,
      "step": 1111,
      "task_loss": 0.7409040927886963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.823762059211731,
      "epoch": 0.94,
      "learning_rate": 3.132394366197183e-05,
      "loss": 0.9306,
      "step": 1112,
      "task_loss": 1.0455822944641113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9825214743614197,
      "epoch": 0.94,
      "learning_rate": 3.135211267605634e-05,
      "loss": 0.9138,
      "step": 1113,
      "task_loss": 0.5640580058097839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9581623077392578,
      "epoch": 0.94,
      "learning_rate": 3.1380281690140846e-05,
      "loss": 1.1692,
      "step": 1114,
      "task_loss": 0.7524353265762329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5234683752059937,
      "epoch": 0.94,
      "learning_rate": 3.140845070422535e-05,
      "loss": 0.7571,
      "step": 1115,
      "task_loss": 0.11696486920118332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5853378772735596,
      "epoch": 0.94,
      "learning_rate": 3.143661971830986e-05,
      "loss": 0.6705,
      "step": 1116,
      "task_loss": 0.640122652053833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.18428635597229,
      "epoch": 0.94,
      "learning_rate": 3.146478873239437e-05,
      "loss": 1.0405,
      "step": 1117,
      "task_loss": 0.6611528992652893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0418531894683838,
      "epoch": 0.94,
      "learning_rate": 3.1492957746478875e-05,
      "loss": 0.7887,
      "step": 1118,
      "task_loss": 0.7625175714492798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8644493818283081,
      "epoch": 0.95,
      "learning_rate": 3.152112676056338e-05,
      "loss": 0.9952,
      "step": 1119,
      "task_loss": 0.4301513731479645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.648482084274292,
      "epoch": 0.95,
      "learning_rate": 3.154929577464789e-05,
      "loss": 0.7437,
      "step": 1120,
      "task_loss": 0.30940693616867065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.437239170074463,
      "epoch": 0.95,
      "learning_rate": 3.1577464788732397e-05,
      "loss": 0.9665,
      "step": 1121,
      "task_loss": 1.1366058588027954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7556180953979492,
      "epoch": 0.95,
      "learning_rate": 3.1605633802816904e-05,
      "loss": 0.9736,
      "step": 1122,
      "task_loss": 0.2390281856060028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2528012990951538,
      "epoch": 0.95,
      "learning_rate": 3.163380281690141e-05,
      "loss": 0.7878,
      "step": 1123,
      "task_loss": 0.8233896493911743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0268454551696777,
      "epoch": 0.95,
      "learning_rate": 3.166197183098591e-05,
      "loss": 0.8988,
      "step": 1124,
      "task_loss": 0.8265514373779297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.048393964767456,
      "epoch": 0.95,
      "learning_rate": 3.1690140845070426e-05,
      "loss": 0.8121,
      "step": 1125,
      "task_loss": 0.9901604056358337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9509321451187134,
      "epoch": 0.95,
      "learning_rate": 3.171830985915493e-05,
      "loss": 0.9908,
      "step": 1126,
      "task_loss": 1.1167559623718262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9042361378669739,
      "epoch": 0.95,
      "learning_rate": 3.174647887323944e-05,
      "loss": 0.8663,
      "step": 1127,
      "task_loss": 1.4829646348953247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.884629487991333,
      "epoch": 0.95,
      "learning_rate": 3.177464788732394e-05,
      "loss": 0.9981,
      "step": 1128,
      "task_loss": 1.0387400388717651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1022435426712036,
      "epoch": 0.95,
      "learning_rate": 3.180281690140845e-05,
      "loss": 0.8365,
      "step": 1129,
      "task_loss": 1.5091971158981323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9959489107131958,
      "epoch": 0.95,
      "learning_rate": 3.183098591549296e-05,
      "loss": 0.8935,
      "step": 1130,
      "task_loss": 1.772108793258667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42530715465545654,
      "epoch": 0.96,
      "learning_rate": 3.185915492957747e-05,
      "loss": 0.6951,
      "step": 1131,
      "task_loss": 0.23121410608291626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9370519518852234,
      "epoch": 0.96,
      "learning_rate": 3.1887323943661976e-05,
      "loss": 1.0142,
      "step": 1132,
      "task_loss": 0.4105663597583771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5788878202438354,
      "epoch": 0.96,
      "learning_rate": 3.191549295774648e-05,
      "loss": 0.892,
      "step": 1133,
      "task_loss": 1.008068323135376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8654824495315552,
      "epoch": 0.96,
      "learning_rate": 3.1943661971830984e-05,
      "loss": 0.9695,
      "step": 1134,
      "task_loss": 0.7124269008636475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4408470392227173,
      "epoch": 0.96,
      "learning_rate": 3.19718309859155e-05,
      "loss": 1.1518,
      "step": 1135,
      "task_loss": 1.7371697425842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9579079151153564,
      "epoch": 0.96,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.9182,
      "step": 1136,
      "task_loss": 1.2651770114898682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.836429238319397,
      "epoch": 0.96,
      "learning_rate": 3.2028169014084506e-05,
      "loss": 1.0088,
      "step": 1137,
      "task_loss": 0.8547056913375854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1275967359542847,
      "epoch": 0.96,
      "learning_rate": 3.205633802816901e-05,
      "loss": 0.8439,
      "step": 1138,
      "task_loss": 0.6997576355934143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6634745597839355,
      "epoch": 0.96,
      "learning_rate": 3.208450704225353e-05,
      "loss": 1.1415,
      "step": 1139,
      "task_loss": 1.0569509267807007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5985784530639648,
      "epoch": 0.96,
      "learning_rate": 3.2112676056338034e-05,
      "loss": 1.089,
      "step": 1140,
      "task_loss": 0.6864728927612305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.367414951324463,
      "epoch": 0.96,
      "learning_rate": 3.2140845070422535e-05,
      "loss": 1.0582,
      "step": 1141,
      "task_loss": 1.4149954319000244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8596222400665283,
      "epoch": 0.96,
      "learning_rate": 3.216901408450704e-05,
      "loss": 0.9804,
      "step": 1142,
      "task_loss": 1.4745179414749146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6966142058372498,
      "epoch": 0.97,
      "learning_rate": 3.219718309859155e-05,
      "loss": 0.9161,
      "step": 1143,
      "task_loss": 0.5558992028236389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2815407514572144,
      "epoch": 0.97,
      "learning_rate": 3.222535211267606e-05,
      "loss": 0.8613,
      "step": 1144,
      "task_loss": 1.2148690223693848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.602104663848877,
      "epoch": 0.97,
      "learning_rate": 3.2253521126760564e-05,
      "loss": 0.7798,
      "step": 1145,
      "task_loss": 0.31097087264060974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8310656547546387,
      "epoch": 0.97,
      "learning_rate": 3.228169014084507e-05,
      "loss": 1.1022,
      "step": 1146,
      "task_loss": 1.8354239463806152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6525941491127014,
      "epoch": 0.97,
      "learning_rate": 3.230985915492958e-05,
      "loss": 0.8232,
      "step": 1147,
      "task_loss": 0.32751402258872986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8042995929718018,
      "epoch": 0.97,
      "learning_rate": 3.2338028169014086e-05,
      "loss": 1.0499,
      "step": 1148,
      "task_loss": 0.7061102390289307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0960584878921509,
      "epoch": 0.97,
      "learning_rate": 3.236619718309859e-05,
      "loss": 0.9368,
      "step": 1149,
      "task_loss": 1.6864874362945557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1719467639923096,
      "epoch": 0.97,
      "learning_rate": 3.23943661971831e-05,
      "loss": 0.8746,
      "step": 1150,
      "task_loss": 1.4344993829727173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.796451210975647,
      "epoch": 0.97,
      "learning_rate": 3.242253521126761e-05,
      "loss": 0.7614,
      "step": 1151,
      "task_loss": 1.12985360622406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.139125108718872,
      "epoch": 0.97,
      "learning_rate": 3.2450704225352115e-05,
      "loss": 0.874,
      "step": 1152,
      "task_loss": 0.6622596979141235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.674725353717804,
      "epoch": 0.97,
      "learning_rate": 3.247887323943662e-05,
      "loss": 0.9157,
      "step": 1153,
      "task_loss": 0.6688202619552612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7879860401153564,
      "epoch": 0.97,
      "learning_rate": 3.250704225352113e-05,
      "loss": 0.96,
      "step": 1154,
      "task_loss": 0.6181442737579346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.820242166519165,
      "epoch": 0.98,
      "learning_rate": 3.2535211267605636e-05,
      "loss": 0.8521,
      "step": 1155,
      "task_loss": 1.5479239225387573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5802704095840454,
      "epoch": 0.98,
      "learning_rate": 3.2563380281690144e-05,
      "loss": 0.789,
      "step": 1156,
      "task_loss": 0.37033742666244507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6025118827819824,
      "epoch": 0.98,
      "learning_rate": 3.259154929577465e-05,
      "loss": 0.7076,
      "step": 1157,
      "task_loss": 0.669731616973877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8194455504417419,
      "epoch": 0.98,
      "learning_rate": 3.261971830985915e-05,
      "loss": 0.8474,
      "step": 1158,
      "task_loss": 0.482734739780426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9048824906349182,
      "epoch": 0.98,
      "learning_rate": 3.2647887323943665e-05,
      "loss": 0.9553,
      "step": 1159,
      "task_loss": 0.6738177537918091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7274172306060791,
      "epoch": 0.98,
      "learning_rate": 3.267605633802817e-05,
      "loss": 0.8595,
      "step": 1160,
      "task_loss": 1.0057735443115234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8213383555412292,
      "epoch": 0.98,
      "learning_rate": 3.270422535211268e-05,
      "loss": 0.824,
      "step": 1161,
      "task_loss": 0.577415406703949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2786495685577393,
      "epoch": 0.98,
      "learning_rate": 3.273239436619718e-05,
      "loss": 1.0391,
      "step": 1162,
      "task_loss": 1.044956088066101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.160908579826355,
      "epoch": 0.98,
      "learning_rate": 3.276056338028169e-05,
      "loss": 1.1073,
      "step": 1163,
      "task_loss": 1.2352685928344727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8824045658111572,
      "epoch": 0.98,
      "learning_rate": 3.27887323943662e-05,
      "loss": 0.8744,
      "step": 1164,
      "task_loss": 1.1704274415969849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7752103209495544,
      "epoch": 0.98,
      "learning_rate": 3.281690140845071e-05,
      "loss": 0.7299,
      "step": 1165,
      "task_loss": 0.6679526567459106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.196090579032898,
      "epoch": 0.99,
      "learning_rate": 3.284507042253521e-05,
      "loss": 0.9072,
      "step": 1166,
      "task_loss": 0.7240828275680542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7776911854743958,
      "epoch": 0.99,
      "learning_rate": 3.2873239436619717e-05,
      "loss": 0.8524,
      "step": 1167,
      "task_loss": 0.49345192313194275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9924798011779785,
      "epoch": 0.99,
      "learning_rate": 3.2901408450704224e-05,
      "loss": 0.9036,
      "step": 1168,
      "task_loss": 1.4417037963867188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4229249954223633,
      "epoch": 0.99,
      "learning_rate": 3.292957746478874e-05,
      "loss": 1.0278,
      "step": 1169,
      "task_loss": 0.9556698799133301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3738927841186523,
      "epoch": 0.99,
      "learning_rate": 3.295774647887324e-05,
      "loss": 0.7143,
      "step": 1170,
      "task_loss": 0.3922346532344818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7932173013687134,
      "epoch": 0.99,
      "learning_rate": 3.2985915492957746e-05,
      "loss": 0.7577,
      "step": 1171,
      "task_loss": 0.18679168820381165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4612720012664795,
      "epoch": 0.99,
      "learning_rate": 3.301408450704225e-05,
      "loss": 0.9204,
      "step": 1172,
      "task_loss": 1.474944829940796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.51720130443573,
      "epoch": 0.99,
      "learning_rate": 3.304225352112677e-05,
      "loss": 0.9028,
      "step": 1173,
      "task_loss": 0.18524540960788727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1258552074432373,
      "epoch": 0.99,
      "learning_rate": 3.307042253521127e-05,
      "loss": 1.0582,
      "step": 1174,
      "task_loss": 1.2323304414749146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4558299779891968,
      "epoch": 0.99,
      "learning_rate": 3.3098591549295775e-05,
      "loss": 1.2906,
      "step": 1175,
      "task_loss": 1.439950942993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1983811855316162,
      "epoch": 0.99,
      "learning_rate": 3.312676056338028e-05,
      "loss": 0.9156,
      "step": 1176,
      "task_loss": 0.5439980626106262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7068243622779846,
      "epoch": 0.99,
      "learning_rate": 3.315492957746479e-05,
      "loss": 0.6989,
      "step": 1177,
      "task_loss": 0.9930229783058167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.673795461654663,
      "epoch": 1.0,
      "learning_rate": 3.31830985915493e-05,
      "loss": 1.2927,
      "step": 1178,
      "task_loss": 1.4402387142181396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6024789214134216,
      "epoch": 1.0,
      "learning_rate": 3.3211267605633804e-05,
      "loss": 0.849,
      "step": 1179,
      "task_loss": 1.2530150413513184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7807836532592773,
      "epoch": 1.0,
      "learning_rate": 3.323943661971831e-05,
      "loss": 0.7354,
      "step": 1180,
      "task_loss": 0.610946774482727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8082504868507385,
      "epoch": 1.0,
      "learning_rate": 3.326760563380282e-05,
      "loss": 0.9797,
      "step": 1181,
      "task_loss": 1.8083199262619019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1054185628890991,
      "epoch": 1.0,
      "learning_rate": 3.3295774647887325e-05,
      "loss": 0.9461,
      "step": 1182,
      "task_loss": 0.5020819306373596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9442867040634155,
      "epoch": 1.0,
      "learning_rate": 3.332394366197183e-05,
      "loss": 0.906,
      "step": 1183,
      "task_loss": 0.7626156806945801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2918623685836792,
      "epoch": 1.0,
      "learning_rate": 3.335211267605634e-05,
      "loss": 1.534,
      "step": 1184,
      "task_loss": 0.4270663857460022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8555040955543518,
      "epoch": 1.0,
      "learning_rate": 3.338028169014085e-05,
      "loss": 0.9071,
      "step": 1185,
      "task_loss": 0.5815106630325317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8014392256736755,
      "epoch": 1.0,
      "learning_rate": 3.3408450704225354e-05,
      "loss": 0.7853,
      "step": 1186,
      "task_loss": 2.051740884780884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9240382313728333,
      "epoch": 1.0,
      "learning_rate": 3.343661971830986e-05,
      "loss": 0.939,
      "step": 1187,
      "task_loss": 1.082109808921814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8004231452941895,
      "epoch": 1.0,
      "learning_rate": 3.346478873239437e-05,
      "loss": 0.9881,
      "step": 1188,
      "task_loss": 1.063913345336914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1934356689453125,
      "epoch": 1.01,
      "learning_rate": 3.3492957746478876e-05,
      "loss": 0.8043,
      "step": 1189,
      "task_loss": 0.8237214088439941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9928021430969238,
      "epoch": 1.01,
      "learning_rate": 3.352112676056338e-05,
      "loss": 0.8008,
      "step": 1190,
      "task_loss": 0.4950225353240967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0945161581039429,
      "epoch": 1.01,
      "learning_rate": 3.354929577464789e-05,
      "loss": 0.9191,
      "step": 1191,
      "task_loss": 1.2156010866165161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7962568998336792,
      "epoch": 1.01,
      "learning_rate": 3.357746478873239e-05,
      "loss": 0.7123,
      "step": 1192,
      "task_loss": 0.6859135627746582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8586177229881287,
      "epoch": 1.01,
      "learning_rate": 3.3605633802816905e-05,
      "loss": 0.7631,
      "step": 1193,
      "task_loss": 0.5781033635139465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9123694896697998,
      "epoch": 1.01,
      "learning_rate": 3.363380281690141e-05,
      "loss": 1.0254,
      "step": 1194,
      "task_loss": 1.0316059589385986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6609846353530884,
      "epoch": 1.01,
      "learning_rate": 3.366197183098592e-05,
      "loss": 0.8448,
      "step": 1195,
      "task_loss": 0.7049547433853149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.805208146572113,
      "epoch": 1.01,
      "learning_rate": 3.369014084507042e-05,
      "loss": 0.8183,
      "step": 1196,
      "task_loss": 0.15728560090065002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4085863828659058,
      "epoch": 1.01,
      "learning_rate": 3.371830985915493e-05,
      "loss": 0.8684,
      "step": 1197,
      "task_loss": 1.0215092897415161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5439054369926453,
      "epoch": 1.01,
      "learning_rate": 3.374647887323944e-05,
      "loss": 0.6728,
      "step": 1198,
      "task_loss": 0.8839086890220642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5644635558128357,
      "epoch": 1.01,
      "learning_rate": 3.377464788732395e-05,
      "loss": 0.5193,
      "step": 1199,
      "task_loss": 0.5074184536933899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.3341379165649414,
      "epoch": 1.01,
      "learning_rate": 3.380281690140845e-05,
      "loss": 0.9964,
      "step": 1200,
      "task_loss": 0.659958004951477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8198841214179993,
      "epoch": 1.02,
      "learning_rate": 3.3830985915492956e-05,
      "loss": 0.8481,
      "step": 1201,
      "task_loss": 0.4957406222820282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7336146831512451,
      "epoch": 1.02,
      "learning_rate": 3.385915492957747e-05,
      "loss": 0.8227,
      "step": 1202,
      "task_loss": 0.5420545935630798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6994868516921997,
      "epoch": 1.02,
      "learning_rate": 3.388732394366198e-05,
      "loss": 0.7848,
      "step": 1203,
      "task_loss": 0.6088904142379761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8471839427947998,
      "epoch": 1.02,
      "learning_rate": 3.391549295774648e-05,
      "loss": 0.822,
      "step": 1204,
      "task_loss": 1.008898138999939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1837654113769531,
      "epoch": 1.02,
      "learning_rate": 3.3943661971830985e-05,
      "loss": 0.8906,
      "step": 1205,
      "task_loss": 1.1946046352386475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.6041507720947266,
      "epoch": 1.02,
      "learning_rate": 3.397183098591549e-05,
      "loss": 0.9566,
      "step": 1206,
      "task_loss": 1.425720453262329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8012924194335938,
      "epoch": 1.02,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 1.0368,
      "step": 1207,
      "task_loss": 0.8884502053260803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7972298860549927,
      "epoch": 1.02,
      "learning_rate": 3.402816901408451e-05,
      "loss": 0.9405,
      "step": 1208,
      "task_loss": 1.327467679977417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7542397975921631,
      "epoch": 1.02,
      "learning_rate": 3.4056338028169014e-05,
      "loss": 0.687,
      "step": 1209,
      "task_loss": 1.0868712663650513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9849074482917786,
      "epoch": 1.02,
      "learning_rate": 3.408450704225352e-05,
      "loss": 0.9183,
      "step": 1210,
      "task_loss": 1.5958986282348633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0909024477005005,
      "epoch": 1.02,
      "learning_rate": 3.411267605633803e-05,
      "loss": 0.9547,
      "step": 1211,
      "task_loss": 1.6481575965881348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0945838689804077,
      "epoch": 1.02,
      "learning_rate": 3.4140845070422536e-05,
      "loss": 0.9395,
      "step": 1212,
      "task_loss": 1.709041953086853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6183662414550781,
      "epoch": 1.03,
      "learning_rate": 3.416901408450704e-05,
      "loss": 0.6722,
      "step": 1213,
      "task_loss": 0.4922850430011749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7425100803375244,
      "epoch": 1.03,
      "learning_rate": 3.419718309859155e-05,
      "loss": 0.7634,
      "step": 1214,
      "task_loss": 0.36757317185401917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9270923733711243,
      "epoch": 1.03,
      "learning_rate": 3.422535211267606e-05,
      "loss": 0.7364,
      "step": 1215,
      "task_loss": 1.4397999048233032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0387612581253052,
      "epoch": 1.03,
      "learning_rate": 3.4253521126760565e-05,
      "loss": 0.8029,
      "step": 1216,
      "task_loss": 0.766712486743927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8965452313423157,
      "epoch": 1.03,
      "learning_rate": 3.428169014084507e-05,
      "loss": 0.8633,
      "step": 1217,
      "task_loss": 0.4307364821434021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7357679605484009,
      "epoch": 1.03,
      "learning_rate": 3.430985915492958e-05,
      "loss": 0.6925,
      "step": 1218,
      "task_loss": 2.608794927597046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8549785614013672,
      "epoch": 1.03,
      "learning_rate": 3.433802816901409e-05,
      "loss": 0.7881,
      "step": 1219,
      "task_loss": 0.8181943297386169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7123785018920898,
      "epoch": 1.03,
      "learning_rate": 3.4366197183098594e-05,
      "loss": 0.8426,
      "step": 1220,
      "task_loss": 0.692875325679779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7644048929214478,
      "epoch": 1.03,
      "learning_rate": 3.4394366197183094e-05,
      "loss": 0.6814,
      "step": 1221,
      "task_loss": 1.2170567512512207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7671277523040771,
      "epoch": 1.03,
      "learning_rate": 3.442253521126761e-05,
      "loss": 0.7011,
      "step": 1222,
      "task_loss": 0.9596631526947021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5179318189620972,
      "epoch": 1.03,
      "learning_rate": 3.4450704225352116e-05,
      "loss": 0.5611,
      "step": 1223,
      "task_loss": 0.12929952144622803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9294768571853638,
      "epoch": 1.03,
      "learning_rate": 3.447887323943662e-05,
      "loss": 0.9369,
      "step": 1224,
      "task_loss": 1.5789263248443604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4444693326950073,
      "epoch": 1.04,
      "learning_rate": 3.450704225352113e-05,
      "loss": 0.5975,
      "step": 1225,
      "task_loss": 0.42791566252708435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4421626329421997,
      "epoch": 1.04,
      "learning_rate": 3.453521126760563e-05,
      "loss": 0.8113,
      "step": 1226,
      "task_loss": 0.32182690501213074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7147836685180664,
      "epoch": 1.04,
      "learning_rate": 3.4563380281690145e-05,
      "loss": 0.8179,
      "step": 1227,
      "task_loss": 0.8937325477600098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2031548023223877,
      "epoch": 1.04,
      "learning_rate": 3.459154929577465e-05,
      "loss": 0.8704,
      "step": 1228,
      "task_loss": 1.2828608751296997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6520639657974243,
      "epoch": 1.04,
      "learning_rate": 3.461971830985916e-05,
      "loss": 0.6956,
      "step": 1229,
      "task_loss": 0.4400368332862854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8684521317481995,
      "epoch": 1.04,
      "learning_rate": 3.464788732394366e-05,
      "loss": 0.9689,
      "step": 1230,
      "task_loss": 0.6189638376235962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7574407458305359,
      "epoch": 1.04,
      "learning_rate": 3.4676056338028174e-05,
      "loss": 0.7939,
      "step": 1231,
      "task_loss": 0.4986882507801056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0259532928466797,
      "epoch": 1.04,
      "learning_rate": 3.470422535211268e-05,
      "loss": 0.6997,
      "step": 1232,
      "task_loss": 0.8594432473182678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7895364165306091,
      "epoch": 1.04,
      "learning_rate": 3.473239436619719e-05,
      "loss": 0.7194,
      "step": 1233,
      "task_loss": 1.7608203887939453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8813434839248657,
      "epoch": 1.04,
      "learning_rate": 3.476056338028169e-05,
      "loss": 0.869,
      "step": 1234,
      "task_loss": 0.8294102549552917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5496876239776611,
      "epoch": 1.04,
      "learning_rate": 3.4788732394366196e-05,
      "loss": 0.7477,
      "step": 1235,
      "task_loss": 1.3527982234954834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6474922299385071,
      "epoch": 1.04,
      "learning_rate": 3.481690140845071e-05,
      "loss": 0.69,
      "step": 1236,
      "task_loss": 1.1965404748916626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6866661906242371,
      "epoch": 1.05,
      "learning_rate": 3.484507042253522e-05,
      "loss": 0.7543,
      "step": 1237,
      "task_loss": 1.1704741716384888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.7254645824432373,
      "epoch": 1.05,
      "learning_rate": 3.487323943661972e-05,
      "loss": 1.0765,
      "step": 1238,
      "task_loss": 1.3405183553695679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6111165285110474,
      "epoch": 1.05,
      "learning_rate": 3.4901408450704225e-05,
      "loss": 1.095,
      "step": 1239,
      "task_loss": 0.17204031348228455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7005902528762817,
      "epoch": 1.05,
      "learning_rate": 3.492957746478873e-05,
      "loss": 0.7734,
      "step": 1240,
      "task_loss": 0.4967375099658966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5905947089195251,
      "epoch": 1.05,
      "learning_rate": 3.4957746478873246e-05,
      "loss": 0.6945,
      "step": 1241,
      "task_loss": 0.1094353199005127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7181411981582642,
      "epoch": 1.05,
      "learning_rate": 3.498591549295775e-05,
      "loss": 0.7184,
      "step": 1242,
      "task_loss": 0.6629283428192139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8046637177467346,
      "epoch": 1.05,
      "learning_rate": 3.5014084507042254e-05,
      "loss": 0.7162,
      "step": 1243,
      "task_loss": 1.0194084644317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6250340938568115,
      "epoch": 1.05,
      "learning_rate": 3.504225352112676e-05,
      "loss": 0.6875,
      "step": 1244,
      "task_loss": 0.541187584400177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8407703042030334,
      "epoch": 1.05,
      "learning_rate": 3.507042253521127e-05,
      "loss": 0.9001,
      "step": 1245,
      "task_loss": 1.2834328413009644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5556535124778748,
      "epoch": 1.05,
      "learning_rate": 3.5098591549295776e-05,
      "loss": 0.8061,
      "step": 1246,
      "task_loss": 0.8866622447967529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7095454931259155,
      "epoch": 1.05,
      "learning_rate": 3.512676056338028e-05,
      "loss": 0.8652,
      "step": 1247,
      "task_loss": 0.23205532133579254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.831397533416748,
      "epoch": 1.05,
      "learning_rate": 3.515492957746479e-05,
      "loss": 0.8294,
      "step": 1248,
      "task_loss": 0.6734315156936646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.040311336517334,
      "epoch": 1.06,
      "learning_rate": 3.51830985915493e-05,
      "loss": 0.7715,
      "step": 1249,
      "task_loss": 1.196539282798767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9563837647438049,
      "epoch": 1.06,
      "learning_rate": 3.5211267605633805e-05,
      "loss": 0.8995,
      "step": 1250,
      "task_loss": 1.4706432819366455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6572422385215759,
      "epoch": 1.06,
      "learning_rate": 3.523943661971831e-05,
      "loss": 0.7538,
      "step": 1251,
      "task_loss": 0.818042516708374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7606565952301025,
      "epoch": 1.06,
      "learning_rate": 3.526760563380282e-05,
      "loss": 0.7855,
      "step": 1252,
      "task_loss": 1.0046520233154297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6900460124015808,
      "epoch": 1.06,
      "learning_rate": 3.5295774647887326e-05,
      "loss": 0.915,
      "step": 1253,
      "task_loss": 1.532382845878601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6132869720458984,
      "epoch": 1.06,
      "learning_rate": 3.5323943661971834e-05,
      "loss": 0.7636,
      "step": 1254,
      "task_loss": 1.2558724880218506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6906678676605225,
      "epoch": 1.06,
      "learning_rate": 3.5352112676056334e-05,
      "loss": 0.766,
      "step": 1255,
      "task_loss": 0.11208156496286392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7141894102096558,
      "epoch": 1.06,
      "learning_rate": 3.538028169014085e-05,
      "loss": 0.6758,
      "step": 1256,
      "task_loss": 0.6671800017356873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6225650310516357,
      "epoch": 1.06,
      "learning_rate": 3.5408450704225355e-05,
      "loss": 0.7616,
      "step": 1257,
      "task_loss": 0.31204259395599365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7383618950843811,
      "epoch": 1.06,
      "learning_rate": 3.543661971830986e-05,
      "loss": 0.7773,
      "step": 1258,
      "task_loss": 1.4213207960128784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3776629567146301,
      "epoch": 1.06,
      "learning_rate": 3.546478873239436e-05,
      "loss": 0.5108,
      "step": 1259,
      "task_loss": 0.06904461234807968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7822449207305908,
      "epoch": 1.07,
      "learning_rate": 3.549295774647888e-05,
      "loss": 0.9544,
      "step": 1260,
      "task_loss": 0.4792971611022949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5510671138763428,
      "epoch": 1.07,
      "learning_rate": 3.5521126760563384e-05,
      "loss": 0.6793,
      "step": 1261,
      "task_loss": 1.098591923713684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.554914653301239,
      "epoch": 1.07,
      "learning_rate": 3.554929577464789e-05,
      "loss": 0.7546,
      "step": 1262,
      "task_loss": 0.8954185843467712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6111783385276794,
      "epoch": 1.07,
      "learning_rate": 3.557746478873239e-05,
      "loss": 0.828,
      "step": 1263,
      "task_loss": 0.7794609069824219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0496890544891357,
      "epoch": 1.07,
      "learning_rate": 3.56056338028169e-05,
      "loss": 1.0405,
      "step": 1264,
      "task_loss": 1.9746778011322021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6859597563743591,
      "epoch": 1.07,
      "learning_rate": 3.5633802816901413e-05,
      "loss": 0.7542,
      "step": 1265,
      "task_loss": 0.766257107257843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9770196676254272,
      "epoch": 1.07,
      "learning_rate": 3.566197183098592e-05,
      "loss": 0.842,
      "step": 1266,
      "task_loss": 0.9241597652435303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7313793301582336,
      "epoch": 1.07,
      "learning_rate": 3.569014084507042e-05,
      "loss": 0.8746,
      "step": 1267,
      "task_loss": 1.913285493850708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9250802993774414,
      "epoch": 1.07,
      "learning_rate": 3.571830985915493e-05,
      "loss": 0.8673,
      "step": 1268,
      "task_loss": 0.7990307211875916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5878286361694336,
      "epoch": 1.07,
      "learning_rate": 3.5746478873239436e-05,
      "loss": 0.8124,
      "step": 1269,
      "task_loss": 0.42495110630989075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6998294591903687,
      "epoch": 1.07,
      "learning_rate": 3.577464788732395e-05,
      "loss": 0.8133,
      "step": 1270,
      "task_loss": 1.1675562858581543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4835773706436157,
      "epoch": 1.07,
      "learning_rate": 3.580281690140846e-05,
      "loss": 1.046,
      "step": 1271,
      "task_loss": 0.48136740922927856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7225725650787354,
      "epoch": 1.08,
      "learning_rate": 3.583098591549296e-05,
      "loss": 0.6938,
      "step": 1272,
      "task_loss": 0.9115102291107178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5379626750946045,
      "epoch": 1.08,
      "learning_rate": 3.5859154929577465e-05,
      "loss": 0.8298,
      "step": 1273,
      "task_loss": 0.8082537055015564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6137171387672424,
      "epoch": 1.08,
      "learning_rate": 3.588732394366197e-05,
      "loss": 0.7764,
      "step": 1274,
      "task_loss": 1.040844202041626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9455809593200684,
      "epoch": 1.08,
      "learning_rate": 3.5915492957746486e-05,
      "loss": 0.8659,
      "step": 1275,
      "task_loss": 1.1844301223754883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6414105892181396,
      "epoch": 1.08,
      "learning_rate": 3.5943661971830986e-05,
      "loss": 0.7991,
      "step": 1276,
      "task_loss": 0.5063562989234924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.549480676651001,
      "epoch": 1.08,
      "learning_rate": 3.5971830985915494e-05,
      "loss": 0.8311,
      "step": 1277,
      "task_loss": 0.43166977167129517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8726398348808289,
      "epoch": 1.08,
      "learning_rate": 3.6e-05,
      "loss": 0.8569,
      "step": 1278,
      "task_loss": 1.1902964115142822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.772813081741333,
      "epoch": 1.08,
      "learning_rate": 3.602816901408451e-05,
      "loss": 0.7259,
      "step": 1279,
      "task_loss": 0.37119442224502563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0929890871047974,
      "epoch": 1.08,
      "learning_rate": 3.6056338028169015e-05,
      "loss": 0.8003,
      "step": 1280,
      "task_loss": 0.9647442102432251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7997719049453735,
      "epoch": 1.08,
      "learning_rate": 3.608450704225352e-05,
      "loss": 0.8479,
      "step": 1281,
      "task_loss": 1.055337905883789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1603193283081055,
      "epoch": 1.08,
      "learning_rate": 3.611267605633803e-05,
      "loss": 0.7489,
      "step": 1282,
      "task_loss": 1.6504595279693604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6377028822898865,
      "epoch": 1.08,
      "learning_rate": 3.614084507042254e-05,
      "loss": 0.8583,
      "step": 1283,
      "task_loss": 0.9708558917045593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9410070776939392,
      "epoch": 1.09,
      "learning_rate": 3.6169014084507044e-05,
      "loss": 0.7004,
      "step": 1284,
      "task_loss": 0.3442003130912781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6020750999450684,
      "epoch": 1.09,
      "learning_rate": 3.619718309859155e-05,
      "loss": 0.5501,
      "step": 1285,
      "task_loss": 0.5716943144798279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6549991369247437,
      "epoch": 1.09,
      "learning_rate": 3.622535211267606e-05,
      "loss": 0.8281,
      "step": 1286,
      "task_loss": 0.5831762552261353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4124181568622589,
      "epoch": 1.09,
      "learning_rate": 3.6253521126760566e-05,
      "loss": 0.783,
      "step": 1287,
      "task_loss": 0.06972641497850418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7036275863647461,
      "epoch": 1.09,
      "learning_rate": 3.6281690140845073e-05,
      "loss": 0.6749,
      "step": 1288,
      "task_loss": 0.6497281193733215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5104941129684448,
      "epoch": 1.09,
      "learning_rate": 3.630985915492958e-05,
      "loss": 0.8103,
      "step": 1289,
      "task_loss": 0.09877430647611618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8388316631317139,
      "epoch": 1.09,
      "learning_rate": 3.633802816901409e-05,
      "loss": 0.813,
      "step": 1290,
      "task_loss": 0.7490025758743286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6802901029586792,
      "epoch": 1.09,
      "learning_rate": 3.6366197183098595e-05,
      "loss": 0.8596,
      "step": 1291,
      "task_loss": 1.0177067518234253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5577201843261719,
      "epoch": 1.09,
      "learning_rate": 3.63943661971831e-05,
      "loss": 0.7907,
      "step": 1292,
      "task_loss": 0.705917239189148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9185020327568054,
      "epoch": 1.09,
      "learning_rate": 3.64225352112676e-05,
      "loss": 0.7579,
      "step": 1293,
      "task_loss": 0.714583694934845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4762297570705414,
      "epoch": 1.09,
      "learning_rate": 3.645070422535212e-05,
      "loss": 0.6115,
      "step": 1294,
      "task_loss": 0.509657621383667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.719886302947998,
      "epoch": 1.09,
      "learning_rate": 3.6478873239436624e-05,
      "loss": 0.7005,
      "step": 1295,
      "task_loss": 0.6613854169845581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7538480758666992,
      "epoch": 1.1,
      "learning_rate": 3.650704225352113e-05,
      "loss": 0.6476,
      "step": 1296,
      "task_loss": 0.19480088353157043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5861597061157227,
      "epoch": 1.1,
      "learning_rate": 3.653521126760563e-05,
      "loss": 0.531,
      "step": 1297,
      "task_loss": 0.26570937037467957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5029035210609436,
      "epoch": 1.1,
      "learning_rate": 3.656338028169014e-05,
      "loss": 0.4622,
      "step": 1298,
      "task_loss": 0.5075638294219971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4162977933883667,
      "epoch": 1.1,
      "learning_rate": 3.659154929577465e-05,
      "loss": 0.9142,
      "step": 1299,
      "task_loss": 1.6295454502105713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8458637595176697,
      "epoch": 1.1,
      "learning_rate": 3.661971830985916e-05,
      "loss": 0.7595,
      "step": 1300,
      "task_loss": 0.33450421690940857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.858117938041687,
      "epoch": 1.1,
      "learning_rate": 3.664788732394366e-05,
      "loss": 0.7565,
      "step": 1301,
      "task_loss": 1.2290905714035034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7413697242736816,
      "epoch": 1.1,
      "learning_rate": 3.667605633802817e-05,
      "loss": 0.6924,
      "step": 1302,
      "task_loss": 1.1581050157546997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8725029230117798,
      "epoch": 1.1,
      "learning_rate": 3.6704225352112675e-05,
      "loss": 0.7511,
      "step": 1303,
      "task_loss": 0.8451574444770813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6860213875770569,
      "epoch": 1.1,
      "learning_rate": 3.673239436619719e-05,
      "loss": 0.7371,
      "step": 1304,
      "task_loss": 1.367508053779602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5642271041870117,
      "epoch": 1.1,
      "learning_rate": 3.676056338028169e-05,
      "loss": 0.9491,
      "step": 1305,
      "task_loss": 0.5634865164756775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6156296730041504,
      "epoch": 1.1,
      "learning_rate": 3.67887323943662e-05,
      "loss": 0.6687,
      "step": 1306,
      "task_loss": 0.8175805807113647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7799545526504517,
      "epoch": 1.1,
      "learning_rate": 3.6816901408450704e-05,
      "loss": 0.7471,
      "step": 1307,
      "task_loss": 0.35390737652778625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.060184121131897,
      "epoch": 1.11,
      "learning_rate": 3.684507042253521e-05,
      "loss": 0.9033,
      "step": 1308,
      "task_loss": 1.10116708278656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0425946712493896,
      "epoch": 1.11,
      "learning_rate": 3.687323943661972e-05,
      "loss": 0.7784,
      "step": 1309,
      "task_loss": 0.9533910155296326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.917415976524353,
      "epoch": 1.11,
      "learning_rate": 3.6901408450704226e-05,
      "loss": 0.7737,
      "step": 1310,
      "task_loss": 1.8243242502212524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7757285833358765,
      "epoch": 1.11,
      "learning_rate": 3.692957746478873e-05,
      "loss": 0.7652,
      "step": 1311,
      "task_loss": 0.5608454346656799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7432516813278198,
      "epoch": 1.11,
      "learning_rate": 3.695774647887324e-05,
      "loss": 0.6602,
      "step": 1312,
      "task_loss": 0.31056028604507446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8425228595733643,
      "epoch": 1.11,
      "learning_rate": 3.698591549295775e-05,
      "loss": 0.7002,
      "step": 1313,
      "task_loss": 1.7012228965759277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9212037324905396,
      "epoch": 1.11,
      "learning_rate": 3.7014084507042255e-05,
      "loss": 0.7826,
      "step": 1314,
      "task_loss": 1.2410392761230469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5926636457443237,
      "epoch": 1.11,
      "learning_rate": 3.704225352112676e-05,
      "loss": 0.6269,
      "step": 1315,
      "task_loss": 0.6078276038169861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7096782326698303,
      "epoch": 1.11,
      "learning_rate": 3.707042253521127e-05,
      "loss": 0.6782,
      "step": 1316,
      "task_loss": 0.7626842856407166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7662361860275269,
      "epoch": 1.11,
      "learning_rate": 3.709859154929578e-05,
      "loss": 0.7875,
      "step": 1317,
      "task_loss": 0.7043976187705994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49353694915771484,
      "epoch": 1.11,
      "learning_rate": 3.7126760563380284e-05,
      "loss": 0.6974,
      "step": 1318,
      "task_loss": 0.5637612342834473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6509162187576294,
      "epoch": 1.11,
      "learning_rate": 3.715492957746479e-05,
      "loss": 0.6556,
      "step": 1319,
      "task_loss": 0.5995513200759888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5150904655456543,
      "epoch": 1.12,
      "learning_rate": 3.71830985915493e-05,
      "loss": 0.831,
      "step": 1320,
      "task_loss": 0.43913036584854126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0928218364715576,
      "epoch": 1.12,
      "learning_rate": 3.7211267605633806e-05,
      "loss": 0.7373,
      "step": 1321,
      "task_loss": 1.0779298543930054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.740695595741272,
      "epoch": 1.12,
      "learning_rate": 3.723943661971831e-05,
      "loss": 0.9163,
      "step": 1322,
      "task_loss": 1.884770393371582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.740666925907135,
      "epoch": 1.12,
      "learning_rate": 3.726760563380282e-05,
      "loss": 0.7479,
      "step": 1323,
      "task_loss": 0.8885055780410767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8488104343414307,
      "epoch": 1.12,
      "learning_rate": 3.729577464788733e-05,
      "loss": 0.8376,
      "step": 1324,
      "task_loss": 0.519652783870697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8062671422958374,
      "epoch": 1.12,
      "learning_rate": 3.7323943661971835e-05,
      "loss": 0.8165,
      "step": 1325,
      "task_loss": 0.5618849992752075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5601645112037659,
      "epoch": 1.12,
      "learning_rate": 3.735211267605634e-05,
      "loss": 0.7358,
      "step": 1326,
      "task_loss": 0.6365836262702942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5128225684165955,
      "epoch": 1.12,
      "learning_rate": 3.738028169014084e-05,
      "loss": 0.8503,
      "step": 1327,
      "task_loss": 0.6467136740684509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6482024192810059,
      "epoch": 1.12,
      "learning_rate": 3.740845070422536e-05,
      "loss": 0.6229,
      "step": 1328,
      "task_loss": 0.5975654125213623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.502515435218811,
      "epoch": 1.12,
      "learning_rate": 3.7436619718309864e-05,
      "loss": 0.9566,
      "step": 1329,
      "task_loss": 0.25512880086898804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8315339088439941,
      "epoch": 1.12,
      "learning_rate": 3.746478873239437e-05,
      "loss": 0.8478,
      "step": 1330,
      "task_loss": 1.1492507457733154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.813011646270752,
      "epoch": 1.13,
      "learning_rate": 3.749295774647887e-05,
      "loss": 0.7969,
      "step": 1331,
      "task_loss": 1.2511141300201416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5783092379570007,
      "epoch": 1.13,
      "learning_rate": 3.752112676056338e-05,
      "loss": 0.8815,
      "step": 1332,
      "task_loss": 0.7081245183944702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5627174973487854,
      "epoch": 1.13,
      "learning_rate": 3.754929577464789e-05,
      "loss": 0.7537,
      "step": 1333,
      "task_loss": 0.4291169047355652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47017714381217957,
      "epoch": 1.13,
      "learning_rate": 3.75774647887324e-05,
      "loss": 0.7331,
      "step": 1334,
      "task_loss": 1.004648208618164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9714229106903076,
      "epoch": 1.13,
      "learning_rate": 3.76056338028169e-05,
      "loss": 0.9644,
      "step": 1335,
      "task_loss": 1.3506898880004883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7662819623947144,
      "epoch": 1.13,
      "learning_rate": 3.763380281690141e-05,
      "loss": 0.9737,
      "step": 1336,
      "task_loss": 1.3562350273132324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4037238359451294,
      "epoch": 1.13,
      "learning_rate": 3.7661971830985915e-05,
      "loss": 0.9654,
      "step": 1337,
      "task_loss": 0.6441592574119568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.01736581325531,
      "epoch": 1.13,
      "learning_rate": 3.769014084507043e-05,
      "loss": 0.8509,
      "step": 1338,
      "task_loss": 1.8972861766815186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7947677373886108,
      "epoch": 1.13,
      "learning_rate": 3.771830985915493e-05,
      "loss": 0.6794,
      "step": 1339,
      "task_loss": 1.1238175630569458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8995745182037354,
      "epoch": 1.13,
      "learning_rate": 3.774647887323944e-05,
      "loss": 0.7463,
      "step": 1340,
      "task_loss": 1.7476989030838013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5612698793411255,
      "epoch": 1.13,
      "learning_rate": 3.7774647887323944e-05,
      "loss": 0.8292,
      "step": 1341,
      "task_loss": 0.24017272889614105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37615880370140076,
      "epoch": 1.13,
      "learning_rate": 3.780281690140845e-05,
      "loss": 0.8868,
      "step": 1342,
      "task_loss": 0.3772379457950592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5153158903121948,
      "epoch": 1.14,
      "learning_rate": 3.783098591549296e-05,
      "loss": 0.7332,
      "step": 1343,
      "task_loss": 0.19181449711322784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.564118504524231,
      "epoch": 1.14,
      "learning_rate": 3.7859154929577466e-05,
      "loss": 0.9418,
      "step": 1344,
      "task_loss": 1.5227885246276855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6710333824157715,
      "epoch": 1.14,
      "learning_rate": 3.788732394366197e-05,
      "loss": 0.7432,
      "step": 1345,
      "task_loss": 0.8282901048660278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9012320041656494,
      "epoch": 1.14,
      "learning_rate": 3.791549295774648e-05,
      "loss": 0.8825,
      "step": 1346,
      "task_loss": 1.1163285970687866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5712893009185791,
      "epoch": 1.14,
      "learning_rate": 3.794366197183099e-05,
      "loss": 0.7851,
      "step": 1347,
      "task_loss": 0.49462440609931946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.570472240447998,
      "epoch": 1.14,
      "learning_rate": 3.7971830985915495e-05,
      "loss": 0.8712,
      "step": 1348,
      "task_loss": 1.0322186946868896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47600072622299194,
      "epoch": 1.14,
      "learning_rate": 3.8e-05,
      "loss": 0.6013,
      "step": 1349,
      "task_loss": 0.7563858032226562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5716865062713623,
      "epoch": 1.14,
      "learning_rate": 3.802816901408451e-05,
      "loss": 0.6489,
      "step": 1350,
      "task_loss": 1.6566252708435059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49220454692840576,
      "epoch": 1.14,
      "learning_rate": 3.8056338028169017e-05,
      "loss": 0.7974,
      "step": 1351,
      "task_loss": 0.9204698204994202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8018453121185303,
      "epoch": 1.14,
      "learning_rate": 3.8084507042253524e-05,
      "loss": 0.9372,
      "step": 1352,
      "task_loss": 1.1570929288864136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2013646364212036,
      "epoch": 1.14,
      "learning_rate": 3.811267605633803e-05,
      "loss": 1.057,
      "step": 1353,
      "task_loss": 0.6653337478637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4932442307472229,
      "epoch": 1.14,
      "learning_rate": 3.814084507042254e-05,
      "loss": 0.6407,
      "step": 1354,
      "task_loss": 0.5450311303138733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5508944988250732,
      "epoch": 1.15,
      "learning_rate": 3.8169014084507046e-05,
      "loss": 0.6934,
      "step": 1355,
      "task_loss": 0.4687301814556122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1773220300674438,
      "epoch": 1.15,
      "learning_rate": 3.8197183098591546e-05,
      "loss": 1.0188,
      "step": 1356,
      "task_loss": 0.4553040564060211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49309512972831726,
      "epoch": 1.15,
      "learning_rate": 3.822535211267606e-05,
      "loss": 0.8781,
      "step": 1357,
      "task_loss": 0.28266268968582153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8344337344169617,
      "epoch": 1.15,
      "learning_rate": 3.825352112676057e-05,
      "loss": 0.9748,
      "step": 1358,
      "task_loss": 1.720163106918335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.072000503540039,
      "epoch": 1.15,
      "learning_rate": 3.8281690140845075e-05,
      "loss": 0.7161,
      "step": 1359,
      "task_loss": 0.2949625551700592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4227490425109863,
      "epoch": 1.15,
      "learning_rate": 3.8309859154929575e-05,
      "loss": 0.9029,
      "step": 1360,
      "task_loss": 0.7863182425498962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.161776065826416,
      "epoch": 1.15,
      "learning_rate": 3.833802816901408e-05,
      "loss": 0.9003,
      "step": 1361,
      "task_loss": 1.0454025268554688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5051529407501221,
      "epoch": 1.15,
      "learning_rate": 3.8366197183098596e-05,
      "loss": 0.7621,
      "step": 1362,
      "task_loss": 0.49472156167030334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45620864629745483,
      "epoch": 1.15,
      "learning_rate": 3.8394366197183104e-05,
      "loss": 0.829,
      "step": 1363,
      "task_loss": 0.7446763515472412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4824894666671753,
      "epoch": 1.15,
      "learning_rate": 3.8422535211267604e-05,
      "loss": 0.7465,
      "step": 1364,
      "task_loss": 0.7177490592002869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43231409788131714,
      "epoch": 1.15,
      "learning_rate": 3.845070422535211e-05,
      "loss": 0.6063,
      "step": 1365,
      "task_loss": 1.3803067207336426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9414101839065552,
      "epoch": 1.15,
      "learning_rate": 3.847887323943662e-05,
      "loss": 0.8662,
      "step": 1366,
      "task_loss": 1.1798189878463745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48943471908569336,
      "epoch": 1.16,
      "learning_rate": 3.850704225352113e-05,
      "loss": 0.6163,
      "step": 1367,
      "task_loss": 0.45160919427871704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.017007827758789,
      "epoch": 1.16,
      "learning_rate": 3.853521126760564e-05,
      "loss": 0.8259,
      "step": 1368,
      "task_loss": 0.8634839653968811
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5405937433242798,
      "epoch": 1.16,
      "learning_rate": 3.856338028169014e-05,
      "loss": 0.9796,
      "step": 1369,
      "task_loss": 0.6813457012176514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5586112141609192,
      "epoch": 1.16,
      "learning_rate": 3.859154929577465e-05,
      "loss": 0.6258,
      "step": 1370,
      "task_loss": 0.8454182147979736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7199917435646057,
      "epoch": 1.16,
      "learning_rate": 3.8619718309859155e-05,
      "loss": 0.6414,
      "step": 1371,
      "task_loss": 1.5096521377563477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4697726368904114,
      "epoch": 1.16,
      "learning_rate": 3.864788732394367e-05,
      "loss": 0.729,
      "step": 1372,
      "task_loss": 0.4536629021167755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8570728302001953,
      "epoch": 1.16,
      "learning_rate": 3.867605633802817e-05,
      "loss": 0.8744,
      "step": 1373,
      "task_loss": 0.8850362300872803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6022423505783081,
      "epoch": 1.16,
      "learning_rate": 3.8704225352112677e-05,
      "loss": 0.8715,
      "step": 1374,
      "task_loss": 1.3966511487960815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7351111769676208,
      "epoch": 1.16,
      "learning_rate": 3.8732394366197184e-05,
      "loss": 0.7921,
      "step": 1375,
      "task_loss": 1.3739149570465088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8857632875442505,
      "epoch": 1.16,
      "learning_rate": 3.87605633802817e-05,
      "loss": 0.8269,
      "step": 1376,
      "task_loss": 0.8521987795829773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9163758754730225,
      "epoch": 1.16,
      "learning_rate": 3.87887323943662e-05,
      "loss": 0.7638,
      "step": 1377,
      "task_loss": 0.9611953496932983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9297792911529541,
      "epoch": 1.16,
      "learning_rate": 3.8816901408450706e-05,
      "loss": 0.8163,
      "step": 1378,
      "task_loss": 0.22395800054073334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5782598853111267,
      "epoch": 1.17,
      "learning_rate": 3.884507042253521e-05,
      "loss": 0.6709,
      "step": 1379,
      "task_loss": 0.7647679448127747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7844232320785522,
      "epoch": 1.17,
      "learning_rate": 3.887323943661972e-05,
      "loss": 0.7591,
      "step": 1380,
      "task_loss": 0.6664432287216187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0925613641738892,
      "epoch": 1.17,
      "learning_rate": 3.890140845070423e-05,
      "loss": 0.8473,
      "step": 1381,
      "task_loss": 1.4349753856658936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0698866844177246,
      "epoch": 1.17,
      "learning_rate": 3.8929577464788735e-05,
      "loss": 0.7608,
      "step": 1382,
      "task_loss": 0.9003656506538391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8592077493667603,
      "epoch": 1.17,
      "learning_rate": 3.895774647887324e-05,
      "loss": 0.8426,
      "step": 1383,
      "task_loss": 2.6794750690460205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9933497905731201,
      "epoch": 1.17,
      "learning_rate": 3.898591549295775e-05,
      "loss": 0.687,
      "step": 1384,
      "task_loss": 0.7604245543479919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8535611629486084,
      "epoch": 1.17,
      "learning_rate": 3.9014084507042256e-05,
      "loss": 0.7222,
      "step": 1385,
      "task_loss": 0.6163215041160583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.72929847240448,
      "epoch": 1.17,
      "learning_rate": 3.9042253521126764e-05,
      "loss": 0.7214,
      "step": 1386,
      "task_loss": 0.7554467916488647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.335517555475235,
      "epoch": 1.17,
      "learning_rate": 3.907042253521127e-05,
      "loss": 0.8252,
      "step": 1387,
      "task_loss": 0.33588606119155884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5570566654205322,
      "epoch": 1.17,
      "learning_rate": 3.909859154929578e-05,
      "loss": 0.6968,
      "step": 1388,
      "task_loss": 0.43593066930770874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5047706365585327,
      "epoch": 1.17,
      "learning_rate": 3.9126760563380285e-05,
      "loss": 0.5897,
      "step": 1389,
      "task_loss": 1.1096971035003662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0606225728988647,
      "epoch": 1.17,
      "learning_rate": 3.9154929577464786e-05,
      "loss": 0.9759,
      "step": 1390,
      "task_loss": 1.0042649507522583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5720828771591187,
      "epoch": 1.18,
      "learning_rate": 3.91830985915493e-05,
      "loss": 0.7701,
      "step": 1391,
      "task_loss": 0.7499518990516663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.918779730796814,
      "epoch": 1.18,
      "learning_rate": 3.921126760563381e-05,
      "loss": 0.8901,
      "step": 1392,
      "task_loss": 0.44356319308280945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.639498233795166,
      "epoch": 1.18,
      "learning_rate": 3.9239436619718314e-05,
      "loss": 0.8945,
      "step": 1393,
      "task_loss": 1.0957310199737549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7458616495132446,
      "epoch": 1.18,
      "learning_rate": 3.9267605633802815e-05,
      "loss": 0.8344,
      "step": 1394,
      "task_loss": 1.20658278465271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5476272106170654,
      "epoch": 1.18,
      "learning_rate": 3.929577464788732e-05,
      "loss": 0.8759,
      "step": 1395,
      "task_loss": 0.842934250831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.949516773223877,
      "epoch": 1.18,
      "learning_rate": 3.9323943661971836e-05,
      "loss": 0.8425,
      "step": 1396,
      "task_loss": 1.1704927682876587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6456067562103271,
      "epoch": 1.18,
      "learning_rate": 3.935211267605634e-05,
      "loss": 0.7357,
      "step": 1397,
      "task_loss": 1.445674180984497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6861137747764587,
      "epoch": 1.18,
      "learning_rate": 3.9380281690140844e-05,
      "loss": 0.7815,
      "step": 1398,
      "task_loss": 0.5069717764854431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6344183683395386,
      "epoch": 1.18,
      "learning_rate": 3.940845070422535e-05,
      "loss": 0.6535,
      "step": 1399,
      "task_loss": 1.7080676555633545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0612473487854004,
      "epoch": 1.18,
      "learning_rate": 3.943661971830986e-05,
      "loss": 0.8291,
      "step": 1400,
      "task_loss": 1.1031296253204346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7825841307640076,
      "epoch": 1.18,
      "learning_rate": 3.946478873239437e-05,
      "loss": 0.9265,
      "step": 1401,
      "task_loss": 1.4064406156539917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7861604690551758,
      "epoch": 1.19,
      "learning_rate": 3.949295774647887e-05,
      "loss": 0.6241,
      "step": 1402,
      "task_loss": 0.8486780524253845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7487976551055908,
      "epoch": 1.19,
      "learning_rate": 3.952112676056338e-05,
      "loss": 0.5328,
      "step": 1403,
      "task_loss": 1.8587334156036377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7075173854827881,
      "epoch": 1.19,
      "learning_rate": 3.954929577464789e-05,
      "loss": 0.6368,
      "step": 1404,
      "task_loss": 0.8138731718063354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6649550199508667,
      "epoch": 1.19,
      "learning_rate": 3.9577464788732395e-05,
      "loss": 0.8321,
      "step": 1405,
      "task_loss": 0.9761863350868225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9430279731750488,
      "epoch": 1.19,
      "learning_rate": 3.96056338028169e-05,
      "loss": 0.6707,
      "step": 1406,
      "task_loss": 1.458341360092163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8182626962661743,
      "epoch": 1.19,
      "learning_rate": 3.963380281690141e-05,
      "loss": 0.9693,
      "step": 1407,
      "task_loss": 1.335984706878662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7342658638954163,
      "epoch": 1.19,
      "learning_rate": 3.9661971830985916e-05,
      "loss": 0.697,
      "step": 1408,
      "task_loss": 1.3257267475128174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8703567385673523,
      "epoch": 1.19,
      "learning_rate": 3.9690140845070424e-05,
      "loss": 0.9402,
      "step": 1409,
      "task_loss": 1.193984866142273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9058358669281006,
      "epoch": 1.19,
      "learning_rate": 3.971830985915493e-05,
      "loss": 0.7122,
      "step": 1410,
      "task_loss": 1.4998536109924316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5770800113677979,
      "epoch": 1.19,
      "learning_rate": 3.974647887323944e-05,
      "loss": 1.0827,
      "step": 1411,
      "task_loss": 1.6231870651245117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4893024265766144,
      "epoch": 1.19,
      "learning_rate": 3.9774647887323945e-05,
      "loss": 0.7539,
      "step": 1412,
      "task_loss": 0.8779321908950806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9525576233863831,
      "epoch": 1.19,
      "learning_rate": 3.980281690140845e-05,
      "loss": 0.553,
      "step": 1413,
      "task_loss": 0.8644983172416687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6452755928039551,
      "epoch": 1.2,
      "learning_rate": 3.983098591549296e-05,
      "loss": 0.6284,
      "step": 1414,
      "task_loss": 1.0893397331237793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7170165777206421,
      "epoch": 1.2,
      "learning_rate": 3.985915492957747e-05,
      "loss": 0.848,
      "step": 1415,
      "task_loss": 1.5706171989440918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5917027592658997,
      "epoch": 1.2,
      "learning_rate": 3.9887323943661974e-05,
      "loss": 0.7523,
      "step": 1416,
      "task_loss": 0.9570057392120361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.982469916343689,
      "epoch": 1.2,
      "learning_rate": 3.991549295774648e-05,
      "loss": 0.94,
      "step": 1417,
      "task_loss": 1.5264694690704346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7338570356369019,
      "epoch": 1.2,
      "learning_rate": 3.994366197183099e-05,
      "loss": 0.8222,
      "step": 1418,
      "task_loss": 1.105000376701355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49749359488487244,
      "epoch": 1.2,
      "learning_rate": 3.9971830985915496e-05,
      "loss": 0.8415,
      "step": 1419,
      "task_loss": 0.8792486190795898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5241503715515137,
      "epoch": 1.2,
      "learning_rate": 4e-05,
      "loss": 0.7951,
      "step": 1420,
      "task_loss": 0.11043868958950043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.30800101161003113,
      "epoch": 1.2,
      "learning_rate": 4.002816901408451e-05,
      "loss": 0.5366,
      "step": 1421,
      "task_loss": 0.0944603979587555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2810603380203247,
      "epoch": 1.2,
      "learning_rate": 4.005633802816902e-05,
      "loss": 0.884,
      "step": 1422,
      "task_loss": 2.224720001220703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34068262577056885,
      "epoch": 1.2,
      "learning_rate": 4.0084507042253525e-05,
      "loss": 0.6329,
      "step": 1423,
      "task_loss": 0.6567180156707764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7345470190048218,
      "epoch": 1.2,
      "learning_rate": 4.0112676056338025e-05,
      "loss": 0.6627,
      "step": 1424,
      "task_loss": 1.1017460823059082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7441085577011108,
      "epoch": 1.2,
      "learning_rate": 4.014084507042254e-05,
      "loss": 0.8451,
      "step": 1425,
      "task_loss": 1.1204769611358643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41622674465179443,
      "epoch": 1.21,
      "learning_rate": 4.016901408450705e-05,
      "loss": 0.5114,
      "step": 1426,
      "task_loss": 0.9898133873939514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9604610204696655,
      "epoch": 1.21,
      "learning_rate": 4.0197183098591554e-05,
      "loss": 0.8228,
      "step": 1427,
      "task_loss": 1.6443889141082764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9369698762893677,
      "epoch": 1.21,
      "learning_rate": 4.0225352112676054e-05,
      "loss": 0.9926,
      "step": 1428,
      "task_loss": 1.7056491374969482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9260783195495605,
      "epoch": 1.21,
      "learning_rate": 4.025352112676056e-05,
      "loss": 0.7973,
      "step": 1429,
      "task_loss": 1.0944664478302002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8343417048454285,
      "epoch": 1.21,
      "learning_rate": 4.0281690140845076e-05,
      "loss": 0.709,
      "step": 1430,
      "task_loss": 0.8264630436897278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4543207585811615,
      "epoch": 1.21,
      "learning_rate": 4.030985915492958e-05,
      "loss": 0.6515,
      "step": 1431,
      "task_loss": 0.9087828397750854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.427203893661499,
      "epoch": 1.21,
      "learning_rate": 4.0338028169014083e-05,
      "loss": 1.0075,
      "step": 1432,
      "task_loss": 1.7724955081939697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46120402216911316,
      "epoch": 1.21,
      "learning_rate": 4.036619718309859e-05,
      "loss": 0.6048,
      "step": 1433,
      "task_loss": 0.2906125783920288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5413203239440918,
      "epoch": 1.21,
      "learning_rate": 4.03943661971831e-05,
      "loss": 0.6059,
      "step": 1434,
      "task_loss": 0.8125205039978027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4173925817012787,
      "epoch": 1.21,
      "learning_rate": 4.042253521126761e-05,
      "loss": 0.6457,
      "step": 1435,
      "task_loss": 0.5229185819625854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9813892841339111,
      "epoch": 1.21,
      "learning_rate": 4.045070422535211e-05,
      "loss": 0.7014,
      "step": 1436,
      "task_loss": 0.7678688168525696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9574260711669922,
      "epoch": 1.21,
      "learning_rate": 4.047887323943662e-05,
      "loss": 0.6997,
      "step": 1437,
      "task_loss": 0.8040425181388855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205783724784851,
      "epoch": 1.22,
      "learning_rate": 4.050704225352113e-05,
      "loss": 0.8122,
      "step": 1438,
      "task_loss": 0.7689061164855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.5196071863174438,
      "epoch": 1.22,
      "learning_rate": 4.053521126760564e-05,
      "loss": 0.9953,
      "step": 1439,
      "task_loss": 1.5849289894104004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.425736665725708,
      "epoch": 1.22,
      "learning_rate": 4.056338028169014e-05,
      "loss": 0.6668,
      "step": 1440,
      "task_loss": 0.2395995408296585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8614277243614197,
      "epoch": 1.22,
      "learning_rate": 4.059154929577465e-05,
      "loss": 0.9433,
      "step": 1441,
      "task_loss": 0.6502854228019714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7915602922439575,
      "epoch": 1.22,
      "learning_rate": 4.0619718309859156e-05,
      "loss": 0.6728,
      "step": 1442,
      "task_loss": 0.8777129650115967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6988682150840759,
      "epoch": 1.22,
      "learning_rate": 4.064788732394366e-05,
      "loss": 0.8165,
      "step": 1443,
      "task_loss": 0.8379138708114624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.52309250831604,
      "epoch": 1.22,
      "learning_rate": 4.067605633802817e-05,
      "loss": 0.691,
      "step": 1444,
      "task_loss": 0.3691547214984894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9614949226379395,
      "epoch": 1.22,
      "learning_rate": 4.070422535211268e-05,
      "loss": 0.9305,
      "step": 1445,
      "task_loss": 0.48714780807495117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0589027404785156,
      "epoch": 1.22,
      "learning_rate": 4.0732394366197185e-05,
      "loss": 0.8103,
      "step": 1446,
      "task_loss": 1.1771272420883179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.541944146156311,
      "epoch": 1.22,
      "learning_rate": 4.076056338028169e-05,
      "loss": 0.9964,
      "step": 1447,
      "task_loss": 1.6577328443527222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9546430706977844,
      "epoch": 1.22,
      "learning_rate": 4.07887323943662e-05,
      "loss": 0.669,
      "step": 1448,
      "task_loss": 0.7795661091804504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6378626823425293,
      "epoch": 1.22,
      "learning_rate": 4.081690140845071e-05,
      "loss": 0.6847,
      "step": 1449,
      "task_loss": 0.5675938129425049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1401309967041016,
      "epoch": 1.23,
      "learning_rate": 4.0845070422535214e-05,
      "loss": 0.951,
      "step": 1450,
      "task_loss": 1.6893963813781738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7616292834281921,
      "epoch": 1.23,
      "learning_rate": 4.087323943661972e-05,
      "loss": 0.8076,
      "step": 1451,
      "task_loss": 0.960985541343689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0787506103515625,
      "epoch": 1.23,
      "learning_rate": 4.090140845070423e-05,
      "loss": 0.8095,
      "step": 1452,
      "task_loss": 2.19832706451416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6812751889228821,
      "epoch": 1.23,
      "learning_rate": 4.092957746478873e-05,
      "loss": 0.744,
      "step": 1453,
      "task_loss": 0.5638813972473145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5005697011947632,
      "epoch": 1.23,
      "learning_rate": 4.095774647887324e-05,
      "loss": 0.7415,
      "step": 1454,
      "task_loss": 0.8492183089256287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6663601994514465,
      "epoch": 1.23,
      "learning_rate": 4.098591549295775e-05,
      "loss": 0.6286,
      "step": 1455,
      "task_loss": 0.7005186676979065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5757356882095337,
      "epoch": 1.23,
      "learning_rate": 4.101408450704226e-05,
      "loss": 0.9352,
      "step": 1456,
      "task_loss": 0.3871944546699524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5835959911346436,
      "epoch": 1.23,
      "learning_rate": 4.104225352112676e-05,
      "loss": 0.7587,
      "step": 1457,
      "task_loss": 0.4098961651325226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5202710032463074,
      "epoch": 1.23,
      "learning_rate": 4.1070422535211265e-05,
      "loss": 0.919,
      "step": 1458,
      "task_loss": 1.1881924867630005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6732559204101562,
      "epoch": 1.23,
      "learning_rate": 4.109859154929578e-05,
      "loss": 0.8497,
      "step": 1459,
      "task_loss": 0.9882545471191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8253720998764038,
      "epoch": 1.23,
      "learning_rate": 4.1126760563380286e-05,
      "loss": 0.8272,
      "step": 1460,
      "task_loss": 1.9540684223175049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8993015289306641,
      "epoch": 1.23,
      "learning_rate": 4.115492957746479e-05,
      "loss": 0.7926,
      "step": 1461,
      "task_loss": 1.1706955432891846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5250594615936279,
      "epoch": 1.24,
      "learning_rate": 4.1183098591549294e-05,
      "loss": 0.7582,
      "step": 1462,
      "task_loss": 0.3079270124435425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.619388222694397,
      "epoch": 1.24,
      "learning_rate": 4.12112676056338e-05,
      "loss": 0.7224,
      "step": 1463,
      "task_loss": 0.5681352019309998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5910869836807251,
      "epoch": 1.24,
      "learning_rate": 4.1239436619718315e-05,
      "loss": 0.734,
      "step": 1464,
      "task_loss": 1.6270041465759277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5703544020652771,
      "epoch": 1.24,
      "learning_rate": 4.126760563380282e-05,
      "loss": 0.7523,
      "step": 1465,
      "task_loss": 0.8180013298988342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8054250478744507,
      "epoch": 1.24,
      "learning_rate": 4.129577464788732e-05,
      "loss": 0.705,
      "step": 1466,
      "task_loss": 0.8697779774665833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5813971161842346,
      "epoch": 1.24,
      "learning_rate": 4.132394366197183e-05,
      "loss": 0.5815,
      "step": 1467,
      "task_loss": 0.5868406295776367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7796499133110046,
      "epoch": 1.24,
      "learning_rate": 4.1352112676056344e-05,
      "loss": 0.7437,
      "step": 1468,
      "task_loss": 1.1720917224884033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.8090413808822632,
      "epoch": 1.24,
      "learning_rate": 4.138028169014085e-05,
      "loss": 0.823,
      "step": 1469,
      "task_loss": 1.8783974647521973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.581538736820221,
      "epoch": 1.24,
      "learning_rate": 4.140845070422535e-05,
      "loss": 0.7519,
      "step": 1470,
      "task_loss": 0.5573990345001221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8268152475357056,
      "epoch": 1.24,
      "learning_rate": 4.143661971830986e-05,
      "loss": 0.6233,
      "step": 1471,
      "task_loss": 1.1309012174606323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7492552399635315,
      "epoch": 1.24,
      "learning_rate": 4.146478873239437e-05,
      "loss": 0.8294,
      "step": 1472,
      "task_loss": 0.46743038296699524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5401409864425659,
      "epoch": 1.24,
      "learning_rate": 4.149295774647888e-05,
      "loss": 0.5577,
      "step": 1473,
      "task_loss": 0.4421212375164032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5641607046127319,
      "epoch": 1.25,
      "learning_rate": 4.152112676056338e-05,
      "loss": 0.6165,
      "step": 1474,
      "task_loss": 0.44506072998046875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4754176735877991,
      "epoch": 1.25,
      "learning_rate": 4.154929577464789e-05,
      "loss": 0.664,
      "step": 1475,
      "task_loss": 1.1528629064559937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7620433568954468,
      "epoch": 1.25,
      "learning_rate": 4.1577464788732396e-05,
      "loss": 0.6327,
      "step": 1476,
      "task_loss": 1.5153850317001343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6689141392707825,
      "epoch": 1.25,
      "learning_rate": 4.16056338028169e-05,
      "loss": 0.6849,
      "step": 1477,
      "task_loss": 0.44533202052116394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5448932647705078,
      "epoch": 1.25,
      "learning_rate": 4.163380281690141e-05,
      "loss": 0.5701,
      "step": 1478,
      "task_loss": 0.9568987488746643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5239968299865723,
      "epoch": 1.25,
      "learning_rate": 4.166197183098592e-05,
      "loss": 0.6328,
      "step": 1479,
      "task_loss": 0.7752301692962646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44894275069236755,
      "epoch": 1.25,
      "learning_rate": 4.1690140845070425e-05,
      "loss": 0.5689,
      "step": 1480,
      "task_loss": 0.7350797057151794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.054861307144165,
      "epoch": 1.25,
      "learning_rate": 4.171830985915493e-05,
      "loss": 0.7421,
      "step": 1481,
      "task_loss": 1.2436907291412354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6947156190872192,
      "epoch": 1.25,
      "learning_rate": 4.174647887323944e-05,
      "loss": 0.6968,
      "step": 1482,
      "task_loss": 1.9594483375549316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6655158996582031,
      "epoch": 1.25,
      "learning_rate": 4.1774647887323946e-05,
      "loss": 0.8951,
      "step": 1483,
      "task_loss": 1.9203691482543945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7013247013092041,
      "epoch": 1.25,
      "learning_rate": 4.1802816901408454e-05,
      "loss": 0.7885,
      "step": 1484,
      "task_loss": 0.3448171615600586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5212112665176392,
      "epoch": 1.26,
      "learning_rate": 4.183098591549296e-05,
      "loss": 0.9575,
      "step": 1485,
      "task_loss": 0.7477326393127441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5705157518386841,
      "epoch": 1.26,
      "learning_rate": 4.185915492957747e-05,
      "loss": 0.6083,
      "step": 1486,
      "task_loss": 0.8950374126434326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48674139380455017,
      "epoch": 1.26,
      "learning_rate": 4.188732394366197e-05,
      "loss": 0.6288,
      "step": 1487,
      "task_loss": 0.45856380462646484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0393720865249634,
      "epoch": 1.26,
      "learning_rate": 4.191549295774648e-05,
      "loss": 0.8585,
      "step": 1488,
      "task_loss": 0.7326593399047852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5466912984848022,
      "epoch": 1.26,
      "learning_rate": 4.194366197183099e-05,
      "loss": 0.8062,
      "step": 1489,
      "task_loss": 0.7875824570655823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7664721012115479,
      "epoch": 1.26,
      "learning_rate": 4.19718309859155e-05,
      "loss": 0.7845,
      "step": 1490,
      "task_loss": 0.6366121768951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6253582239151001,
      "epoch": 1.26,
      "learning_rate": 4.2e-05,
      "loss": 0.7607,
      "step": 1491,
      "task_loss": 0.7679975032806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8254096508026123,
      "epoch": 1.26,
      "learning_rate": 4.2028169014084505e-05,
      "loss": 0.5868,
      "step": 1492,
      "task_loss": 1.3259700536727905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.906609058380127,
      "epoch": 1.26,
      "learning_rate": 4.205633802816902e-05,
      "loss": 0.6933,
      "step": 1493,
      "task_loss": 1.4294419288635254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8529675006866455,
      "epoch": 1.26,
      "learning_rate": 4.2084507042253526e-05,
      "loss": 0.9228,
      "step": 1494,
      "task_loss": 0.5000584125518799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7976648807525635,
      "epoch": 1.26,
      "learning_rate": 4.211267605633803e-05,
      "loss": 0.7462,
      "step": 1495,
      "task_loss": 1.4522374868392944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766510963439941,
      "epoch": 1.26,
      "learning_rate": 4.2140845070422534e-05,
      "loss": 0.5288,
      "step": 1496,
      "task_loss": 0.5663628578186035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9638341665267944,
      "epoch": 1.27,
      "learning_rate": 4.216901408450705e-05,
      "loss": 0.7274,
      "step": 1497,
      "task_loss": 0.6561776399612427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6617642045021057,
      "epoch": 1.27,
      "learning_rate": 4.2197183098591555e-05,
      "loss": 0.6631,
      "step": 1498,
      "task_loss": 0.9563338160514832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5959641933441162,
      "epoch": 1.27,
      "learning_rate": 4.2225352112676056e-05,
      "loss": 0.6495,
      "step": 1499,
      "task_loss": 1.1985416412353516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7782770395278931,
      "epoch": 1.27,
      "learning_rate": 4.225352112676056e-05,
      "loss": 0.8561,
      "step": 1500,
      "task_loss": 2.391960620880127
    },
    {
      "epoch": 1.27,
      "eval_accuracy": 0.8945346534653466,
      "eval_loss": 0.41603487730026245,
      "eval_runtime": 206.7936,
      "eval_samples_per_second": 122.102,
      "eval_steps_per_second": 0.957,
      "step": 1500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3701817989349365,
      "epoch": 1.27,
      "learning_rate": 4.228169014084507e-05,
      "loss": 0.7922,
      "step": 1501,
      "task_loss": 1.4408962726593018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.82663893699646,
      "epoch": 1.27,
      "learning_rate": 4.2309859154929584e-05,
      "loss": 0.6608,
      "step": 1502,
      "task_loss": 0.8414306640625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37749165296554565,
      "epoch": 1.27,
      "learning_rate": 4.2338028169014085e-05,
      "loss": 0.4369,
      "step": 1503,
      "task_loss": 1.0078134536743164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9166648387908936,
      "epoch": 1.27,
      "learning_rate": 4.236619718309859e-05,
      "loss": 0.7907,
      "step": 1504,
      "task_loss": 0.649882435798645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1793951988220215,
      "epoch": 1.27,
      "learning_rate": 4.23943661971831e-05,
      "loss": 0.8407,
      "step": 1505,
      "task_loss": 0.7870943546295166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.623225748538971,
      "epoch": 1.27,
      "learning_rate": 4.2422535211267606e-05,
      "loss": 0.732,
      "step": 1506,
      "task_loss": 0.9778086543083191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4311503469944,
      "epoch": 1.27,
      "learning_rate": 4.2450704225352114e-05,
      "loss": 0.7615,
      "step": 1507,
      "task_loss": 0.7427660226821899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0191118717193604,
      "epoch": 1.27,
      "learning_rate": 4.247887323943662e-05,
      "loss": 0.7351,
      "step": 1508,
      "task_loss": 0.9643348455429077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.887663722038269,
      "epoch": 1.28,
      "learning_rate": 4.250704225352113e-05,
      "loss": 0.7607,
      "step": 1509,
      "task_loss": 0.48451733589172363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4863021969795227,
      "epoch": 1.28,
      "learning_rate": 4.2535211267605635e-05,
      "loss": 0.6676,
      "step": 1510,
      "task_loss": 1.4860094785690308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.723047137260437,
      "epoch": 1.28,
      "learning_rate": 4.256338028169014e-05,
      "loss": 0.7184,
      "step": 1511,
      "task_loss": 0.6996059417724609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8457887172698975,
      "epoch": 1.28,
      "learning_rate": 4.259154929577465e-05,
      "loss": 0.6875,
      "step": 1512,
      "task_loss": 1.0112577676773071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9305227994918823,
      "epoch": 1.28,
      "learning_rate": 4.261971830985916e-05,
      "loss": 0.6323,
      "step": 1513,
      "task_loss": 0.5598640441894531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8993477821350098,
      "epoch": 1.28,
      "learning_rate": 4.2647887323943664e-05,
      "loss": 0.8259,
      "step": 1514,
      "task_loss": 1.6478748321533203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4169367849826813,
      "epoch": 1.28,
      "learning_rate": 4.267605633802817e-05,
      "loss": 0.7097,
      "step": 1515,
      "task_loss": 0.025843456387519836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7501055002212524,
      "epoch": 1.28,
      "learning_rate": 4.270422535211268e-05,
      "loss": 0.7811,
      "step": 1516,
      "task_loss": 0.9411833882331848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5275061726570129,
      "epoch": 1.28,
      "learning_rate": 4.2732394366197186e-05,
      "loss": 0.7822,
      "step": 1517,
      "task_loss": 1.361840009689331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7466787695884705,
      "epoch": 1.28,
      "learning_rate": 4.2760563380281693e-05,
      "loss": 0.8339,
      "step": 1518,
      "task_loss": 0.9366869926452637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6969200968742371,
      "epoch": 1.28,
      "learning_rate": 4.27887323943662e-05,
      "loss": 0.7871,
      "step": 1519,
      "task_loss": 0.1534590870141983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9175844192504883,
      "epoch": 1.28,
      "learning_rate": 4.281690140845071e-05,
      "loss": 0.7708,
      "step": 1520,
      "task_loss": 1.9030206203460693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6826875805854797,
      "epoch": 1.29,
      "learning_rate": 4.284507042253521e-05,
      "loss": 0.7049,
      "step": 1521,
      "task_loss": 1.443913221359253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8458816409111023,
      "epoch": 1.29,
      "learning_rate": 4.287323943661972e-05,
      "loss": 0.7016,
      "step": 1522,
      "task_loss": 1.2492772340774536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47657832503318787,
      "epoch": 1.29,
      "learning_rate": 4.290140845070423e-05,
      "loss": 0.6246,
      "step": 1523,
      "task_loss": 0.0971175953745842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8459151983261108,
      "epoch": 1.29,
      "learning_rate": 4.292957746478874e-05,
      "loss": 0.7696,
      "step": 1524,
      "task_loss": 0.9176093339920044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9244289398193359,
      "epoch": 1.29,
      "learning_rate": 4.295774647887324e-05,
      "loss": 0.8049,
      "step": 1525,
      "task_loss": 1.436991810798645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44274523854255676,
      "epoch": 1.29,
      "learning_rate": 4.298591549295775e-05,
      "loss": 0.6156,
      "step": 1526,
      "task_loss": 0.09825313091278076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6414744257926941,
      "epoch": 1.29,
      "learning_rate": 4.301408450704226e-05,
      "loss": 0.7228,
      "step": 1527,
      "task_loss": 0.7976199984550476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7300910353660583,
      "epoch": 1.29,
      "learning_rate": 4.3042253521126766e-05,
      "loss": 0.6451,
      "step": 1528,
      "task_loss": 0.3670691251754761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6434690356254578,
      "epoch": 1.29,
      "learning_rate": 4.3070422535211266e-05,
      "loss": 0.9089,
      "step": 1529,
      "task_loss": 1.0599827766418457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6121619939804077,
      "epoch": 1.29,
      "learning_rate": 4.3098591549295774e-05,
      "loss": 0.6698,
      "step": 1530,
      "task_loss": 0.6525076627731323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5947908163070679,
      "epoch": 1.29,
      "learning_rate": 4.312676056338029e-05,
      "loss": 0.7732,
      "step": 1531,
      "task_loss": 0.510790228843689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7159149646759033,
      "epoch": 1.29,
      "learning_rate": 4.3154929577464795e-05,
      "loss": 0.5616,
      "step": 1532,
      "task_loss": 1.438185691833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.799270749092102,
      "epoch": 1.3,
      "learning_rate": 4.3183098591549295e-05,
      "loss": 0.7192,
      "step": 1533,
      "task_loss": 1.0623685121536255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7644717693328857,
      "epoch": 1.3,
      "learning_rate": 4.32112676056338e-05,
      "loss": 0.7922,
      "step": 1534,
      "task_loss": 1.1115410327911377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49740421772003174,
      "epoch": 1.3,
      "learning_rate": 4.323943661971831e-05,
      "loss": 0.7516,
      "step": 1535,
      "task_loss": 0.611073911190033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1715893745422363,
      "epoch": 1.3,
      "learning_rate": 4.3267605633802824e-05,
      "loss": 0.8563,
      "step": 1536,
      "task_loss": 0.797667384147644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8696463108062744,
      "epoch": 1.3,
      "learning_rate": 4.3295774647887324e-05,
      "loss": 0.7221,
      "step": 1537,
      "task_loss": 1.080940842628479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0973002910614014,
      "epoch": 1.3,
      "learning_rate": 4.332394366197183e-05,
      "loss": 0.7016,
      "step": 1538,
      "task_loss": 0.6256407499313354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7354416847229004,
      "epoch": 1.3,
      "learning_rate": 4.335211267605634e-05,
      "loss": 0.7778,
      "step": 1539,
      "task_loss": 0.6478419303894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1563811302185059,
      "epoch": 1.3,
      "learning_rate": 4.3380281690140846e-05,
      "loss": 0.7436,
      "step": 1540,
      "task_loss": 1.4439857006072998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4815584421157837,
      "epoch": 1.3,
      "learning_rate": 4.340845070422535e-05,
      "loss": 0.5114,
      "step": 1541,
      "task_loss": 0.34868770837783813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8675858974456787,
      "epoch": 1.3,
      "learning_rate": 4.343661971830986e-05,
      "loss": 0.7771,
      "step": 1542,
      "task_loss": 1.2117412090301514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5264592170715332,
      "epoch": 1.3,
      "learning_rate": 4.346478873239437e-05,
      "loss": 0.758,
      "step": 1543,
      "task_loss": 0.5890882015228271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.185166835784912,
      "epoch": 1.3,
      "learning_rate": 4.3492957746478875e-05,
      "loss": 0.7742,
      "step": 1544,
      "task_loss": 2.3525924682617188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6669719815254211,
      "epoch": 1.31,
      "learning_rate": 4.352112676056338e-05,
      "loss": 0.5994,
      "step": 1545,
      "task_loss": 0.840576171875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49212849140167236,
      "epoch": 1.31,
      "learning_rate": 4.354929577464789e-05,
      "loss": 0.5237,
      "step": 1546,
      "task_loss": 0.45892518758773804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.567849338054657,
      "epoch": 1.31,
      "learning_rate": 4.35774647887324e-05,
      "loss": 0.7323,
      "step": 1547,
      "task_loss": 0.41283532977104187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8312389254570007,
      "epoch": 1.31,
      "learning_rate": 4.3605633802816904e-05,
      "loss": 0.6698,
      "step": 1548,
      "task_loss": 1.7425544261932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8055087924003601,
      "epoch": 1.31,
      "learning_rate": 4.363380281690141e-05,
      "loss": 0.7367,
      "step": 1549,
      "task_loss": 0.6188901662826538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9969013929367065,
      "epoch": 1.31,
      "learning_rate": 4.366197183098591e-05,
      "loss": 0.7566,
      "step": 1550,
      "task_loss": 0.6705337762832642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48357468843460083,
      "epoch": 1.31,
      "learning_rate": 4.3690140845070426e-05,
      "loss": 0.6729,
      "step": 1551,
      "task_loss": 0.41909509897232056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7552318572998047,
      "epoch": 1.31,
      "learning_rate": 4.371830985915493e-05,
      "loss": 0.8841,
      "step": 1552,
      "task_loss": 0.8598719239234924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7271772027015686,
      "epoch": 1.31,
      "learning_rate": 4.374647887323944e-05,
      "loss": 0.6663,
      "step": 1553,
      "task_loss": 1.1557353734970093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6499906778335571,
      "epoch": 1.31,
      "learning_rate": 4.377464788732394e-05,
      "loss": 0.6898,
      "step": 1554,
      "task_loss": 0.9630948305130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.542984127998352,
      "epoch": 1.31,
      "learning_rate": 4.3802816901408455e-05,
      "loss": 0.6676,
      "step": 1555,
      "task_loss": 0.7775415182113647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7684942483901978,
      "epoch": 1.32,
      "learning_rate": 4.383098591549296e-05,
      "loss": 0.7417,
      "step": 1556,
      "task_loss": 0.8520320057868958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5003653764724731,
      "epoch": 1.32,
      "learning_rate": 4.385915492957747e-05,
      "loss": 0.5853,
      "step": 1557,
      "task_loss": 0.9681815505027771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6999002695083618,
      "epoch": 1.32,
      "learning_rate": 4.388732394366197e-05,
      "loss": 0.7303,
      "step": 1558,
      "task_loss": 0.46428707242012024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5340083241462708,
      "epoch": 1.32,
      "learning_rate": 4.391549295774648e-05,
      "loss": 0.6845,
      "step": 1559,
      "task_loss": 1.261164903640747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8254595398902893,
      "epoch": 1.32,
      "learning_rate": 4.394366197183099e-05,
      "loss": 0.7834,
      "step": 1560,
      "task_loss": 1.1078704595565796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0518798828125,
      "epoch": 1.32,
      "learning_rate": 4.39718309859155e-05,
      "loss": 0.8875,
      "step": 1561,
      "task_loss": 0.927859902381897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3842101991176605,
      "epoch": 1.32,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.4522,
      "step": 1562,
      "task_loss": 0.11398382484912872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6807934045791626,
      "epoch": 1.32,
      "learning_rate": 4.4028169014084506e-05,
      "loss": 0.8432,
      "step": 1563,
      "task_loss": 0.5401532053947449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6663694977760315,
      "epoch": 1.32,
      "learning_rate": 4.405633802816901e-05,
      "loss": 0.7077,
      "step": 1564,
      "task_loss": 1.4222922325134277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8710164427757263,
      "epoch": 1.32,
      "learning_rate": 4.408450704225353e-05,
      "loss": 0.5614,
      "step": 1565,
      "task_loss": 0.39943355321884155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0948066711425781,
      "epoch": 1.32,
      "learning_rate": 4.4112676056338035e-05,
      "loss": 0.9351,
      "step": 1566,
      "task_loss": 0.779899001121521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6991064548492432,
      "epoch": 1.32,
      "learning_rate": 4.4140845070422535e-05,
      "loss": 0.6366,
      "step": 1567,
      "task_loss": 0.6332132816314697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7855426073074341,
      "epoch": 1.33,
      "learning_rate": 4.416901408450704e-05,
      "loss": 0.7496,
      "step": 1568,
      "task_loss": 0.7602503299713135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5742967128753662,
      "epoch": 1.33,
      "learning_rate": 4.419718309859155e-05,
      "loss": 0.8434,
      "step": 1569,
      "task_loss": 0.7736462950706482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3363397717475891,
      "epoch": 1.33,
      "learning_rate": 4.4225352112676064e-05,
      "loss": 0.5154,
      "step": 1570,
      "task_loss": 0.5790085792541504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6399105787277222,
      "epoch": 1.33,
      "learning_rate": 4.4253521126760564e-05,
      "loss": 0.5074,
      "step": 1571,
      "task_loss": 0.5580586194992065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5467866659164429,
      "epoch": 1.33,
      "learning_rate": 4.428169014084507e-05,
      "loss": 0.4928,
      "step": 1572,
      "task_loss": 0.2578856348991394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41350653767585754,
      "epoch": 1.33,
      "learning_rate": 4.430985915492958e-05,
      "loss": 0.5029,
      "step": 1573,
      "task_loss": 0.08998537808656693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6312925815582275,
      "epoch": 1.33,
      "learning_rate": 4.4338028169014086e-05,
      "loss": 0.547,
      "step": 1574,
      "task_loss": 0.710391640663147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5399519205093384,
      "epoch": 1.33,
      "learning_rate": 4.436619718309859e-05,
      "loss": 0.5491,
      "step": 1575,
      "task_loss": 1.1737101078033447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46089524030685425,
      "epoch": 1.33,
      "learning_rate": 4.43943661971831e-05,
      "loss": 0.4725,
      "step": 1576,
      "task_loss": 0.2197568714618683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4201352596282959,
      "epoch": 1.33,
      "learning_rate": 4.442253521126761e-05,
      "loss": 0.5006,
      "step": 1577,
      "task_loss": 0.24145811796188354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7045038938522339,
      "epoch": 1.33,
      "learning_rate": 4.4450704225352115e-05,
      "loss": 0.7575,
      "step": 1578,
      "task_loss": 0.14815276861190796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5899484753608704,
      "epoch": 1.33,
      "learning_rate": 4.447887323943662e-05,
      "loss": 0.7878,
      "step": 1579,
      "task_loss": 1.2533992528915405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7741119861602783,
      "epoch": 1.34,
      "learning_rate": 4.450704225352113e-05,
      "loss": 0.6783,
      "step": 1580,
      "task_loss": 0.8779782056808472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.703798234462738,
      "epoch": 1.34,
      "learning_rate": 4.4535211267605637e-05,
      "loss": 0.7993,
      "step": 1581,
      "task_loss": 1.0945786237716675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6185953617095947,
      "epoch": 1.34,
      "learning_rate": 4.4563380281690144e-05,
      "loss": 0.6986,
      "step": 1582,
      "task_loss": 1.1421067714691162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38674333691596985,
      "epoch": 1.34,
      "learning_rate": 4.459154929577465e-05,
      "loss": 0.6026,
      "step": 1583,
      "task_loss": 0.5906066298484802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9399058818817139,
      "epoch": 1.34,
      "learning_rate": 4.461971830985916e-05,
      "loss": 0.7688,
      "step": 1584,
      "task_loss": 1.2046525478363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.920735239982605,
      "epoch": 1.34,
      "learning_rate": 4.4647887323943666e-05,
      "loss": 0.7085,
      "step": 1585,
      "task_loss": 0.38639959692955017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5597467422485352,
      "epoch": 1.34,
      "learning_rate": 4.467605633802817e-05,
      "loss": 0.6571,
      "step": 1586,
      "task_loss": 0.3095024526119232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6345034837722778,
      "epoch": 1.34,
      "learning_rate": 4.470422535211268e-05,
      "loss": 0.5954,
      "step": 1587,
      "task_loss": 0.30299389362335205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8126978278160095,
      "epoch": 1.34,
      "learning_rate": 4.473239436619718e-05,
      "loss": 0.7011,
      "step": 1588,
      "task_loss": 0.4249064028263092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3777484893798828,
      "epoch": 1.34,
      "learning_rate": 4.4760563380281695e-05,
      "loss": 0.6387,
      "step": 1589,
      "task_loss": 0.5378279685974121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.746435284614563,
      "epoch": 1.34,
      "learning_rate": 4.47887323943662e-05,
      "loss": 0.7699,
      "step": 1590,
      "task_loss": 0.8520925641059875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8152430057525635,
      "epoch": 1.34,
      "learning_rate": 4.481690140845071e-05,
      "loss": 0.6377,
      "step": 1591,
      "task_loss": 0.7060929536819458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5515363812446594,
      "epoch": 1.35,
      "learning_rate": 4.484507042253521e-05,
      "loss": 0.5346,
      "step": 1592,
      "task_loss": 1.0614104270935059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8067082762718201,
      "epoch": 1.35,
      "learning_rate": 4.487323943661972e-05,
      "loss": 0.5925,
      "step": 1593,
      "task_loss": 0.973268985748291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3601953387260437,
      "epoch": 1.35,
      "learning_rate": 4.490140845070423e-05,
      "loss": 0.564,
      "step": 1594,
      "task_loss": 0.6473004817962646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5404622554779053,
      "epoch": 1.35,
      "learning_rate": 4.492957746478874e-05,
      "loss": 0.6333,
      "step": 1595,
      "task_loss": 0.16768519580364227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3098883628845215,
      "epoch": 1.35,
      "learning_rate": 4.495774647887324e-05,
      "loss": 0.7722,
      "step": 1596,
      "task_loss": 1.1064550876617432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5654951333999634,
      "epoch": 1.35,
      "learning_rate": 4.4985915492957746e-05,
      "loss": 0.7023,
      "step": 1597,
      "task_loss": 0.9072781801223755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5111460089683533,
      "epoch": 1.35,
      "learning_rate": 4.501408450704225e-05,
      "loss": 0.6201,
      "step": 1598,
      "task_loss": 0.5623824000358582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.372096061706543,
      "epoch": 1.35,
      "learning_rate": 4.504225352112677e-05,
      "loss": 0.9342,
      "step": 1599,
      "task_loss": 1.5337944030761719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5938840508460999,
      "epoch": 1.35,
      "learning_rate": 4.507042253521127e-05,
      "loss": 0.7117,
      "step": 1600,
      "task_loss": 0.6396026611328125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5004254579544067,
      "epoch": 1.35,
      "learning_rate": 4.5098591549295775e-05,
      "loss": 0.7833,
      "step": 1601,
      "task_loss": 1.2400044202804565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6157674193382263,
      "epoch": 1.35,
      "learning_rate": 4.512676056338028e-05,
      "loss": 0.7289,
      "step": 1602,
      "task_loss": 0.40302708745002747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8182985782623291,
      "epoch": 1.35,
      "learning_rate": 4.515492957746479e-05,
      "loss": 0.6799,
      "step": 1603,
      "task_loss": 0.48437926173210144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3704138398170471,
      "epoch": 1.36,
      "learning_rate": 4.5183098591549297e-05,
      "loss": 0.7657,
      "step": 1604,
      "task_loss": 0.26412326097488403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7256048917770386,
      "epoch": 1.36,
      "learning_rate": 4.5211267605633804e-05,
      "loss": 0.6874,
      "step": 1605,
      "task_loss": 0.19763152301311493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8576298356056213,
      "epoch": 1.36,
      "learning_rate": 4.523943661971831e-05,
      "loss": 0.7063,
      "step": 1606,
      "task_loss": 0.8036271333694458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6846177577972412,
      "epoch": 1.36,
      "learning_rate": 4.526760563380282e-05,
      "loss": 0.7224,
      "step": 1607,
      "task_loss": 0.9296252131462097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8795887231826782,
      "epoch": 1.36,
      "learning_rate": 4.5295774647887326e-05,
      "loss": 0.701,
      "step": 1608,
      "task_loss": 0.9749605059623718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4876706600189209,
      "epoch": 1.36,
      "learning_rate": 4.532394366197183e-05,
      "loss": 0.5273,
      "step": 1609,
      "task_loss": 0.9442476630210876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9191760420799255,
      "epoch": 1.36,
      "learning_rate": 4.535211267605634e-05,
      "loss": 0.903,
      "step": 1610,
      "task_loss": 1.2675002813339233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0397008657455444,
      "epoch": 1.36,
      "learning_rate": 4.538028169014085e-05,
      "loss": 0.9053,
      "step": 1611,
      "task_loss": 0.9247954487800598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8439387679100037,
      "epoch": 1.36,
      "learning_rate": 4.5408450704225355e-05,
      "loss": 0.701,
      "step": 1612,
      "task_loss": 0.7955954670906067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4201531708240509,
      "epoch": 1.36,
      "learning_rate": 4.543661971830986e-05,
      "loss": 0.5991,
      "step": 1613,
      "task_loss": 0.6970077157020569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6968681812286377,
      "epoch": 1.36,
      "learning_rate": 4.546478873239437e-05,
      "loss": 0.603,
      "step": 1614,
      "task_loss": 1.2739346027374268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191566944122314,
      "epoch": 1.36,
      "learning_rate": 4.5492957746478876e-05,
      "loss": 0.551,
      "step": 1615,
      "task_loss": 0.5945554971694946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.659951388835907,
      "epoch": 1.37,
      "learning_rate": 4.5521126760563384e-05,
      "loss": 0.6596,
      "step": 1616,
      "task_loss": 0.6435373425483704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7264826893806458,
      "epoch": 1.37,
      "learning_rate": 4.554929577464789e-05,
      "loss": 0.5811,
      "step": 1617,
      "task_loss": 0.7037597894668579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3778638243675232,
      "epoch": 1.37,
      "learning_rate": 4.55774647887324e-05,
      "loss": 0.5639,
      "step": 1618,
      "task_loss": 0.9364375472068787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4664233326911926,
      "epoch": 1.37,
      "learning_rate": 4.5605633802816905e-05,
      "loss": 0.6283,
      "step": 1619,
      "task_loss": 0.3525354266166687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48258882761001587,
      "epoch": 1.37,
      "learning_rate": 4.563380281690141e-05,
      "loss": 0.723,
      "step": 1620,
      "task_loss": 0.048179417848587036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9769374132156372,
      "epoch": 1.37,
      "learning_rate": 4.566197183098592e-05,
      "loss": 0.7774,
      "step": 1621,
      "task_loss": 0.9386952519416809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44537508487701416,
      "epoch": 1.37,
      "learning_rate": 4.569014084507042e-05,
      "loss": 0.6961,
      "step": 1622,
      "task_loss": 0.688592791557312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4803049564361572,
      "epoch": 1.37,
      "learning_rate": 4.5718309859154934e-05,
      "loss": 0.5264,
      "step": 1623,
      "task_loss": 1.2706339359283447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7576771378517151,
      "epoch": 1.37,
      "learning_rate": 4.574647887323944e-05,
      "loss": 0.7053,
      "step": 1624,
      "task_loss": 1.0819844007492065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5964647531509399,
      "epoch": 1.37,
      "learning_rate": 4.577464788732395e-05,
      "loss": 0.776,
      "step": 1625,
      "task_loss": 0.9251953363418579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6509608626365662,
      "epoch": 1.37,
      "learning_rate": 4.580281690140845e-05,
      "loss": 0.6557,
      "step": 1626,
      "task_loss": 0.6880785822868347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.593774676322937,
      "epoch": 1.38,
      "learning_rate": 4.5830985915492957e-05,
      "loss": 0.5495,
      "step": 1627,
      "task_loss": 1.0458431243896484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6694990992546082,
      "epoch": 1.38,
      "learning_rate": 4.585915492957747e-05,
      "loss": 0.6394,
      "step": 1628,
      "task_loss": 0.6873940825462341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8138754367828369,
      "epoch": 1.38,
      "learning_rate": 4.588732394366198e-05,
      "loss": 0.6942,
      "step": 1629,
      "task_loss": 0.6464247703552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7374907732009888,
      "epoch": 1.38,
      "learning_rate": 4.591549295774648e-05,
      "loss": 0.7856,
      "step": 1630,
      "task_loss": 0.9992972612380981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7398185729980469,
      "epoch": 1.38,
      "learning_rate": 4.5943661971830986e-05,
      "loss": 0.5943,
      "step": 1631,
      "task_loss": 1.232700228691101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4812476336956024,
      "epoch": 1.38,
      "learning_rate": 4.597183098591549e-05,
      "loss": 0.6492,
      "step": 1632,
      "task_loss": 0.9382060170173645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46417078375816345,
      "epoch": 1.38,
      "learning_rate": 4.600000000000001e-05,
      "loss": 0.5702,
      "step": 1633,
      "task_loss": 0.3191852867603302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8275821208953857,
      "epoch": 1.38,
      "learning_rate": 4.602816901408451e-05,
      "loss": 0.9403,
      "step": 1634,
      "task_loss": 1.2224198579788208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9413549900054932,
      "epoch": 1.38,
      "learning_rate": 4.6056338028169015e-05,
      "loss": 0.7617,
      "step": 1635,
      "task_loss": 0.7549138069152832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5871737599372864,
      "epoch": 1.38,
      "learning_rate": 4.608450704225352e-05,
      "loss": 0.6801,
      "step": 1636,
      "task_loss": 1.3034164905548096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6202578544616699,
      "epoch": 1.38,
      "learning_rate": 4.611267605633803e-05,
      "loss": 0.8044,
      "step": 1637,
      "task_loss": 0.5311557054519653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.005652904510498,
      "epoch": 1.38,
      "learning_rate": 4.6140845070422536e-05,
      "loss": 0.8017,
      "step": 1638,
      "task_loss": 1.7919282913208008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6073235273361206,
      "epoch": 1.39,
      "learning_rate": 4.6169014084507044e-05,
      "loss": 0.7203,
      "step": 1639,
      "task_loss": 0.5981647372245789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5321988463401794,
      "epoch": 1.39,
      "learning_rate": 4.619718309859155e-05,
      "loss": 0.7767,
      "step": 1640,
      "task_loss": 1.2166517972946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3905990421772003,
      "epoch": 1.39,
      "learning_rate": 4.622535211267606e-05,
      "loss": 0.6165,
      "step": 1641,
      "task_loss": 0.5900824069976807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.31377795338630676,
      "epoch": 1.39,
      "learning_rate": 4.6253521126760565e-05,
      "loss": 0.6328,
      "step": 1642,
      "task_loss": 0.02757611684501171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9510294795036316,
      "epoch": 1.39,
      "learning_rate": 4.628169014084507e-05,
      "loss": 0.8472,
      "step": 1643,
      "task_loss": 0.6467332243919373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9068036675453186,
      "epoch": 1.39,
      "learning_rate": 4.630985915492958e-05,
      "loss": 0.6127,
      "step": 1644,
      "task_loss": 0.7072877883911133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7350319623947144,
      "epoch": 1.39,
      "learning_rate": 4.633802816901409e-05,
      "loss": 0.6444,
      "step": 1645,
      "task_loss": 0.8510034084320068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5910776257514954,
      "epoch": 1.39,
      "learning_rate": 4.6366197183098594e-05,
      "loss": 0.6956,
      "step": 1646,
      "task_loss": 0.3775237798690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6216821074485779,
      "epoch": 1.39,
      "learning_rate": 4.63943661971831e-05,
      "loss": 0.5952,
      "step": 1647,
      "task_loss": 1.11821448802948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6410535573959351,
      "epoch": 1.39,
      "learning_rate": 4.642253521126761e-05,
      "loss": 0.671,
      "step": 1648,
      "task_loss": 0.7640874981880188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5683889985084534,
      "epoch": 1.39,
      "learning_rate": 4.6450704225352116e-05,
      "loss": 0.8037,
      "step": 1649,
      "task_loss": 1.2884925603866577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4782760739326477,
      "epoch": 1.39,
      "learning_rate": 4.647887323943662e-05,
      "loss": 0.706,
      "step": 1650,
      "task_loss": 0.8123883605003357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6763464212417603,
      "epoch": 1.4,
      "learning_rate": 4.6507042253521124e-05,
      "loss": 0.8179,
      "step": 1651,
      "task_loss": 0.773410975933075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3630438446998596,
      "epoch": 1.4,
      "learning_rate": 4.653521126760564e-05,
      "loss": 0.7071,
      "step": 1652,
      "task_loss": 0.2774551212787628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48728662729263306,
      "epoch": 1.4,
      "learning_rate": 4.6563380281690145e-05,
      "loss": 0.5677,
      "step": 1653,
      "task_loss": 0.3113407492637634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6041675806045532,
      "epoch": 1.4,
      "learning_rate": 4.659154929577465e-05,
      "loss": 0.6528,
      "step": 1654,
      "task_loss": 1.2924110889434814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3602876663208008,
      "epoch": 1.4,
      "learning_rate": 4.661971830985915e-05,
      "loss": 0.696,
      "step": 1655,
      "task_loss": 0.09083258360624313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7984553575515747,
      "epoch": 1.4,
      "learning_rate": 4.664788732394366e-05,
      "loss": 0.7322,
      "step": 1656,
      "task_loss": 0.4074188768863678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338616371154785,
      "epoch": 1.4,
      "learning_rate": 4.6676056338028174e-05,
      "loss": 0.6984,
      "step": 1657,
      "task_loss": 1.3142259120941162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40345728397369385,
      "epoch": 1.4,
      "learning_rate": 4.670422535211268e-05,
      "loss": 0.6494,
      "step": 1658,
      "task_loss": 0.17130941152572632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828407287597656,
      "epoch": 1.4,
      "learning_rate": 4.673239436619719e-05,
      "loss": 0.5009,
      "step": 1659,
      "task_loss": 1.0953917503356934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5598666071891785,
      "epoch": 1.4,
      "learning_rate": 4.676056338028169e-05,
      "loss": 0.7247,
      "step": 1660,
      "task_loss": 0.22864079475402832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7103433609008789,
      "epoch": 1.4,
      "learning_rate": 4.6788732394366196e-05,
      "loss": 0.7511,
      "step": 1661,
      "task_loss": 0.6112599968910217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6918916702270508,
      "epoch": 1.4,
      "learning_rate": 4.681690140845071e-05,
      "loss": 0.5303,
      "step": 1662,
      "task_loss": 0.2006126493215561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7058935761451721,
      "epoch": 1.41,
      "learning_rate": 4.684507042253522e-05,
      "loss": 0.694,
      "step": 1663,
      "task_loss": 0.8665253520011902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5211086273193359,
      "epoch": 1.41,
      "learning_rate": 4.687323943661972e-05,
      "loss": 0.76,
      "step": 1664,
      "task_loss": 0.2786552309989929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5105043053627014,
      "epoch": 1.41,
      "learning_rate": 4.6901408450704225e-05,
      "loss": 0.6091,
      "step": 1665,
      "task_loss": 0.6466337442398071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.187175989151001,
      "epoch": 1.41,
      "learning_rate": 4.692957746478873e-05,
      "loss": 0.8059,
      "step": 1666,
      "task_loss": 1.0322376489639282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8007494211196899,
      "epoch": 1.41,
      "learning_rate": 4.6957746478873247e-05,
      "loss": 0.8035,
      "step": 1667,
      "task_loss": 1.5951308012008667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5322604775428772,
      "epoch": 1.41,
      "learning_rate": 4.698591549295775e-05,
      "loss": 0.4752,
      "step": 1668,
      "task_loss": 0.5678632259368896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.29829883575439453,
      "epoch": 1.41,
      "learning_rate": 4.7014084507042254e-05,
      "loss": 0.5926,
      "step": 1669,
      "task_loss": 0.9094152450561523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6462032794952393,
      "epoch": 1.41,
      "learning_rate": 4.704225352112676e-05,
      "loss": 0.6934,
      "step": 1670,
      "task_loss": 0.590508222579956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2933039665222168,
      "epoch": 1.41,
      "learning_rate": 4.707042253521127e-05,
      "loss": 0.4964,
      "step": 1671,
      "task_loss": 0.5093124508857727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.604745090007782,
      "epoch": 1.41,
      "learning_rate": 4.7098591549295776e-05,
      "loss": 0.7375,
      "step": 1672,
      "task_loss": 0.4759080111980438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46596410870552063,
      "epoch": 1.41,
      "learning_rate": 4.712676056338028e-05,
      "loss": 0.8209,
      "step": 1673,
      "task_loss": 0.7101446390151978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4847882390022278,
      "epoch": 1.41,
      "learning_rate": 4.715492957746479e-05,
      "loss": 0.6404,
      "step": 1674,
      "task_loss": 0.2981914281845093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6020488739013672,
      "epoch": 1.42,
      "learning_rate": 4.71830985915493e-05,
      "loss": 0.5821,
      "step": 1675,
      "task_loss": 0.47541120648384094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5112794041633606,
      "epoch": 1.42,
      "learning_rate": 4.7211267605633805e-05,
      "loss": 0.4681,
      "step": 1676,
      "task_loss": 0.9648087620735168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0668083429336548,
      "epoch": 1.42,
      "learning_rate": 4.723943661971831e-05,
      "loss": 0.7234,
      "step": 1677,
      "task_loss": 0.5064386129379272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0904996395111084,
      "epoch": 1.42,
      "learning_rate": 4.726760563380282e-05,
      "loss": 0.9536,
      "step": 1678,
      "task_loss": 0.8612411618232727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.471343457698822,
      "epoch": 1.42,
      "learning_rate": 4.729577464788733e-05,
      "loss": 0.633,
      "step": 1679,
      "task_loss": 0.7127698063850403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4019850790500641,
      "epoch": 1.42,
      "learning_rate": 4.7323943661971834e-05,
      "loss": 0.6514,
      "step": 1680,
      "task_loss": 0.8699890375137329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6972496509552002,
      "epoch": 1.42,
      "learning_rate": 4.735211267605634e-05,
      "loss": 0.5258,
      "step": 1681,
      "task_loss": 0.9608989953994751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5665212869644165,
      "epoch": 1.42,
      "learning_rate": 4.738028169014085e-05,
      "loss": 0.4864,
      "step": 1682,
      "task_loss": 0.3217461109161377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7031760215759277,
      "epoch": 1.42,
      "learning_rate": 4.7408450704225356e-05,
      "loss": 0.4713,
      "step": 1683,
      "task_loss": 0.23230141401290894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48633596301078796,
      "epoch": 1.42,
      "learning_rate": 4.743661971830986e-05,
      "loss": 0.5437,
      "step": 1684,
      "task_loss": 1.0164079666137695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7596257925033569,
      "epoch": 1.42,
      "learning_rate": 4.7464788732394363e-05,
      "loss": 0.744,
      "step": 1685,
      "task_loss": 0.4292535185813904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.64918053150177,
      "epoch": 1.42,
      "learning_rate": 4.749295774647888e-05,
      "loss": 0.613,
      "step": 1686,
      "task_loss": 0.5599294304847717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43048256635665894,
      "epoch": 1.43,
      "learning_rate": 4.7521126760563385e-05,
      "loss": 0.6673,
      "step": 1687,
      "task_loss": 0.7167811393737793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6201004385948181,
      "epoch": 1.43,
      "learning_rate": 4.754929577464789e-05,
      "loss": 0.7049,
      "step": 1688,
      "task_loss": 0.6512680053710938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49391043186187744,
      "epoch": 1.43,
      "learning_rate": 4.757746478873239e-05,
      "loss": 0.6781,
      "step": 1689,
      "task_loss": 0.5704379677772522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5168977975845337,
      "epoch": 1.43,
      "learning_rate": 4.76056338028169e-05,
      "loss": 0.8071,
      "step": 1690,
      "task_loss": 0.3104069232940674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7273399829864502,
      "epoch": 1.43,
      "learning_rate": 4.7633802816901414e-05,
      "loss": 0.6757,
      "step": 1691,
      "task_loss": 1.2106983661651611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8390233516693115,
      "epoch": 1.43,
      "learning_rate": 4.766197183098592e-05,
      "loss": 0.517,
      "step": 1692,
      "task_loss": 1.0718122720718384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.551091730594635,
      "epoch": 1.43,
      "learning_rate": 4.769014084507042e-05,
      "loss": 0.6235,
      "step": 1693,
      "task_loss": 0.07249514013528824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3700655698776245,
      "epoch": 1.43,
      "learning_rate": 4.771830985915493e-05,
      "loss": 0.7134,
      "step": 1694,
      "task_loss": 0.07154733687639236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6866461038589478,
      "epoch": 1.43,
      "learning_rate": 4.7746478873239436e-05,
      "loss": 0.6708,
      "step": 1695,
      "task_loss": 1.29938542842865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6798800826072693,
      "epoch": 1.43,
      "learning_rate": 4.777464788732395e-05,
      "loss": 0.7324,
      "step": 1696,
      "task_loss": 1.183453917503357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9477272033691406,
      "epoch": 1.43,
      "learning_rate": 4.780281690140845e-05,
      "loss": 0.7289,
      "step": 1697,
      "task_loss": 1.8966968059539795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4756430983543396,
      "epoch": 1.44,
      "learning_rate": 4.783098591549296e-05,
      "loss": 0.7531,
      "step": 1698,
      "task_loss": 1.0449330806732178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.630846381187439,
      "epoch": 1.44,
      "learning_rate": 4.7859154929577465e-05,
      "loss": 0.7821,
      "step": 1699,
      "task_loss": 1.8963607549667358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6619269847869873,
      "epoch": 1.44,
      "learning_rate": 4.788732394366197e-05,
      "loss": 0.9894,
      "step": 1700,
      "task_loss": 0.8408291339874268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.640231728553772,
      "epoch": 1.44,
      "learning_rate": 4.791549295774648e-05,
      "loss": 0.7756,
      "step": 1701,
      "task_loss": 1.1331188678741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43245363235473633,
      "epoch": 1.44,
      "learning_rate": 4.794366197183099e-05,
      "loss": 0.5697,
      "step": 1702,
      "task_loss": 0.9229650497436523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46145695447921753,
      "epoch": 1.44,
      "learning_rate": 4.7971830985915494e-05,
      "loss": 0.646,
      "step": 1703,
      "task_loss": 0.915656328201294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40333157777786255,
      "epoch": 1.44,
      "learning_rate": 4.8e-05,
      "loss": 0.6202,
      "step": 1704,
      "task_loss": 0.3361087143421173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.753397524356842,
      "epoch": 1.44,
      "learning_rate": 4.8028169014084515e-05,
      "loss": 0.7937,
      "step": 1705,
      "task_loss": 1.1469022035598755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5252906084060669,
      "epoch": 1.44,
      "learning_rate": 4.8056338028169016e-05,
      "loss": 0.7107,
      "step": 1706,
      "task_loss": 1.1360138654708862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7311115264892578,
      "epoch": 1.44,
      "learning_rate": 4.808450704225352e-05,
      "loss": 0.6374,
      "step": 1707,
      "task_loss": 0.7260037064552307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4606877565383911,
      "epoch": 1.44,
      "learning_rate": 4.811267605633803e-05,
      "loss": 0.5541,
      "step": 1708,
      "task_loss": 0.1935642808675766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1537079811096191,
      "epoch": 1.44,
      "learning_rate": 4.814084507042254e-05,
      "loss": 0.7161,
      "step": 1709,
      "task_loss": 0.8487422466278076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9706428647041321,
      "epoch": 1.45,
      "learning_rate": 4.8169014084507045e-05,
      "loss": 0.7159,
      "step": 1710,
      "task_loss": 0.8153154850006104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6801272630691528,
      "epoch": 1.45,
      "learning_rate": 4.819718309859155e-05,
      "loss": 0.8424,
      "step": 1711,
      "task_loss": 1.5993804931640625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5495634078979492,
      "epoch": 1.45,
      "learning_rate": 4.822535211267606e-05,
      "loss": 0.6038,
      "step": 1712,
      "task_loss": 0.7332903742790222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40992289781570435,
      "epoch": 1.45,
      "learning_rate": 4.8253521126760566e-05,
      "loss": 0.6271,
      "step": 1713,
      "task_loss": 0.6718761920928955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5004311800003052,
      "epoch": 1.45,
      "learning_rate": 4.8281690140845074e-05,
      "loss": 0.7362,
      "step": 1714,
      "task_loss": 1.753472924232483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44008588790893555,
      "epoch": 1.45,
      "learning_rate": 4.830985915492958e-05,
      "loss": 0.5271,
      "step": 1715,
      "task_loss": 0.652900218963623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5127201080322266,
      "epoch": 1.45,
      "learning_rate": 4.833802816901409e-05,
      "loss": 0.5959,
      "step": 1716,
      "task_loss": 0.2781747579574585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6766136288642883,
      "epoch": 1.45,
      "learning_rate": 4.8366197183098595e-05,
      "loss": 0.651,
      "step": 1717,
      "task_loss": 1.0642186403274536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6986705660820007,
      "epoch": 1.45,
      "learning_rate": 4.83943661971831e-05,
      "loss": 0.6736,
      "step": 1718,
      "task_loss": 1.452517032623291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8774093389511108,
      "epoch": 1.45,
      "learning_rate": 4.84225352112676e-05,
      "loss": 0.7971,
      "step": 1719,
      "task_loss": 0.5574795007705688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6652801036834717,
      "epoch": 1.45,
      "learning_rate": 4.845070422535212e-05,
      "loss": 0.795,
      "step": 1720,
      "task_loss": 1.1690058708190918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8377767205238342,
      "epoch": 1.45,
      "learning_rate": 4.8478873239436624e-05,
      "loss": 0.5275,
      "step": 1721,
      "task_loss": 1.272325038909912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6717647314071655,
      "epoch": 1.46,
      "learning_rate": 4.850704225352113e-05,
      "loss": 0.7104,
      "step": 1722,
      "task_loss": 0.990061342716217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40907326340675354,
      "epoch": 1.46,
      "learning_rate": 4.853521126760563e-05,
      "loss": 0.6054,
      "step": 1723,
      "task_loss": 0.6067416071891785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6697214841842651,
      "epoch": 1.46,
      "learning_rate": 4.856338028169014e-05,
      "loss": 0.6997,
      "step": 1724,
      "task_loss": 0.9226334095001221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8197699785232544,
      "epoch": 1.46,
      "learning_rate": 4.8591549295774653e-05,
      "loss": 0.8772,
      "step": 1725,
      "task_loss": 1.5548620223999023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5488120913505554,
      "epoch": 1.46,
      "learning_rate": 4.861971830985916e-05,
      "loss": 0.6337,
      "step": 1726,
      "task_loss": 0.7327488660812378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6403170228004456,
      "epoch": 1.46,
      "learning_rate": 4.864788732394366e-05,
      "loss": 0.7662,
      "step": 1727,
      "task_loss": 0.5010391473770142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37367990612983704,
      "epoch": 1.46,
      "learning_rate": 4.867605633802817e-05,
      "loss": 0.4755,
      "step": 1728,
      "task_loss": 0.24142694473266602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5752547979354858,
      "epoch": 1.46,
      "learning_rate": 4.8704225352112676e-05,
      "loss": 0.7167,
      "step": 1729,
      "task_loss": 0.19948241114616394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.178580641746521,
      "epoch": 1.46,
      "learning_rate": 4.873239436619719e-05,
      "loss": 0.6603,
      "step": 1730,
      "task_loss": 0.8581843972206116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6714542508125305,
      "epoch": 1.46,
      "learning_rate": 4.876056338028169e-05,
      "loss": 0.6248,
      "step": 1731,
      "task_loss": 0.6137378215789795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7051255702972412,
      "epoch": 1.46,
      "learning_rate": 4.87887323943662e-05,
      "loss": 0.7824,
      "step": 1732,
      "task_loss": 0.6099342107772827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463262796401978,
      "epoch": 1.46,
      "learning_rate": 4.8816901408450705e-05,
      "loss": 0.794,
      "step": 1733,
      "task_loss": 0.8290018439292908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6452159881591797,
      "epoch": 1.47,
      "learning_rate": 4.884507042253522e-05,
      "loss": 0.6002,
      "step": 1734,
      "task_loss": 1.5022836923599243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5066654682159424,
      "epoch": 1.47,
      "learning_rate": 4.887323943661972e-05,
      "loss": 0.4403,
      "step": 1735,
      "task_loss": 0.22324420511722565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7978217601776123,
      "epoch": 1.47,
      "learning_rate": 4.8901408450704226e-05,
      "loss": 0.6448,
      "step": 1736,
      "task_loss": 1.0378270149230957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0954978466033936,
      "epoch": 1.47,
      "learning_rate": 4.8929577464788734e-05,
      "loss": 0.6768,
      "step": 1737,
      "task_loss": 0.5352761745452881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7706320285797119,
      "epoch": 1.47,
      "learning_rate": 4.895774647887324e-05,
      "loss": 0.6284,
      "step": 1738,
      "task_loss": 1.1697399616241455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45554298162460327,
      "epoch": 1.47,
      "learning_rate": 4.898591549295775e-05,
      "loss": 0.5134,
      "step": 1739,
      "task_loss": 0.4110294580459595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.453569233417511,
      "epoch": 1.47,
      "learning_rate": 4.9014084507042255e-05,
      "loss": 0.6389,
      "step": 1740,
      "task_loss": 0.342339426279068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43892428278923035,
      "epoch": 1.47,
      "learning_rate": 4.904225352112676e-05,
      "loss": 0.4931,
      "step": 1741,
      "task_loss": 1.4942964315414429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6022356152534485,
      "epoch": 1.47,
      "learning_rate": 4.907042253521127e-05,
      "loss": 0.6562,
      "step": 1742,
      "task_loss": 1.7500537633895874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5086394548416138,
      "epoch": 1.47,
      "learning_rate": 4.909859154929578e-05,
      "loss": 0.6551,
      "step": 1743,
      "task_loss": 0.767167329788208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7103742361068726,
      "epoch": 1.47,
      "learning_rate": 4.9126760563380284e-05,
      "loss": 0.6312,
      "step": 1744,
      "task_loss": 0.8919826149940491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5152264833450317,
      "epoch": 1.47,
      "learning_rate": 4.915492957746479e-05,
      "loss": 0.6893,
      "step": 1745,
      "task_loss": 0.27684393525123596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7589502334594727,
      "epoch": 1.48,
      "learning_rate": 4.91830985915493e-05,
      "loss": 0.6977,
      "step": 1746,
      "task_loss": 1.6448665857315063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.876821756362915,
      "epoch": 1.48,
      "learning_rate": 4.9211267605633806e-05,
      "loss": 0.7055,
      "step": 1747,
      "task_loss": 0.4326273798942566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.63507080078125,
      "epoch": 1.48,
      "learning_rate": 4.923943661971831e-05,
      "loss": 0.7002,
      "step": 1748,
      "task_loss": 1.0050069093704224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7446730136871338,
      "epoch": 1.48,
      "learning_rate": 4.926760563380282e-05,
      "loss": 0.6175,
      "step": 1749,
      "task_loss": 1.0677016973495483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4185749888420105,
      "epoch": 1.48,
      "learning_rate": 4.929577464788733e-05,
      "loss": 0.5881,
      "step": 1750,
      "task_loss": 0.7596157789230347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6640006303787231,
      "epoch": 1.48,
      "learning_rate": 4.9323943661971835e-05,
      "loss": 0.6238,
      "step": 1751,
      "task_loss": 0.8177092671394348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3937869369983673,
      "epoch": 1.48,
      "learning_rate": 4.9352112676056336e-05,
      "loss": 0.6965,
      "step": 1752,
      "task_loss": 0.27502498030662537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.33980023860931396,
      "epoch": 1.48,
      "learning_rate": 4.938028169014084e-05,
      "loss": 0.5322,
      "step": 1753,
      "task_loss": 0.3384622037410736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7791434526443481,
      "epoch": 1.48,
      "learning_rate": 4.940845070422536e-05,
      "loss": 0.699,
      "step": 1754,
      "task_loss": 0.6799315810203552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.958435595035553,
      "epoch": 1.48,
      "learning_rate": 4.9436619718309864e-05,
      "loss": 0.7993,
      "step": 1755,
      "task_loss": 0.9463890790939331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4931311309337616,
      "epoch": 1.48,
      "learning_rate": 4.946478873239437e-05,
      "loss": 0.5059,
      "step": 1756,
      "task_loss": 0.8569930791854858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9269417524337769,
      "epoch": 1.48,
      "learning_rate": 4.949295774647887e-05,
      "loss": 0.7773,
      "step": 1757,
      "task_loss": 1.5328443050384521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6841145157814026,
      "epoch": 1.49,
      "learning_rate": 4.952112676056338e-05,
      "loss": 0.8293,
      "step": 1758,
      "task_loss": 1.2151539325714111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4345683753490448,
      "epoch": 1.49,
      "learning_rate": 4.954929577464789e-05,
      "loss": 0.6384,
      "step": 1759,
      "task_loss": 0.5382832884788513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5993403792381287,
      "epoch": 1.49,
      "learning_rate": 4.95774647887324e-05,
      "loss": 0.7904,
      "step": 1760,
      "task_loss": 2.0251951217651367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7951532006263733,
      "epoch": 1.49,
      "learning_rate": 4.96056338028169e-05,
      "loss": 0.6964,
      "step": 1761,
      "task_loss": 1.33260977268219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6838171482086182,
      "epoch": 1.49,
      "learning_rate": 4.963380281690141e-05,
      "loss": 0.8582,
      "step": 1762,
      "task_loss": 0.6893925070762634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6183147430419922,
      "epoch": 1.49,
      "learning_rate": 4.966197183098592e-05,
      "loss": 0.6214,
      "step": 1763,
      "task_loss": 0.3137242794036865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3793777823448181,
      "epoch": 1.49,
      "learning_rate": 4.969014084507043e-05,
      "loss": 0.5471,
      "step": 1764,
      "task_loss": 0.06447605043649673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.24995794892311096,
      "epoch": 1.49,
      "learning_rate": 4.971830985915493e-05,
      "loss": 0.5572,
      "step": 1765,
      "task_loss": 0.17739669978618622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4889288544654846,
      "epoch": 1.49,
      "learning_rate": 4.974647887323944e-05,
      "loss": 0.7477,
      "step": 1766,
      "task_loss": 0.4853813052177429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.023239016532898,
      "epoch": 1.49,
      "learning_rate": 4.9774647887323944e-05,
      "loss": 0.7254,
      "step": 1767,
      "task_loss": 1.1800516843795776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.827078640460968,
      "epoch": 1.49,
      "learning_rate": 4.980281690140846e-05,
      "loss": 0.6807,
      "step": 1768,
      "task_loss": 0.9607373476028442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0390146970748901,
      "epoch": 1.5,
      "learning_rate": 4.983098591549296e-05,
      "loss": 0.7093,
      "step": 1769,
      "task_loss": 0.941625714302063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.746138870716095,
      "epoch": 1.5,
      "learning_rate": 4.9859154929577466e-05,
      "loss": 0.7918,
      "step": 1770,
      "task_loss": 1.6039825677871704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.629546046257019,
      "epoch": 1.5,
      "learning_rate": 4.9887323943661973e-05,
      "loss": 0.6581,
      "step": 1771,
      "task_loss": 0.6128548979759216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.79425048828125,
      "epoch": 1.5,
      "learning_rate": 4.991549295774648e-05,
      "loss": 0.7481,
      "step": 1772,
      "task_loss": 1.4998985528945923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611071586608887,
      "epoch": 1.5,
      "learning_rate": 4.994366197183099e-05,
      "loss": 0.6589,
      "step": 1773,
      "task_loss": 0.9800018072128296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.704261064529419,
      "epoch": 1.5,
      "learning_rate": 4.9971830985915495e-05,
      "loss": 0.5492,
      "step": 1774,
      "task_loss": 1.3363583087921143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4659772217273712,
      "epoch": 1.5,
      "learning_rate": 5e-05,
      "loss": 0.3957,
      "step": 1775,
      "task_loss": 0.21420785784721375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7589311599731445,
      "epoch": 1.5,
      "learning_rate": 4.9996869129618034e-05,
      "loss": 0.7359,
      "step": 1776,
      "task_loss": 0.9890809655189514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5468038320541382,
      "epoch": 1.5,
      "learning_rate": 4.999373825923607e-05,
      "loss": 0.5934,
      "step": 1777,
      "task_loss": 1.0633552074432373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7291760444641113,
      "epoch": 1.5,
      "learning_rate": 4.9990607388854105e-05,
      "loss": 0.5676,
      "step": 1778,
      "task_loss": 0.40489307045936584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5862628221511841,
      "epoch": 1.5,
      "learning_rate": 4.9987476518472136e-05,
      "loss": 0.5201,
      "step": 1779,
      "task_loss": 0.2626260817050934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3920353949069977,
      "epoch": 1.5,
      "learning_rate": 4.998434564809017e-05,
      "loss": 0.6475,
      "step": 1780,
      "task_loss": 1.132348656654358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.820918083190918,
      "epoch": 1.51,
      "learning_rate": 4.998121477770821e-05,
      "loss": 0.7581,
      "step": 1781,
      "task_loss": 0.9222025871276855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6620943546295166,
      "epoch": 1.51,
      "learning_rate": 4.997808390732624e-05,
      "loss": 0.6791,
      "step": 1782,
      "task_loss": 0.4763490557670593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5768100023269653,
      "epoch": 1.51,
      "learning_rate": 4.997495303694427e-05,
      "loss": 0.6261,
      "step": 1783,
      "task_loss": 1.0265660285949707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4834175109863281,
      "epoch": 1.51,
      "learning_rate": 4.99718221665623e-05,
      "loss": 0.8234,
      "step": 1784,
      "task_loss": 1.556879997253418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8264639377593994,
      "epoch": 1.51,
      "learning_rate": 4.996869129618034e-05,
      "loss": 0.8484,
      "step": 1785,
      "task_loss": 0.5273158550262451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49966955184936523,
      "epoch": 1.51,
      "learning_rate": 4.996556042579837e-05,
      "loss": 0.564,
      "step": 1786,
      "task_loss": 0.9590334892272949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5889289379119873,
      "epoch": 1.51,
      "learning_rate": 4.9962429555416404e-05,
      "loss": 0.6611,
      "step": 1787,
      "task_loss": 0.4693489968776703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7299202680587769,
      "epoch": 1.51,
      "learning_rate": 4.995929868503444e-05,
      "loss": 0.5524,
      "step": 1788,
      "task_loss": 1.431998610496521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6850101947784424,
      "epoch": 1.51,
      "learning_rate": 4.9956167814652474e-05,
      "loss": 0.6793,
      "step": 1789,
      "task_loss": 1.528543472290039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4579393267631531,
      "epoch": 1.51,
      "learning_rate": 4.9953036944270506e-05,
      "loss": 0.5074,
      "step": 1790,
      "task_loss": 0.3179674744606018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6380869150161743,
      "epoch": 1.51,
      "learning_rate": 4.9949906073888545e-05,
      "loss": 0.65,
      "step": 1791,
      "task_loss": 0.1815675050020218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9062588214874268,
      "epoch": 1.51,
      "learning_rate": 4.9946775203506577e-05,
      "loss": 0.7858,
      "step": 1792,
      "task_loss": 1.2457330226898193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7081063985824585,
      "epoch": 1.52,
      "learning_rate": 4.9943644333124615e-05,
      "loss": 0.685,
      "step": 1793,
      "task_loss": 0.087989442050457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.218354269862175,
      "epoch": 1.52,
      "learning_rate": 4.994051346274265e-05,
      "loss": 0.4174,
      "step": 1794,
      "task_loss": 0.35041168332099915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7589148283004761,
      "epoch": 1.52,
      "learning_rate": 4.993738259236068e-05,
      "loss": 0.8537,
      "step": 1795,
      "task_loss": 0.7867473363876343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4449131488800049,
      "epoch": 1.52,
      "learning_rate": 4.993425172197872e-05,
      "loss": 0.5687,
      "step": 1796,
      "task_loss": 0.31527191400527954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.488155722618103,
      "epoch": 1.52,
      "learning_rate": 4.993112085159675e-05,
      "loss": 0.7606,
      "step": 1797,
      "task_loss": 0.7264242768287659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46588680148124695,
      "epoch": 1.52,
      "learning_rate": 4.992798998121478e-05,
      "loss": 0.681,
      "step": 1798,
      "task_loss": 1.511401891708374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6547958850860596,
      "epoch": 1.52,
      "learning_rate": 4.992485911083281e-05,
      "loss": 0.7054,
      "step": 1799,
      "task_loss": 1.8270134925842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4431312084197998,
      "epoch": 1.52,
      "learning_rate": 4.992172824045085e-05,
      "loss": 0.4505,
      "step": 1800,
      "task_loss": 0.2967238426208496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46827447414398193,
      "epoch": 1.52,
      "learning_rate": 4.991859737006888e-05,
      "loss": 0.5899,
      "step": 1801,
      "task_loss": 0.3745695650577545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8080461621284485,
      "epoch": 1.52,
      "learning_rate": 4.9915466499686915e-05,
      "loss": 0.6657,
      "step": 1802,
      "task_loss": 0.38682907819747925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46412205696105957,
      "epoch": 1.52,
      "learning_rate": 4.991233562930495e-05,
      "loss": 0.668,
      "step": 1803,
      "task_loss": 1.6101449728012085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4977133870124817,
      "epoch": 1.52,
      "learning_rate": 4.9909204758922985e-05,
      "loss": 0.6419,
      "step": 1804,
      "task_loss": 0.42898091673851013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8670452833175659,
      "epoch": 1.53,
      "learning_rate": 4.990607388854102e-05,
      "loss": 0.6058,
      "step": 1805,
      "task_loss": 2.060584545135498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7038534283638,
      "epoch": 1.53,
      "learning_rate": 4.990294301815905e-05,
      "loss": 0.6232,
      "step": 1806,
      "task_loss": 1.1460820436477661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43152838945388794,
      "epoch": 1.53,
      "learning_rate": 4.989981214777709e-05,
      "loss": 0.495,
      "step": 1807,
      "task_loss": 0.6902475953102112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8095934391021729,
      "epoch": 1.53,
      "learning_rate": 4.989668127739512e-05,
      "loss": 0.6588,
      "step": 1808,
      "task_loss": 0.713253378868103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5866916179656982,
      "epoch": 1.53,
      "learning_rate": 4.989355040701315e-05,
      "loss": 0.6411,
      "step": 1809,
      "task_loss": 1.5942386388778687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4574407935142517,
      "epoch": 1.53,
      "learning_rate": 4.989041953663118e-05,
      "loss": 0.5922,
      "step": 1810,
      "task_loss": 0.25790825486183167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6200160980224609,
      "epoch": 1.53,
      "learning_rate": 4.988728866624922e-05,
      "loss": 0.7298,
      "step": 1811,
      "task_loss": 0.6222794055938721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7348558902740479,
      "epoch": 1.53,
      "learning_rate": 4.988415779586725e-05,
      "loss": 0.8533,
      "step": 1812,
      "task_loss": 1.1796276569366455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7472292184829712,
      "epoch": 1.53,
      "learning_rate": 4.9881026925485285e-05,
      "loss": 0.7828,
      "step": 1813,
      "task_loss": 0.7248402237892151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6385415196418762,
      "epoch": 1.53,
      "learning_rate": 4.987789605510332e-05,
      "loss": 0.7694,
      "step": 1814,
      "task_loss": 0.7425999045372009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.716332197189331,
      "epoch": 1.53,
      "learning_rate": 4.9874765184721355e-05,
      "loss": 0.7536,
      "step": 1815,
      "task_loss": 1.3053377866744995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5453732013702393,
      "epoch": 1.53,
      "learning_rate": 4.987163431433939e-05,
      "loss": 0.6461,
      "step": 1816,
      "task_loss": 1.1363106966018677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5644437074661255,
      "epoch": 1.54,
      "learning_rate": 4.986850344395742e-05,
      "loss": 0.777,
      "step": 1817,
      "task_loss": 0.7945980429649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7382049560546875,
      "epoch": 1.54,
      "learning_rate": 4.986537257357546e-05,
      "loss": 0.631,
      "step": 1818,
      "task_loss": 0.5975694060325623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44151127338409424,
      "epoch": 1.54,
      "learning_rate": 4.986224170319349e-05,
      "loss": 0.6433,
      "step": 1819,
      "task_loss": 0.8343964219093323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.722470760345459,
      "epoch": 1.54,
      "learning_rate": 4.985911083281152e-05,
      "loss": 0.6414,
      "step": 1820,
      "task_loss": 0.7751318216323853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8326852917671204,
      "epoch": 1.54,
      "learning_rate": 4.985597996242955e-05,
      "loss": 0.6585,
      "step": 1821,
      "task_loss": 1.2828439474105835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7740627527236938,
      "epoch": 1.54,
      "learning_rate": 4.985284909204759e-05,
      "loss": 0.6751,
      "step": 1822,
      "task_loss": 0.6138177514076233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.537439227104187,
      "epoch": 1.54,
      "learning_rate": 4.984971822166562e-05,
      "loss": 0.7133,
      "step": 1823,
      "task_loss": 0.7864573001861572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4803377091884613,
      "epoch": 1.54,
      "learning_rate": 4.9846587351283655e-05,
      "loss": 0.6603,
      "step": 1824,
      "task_loss": 0.6513344049453735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.460914671421051,
      "epoch": 1.54,
      "learning_rate": 4.984345648090169e-05,
      "loss": 0.5309,
      "step": 1825,
      "task_loss": 0.5043463706970215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4908214211463928,
      "epoch": 1.54,
      "learning_rate": 4.9840325610519725e-05,
      "loss": 0.5785,
      "step": 1826,
      "task_loss": 1.3462622165679932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3570498824119568,
      "epoch": 1.54,
      "learning_rate": 4.9837194740137763e-05,
      "loss": 0.4514,
      "step": 1827,
      "task_loss": 0.26234447956085205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105209589004517,
      "epoch": 1.54,
      "learning_rate": 4.9834063869755795e-05,
      "loss": 0.5727,
      "step": 1828,
      "task_loss": 1.4233118295669556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38166531920433044,
      "epoch": 1.55,
      "learning_rate": 4.9830932999373834e-05,
      "loss": 0.476,
      "step": 1829,
      "task_loss": 0.7092889547348022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.608270525932312,
      "epoch": 1.55,
      "learning_rate": 4.9827802128991866e-05,
      "loss": 0.5901,
      "step": 1830,
      "task_loss": 1.1557390689849854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5318359136581421,
      "epoch": 1.55,
      "learning_rate": 4.98246712586099e-05,
      "loss": 0.7141,
      "step": 1831,
      "task_loss": 0.6606122851371765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.571493923664093,
      "epoch": 1.55,
      "learning_rate": 4.982154038822793e-05,
      "loss": 0.7032,
      "step": 1832,
      "task_loss": 1.0071773529052734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4722786247730255,
      "epoch": 1.55,
      "learning_rate": 4.981840951784597e-05,
      "loss": 0.4888,
      "step": 1833,
      "task_loss": 0.9370937943458557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46872323751449585,
      "epoch": 1.55,
      "learning_rate": 4.9815278647464e-05,
      "loss": 0.5162,
      "step": 1834,
      "task_loss": 1.3404901027679443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7788828611373901,
      "epoch": 1.55,
      "learning_rate": 4.981214777708203e-05,
      "loss": 0.6133,
      "step": 1835,
      "task_loss": 0.6192160248756409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9818916320800781,
      "epoch": 1.55,
      "learning_rate": 4.980901690670006e-05,
      "loss": 0.7321,
      "step": 1836,
      "task_loss": 1.2386287450790405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5778181552886963,
      "epoch": 1.55,
      "learning_rate": 4.98058860363181e-05,
      "loss": 0.7182,
      "step": 1837,
      "task_loss": 0.32417237758636475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5331680774688721,
      "epoch": 1.55,
      "learning_rate": 4.980275516593613e-05,
      "loss": 0.6216,
      "step": 1838,
      "task_loss": 0.7085524797439575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9092373251914978,
      "epoch": 1.55,
      "learning_rate": 4.9799624295554165e-05,
      "loss": 0.8151,
      "step": 1839,
      "task_loss": 0.9767289757728577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3825393617153168,
      "epoch": 1.56,
      "learning_rate": 4.9796493425172204e-05,
      "loss": 0.6358,
      "step": 1840,
      "task_loss": 1.0692232847213745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7195698618888855,
      "epoch": 1.56,
      "learning_rate": 4.9793362554790235e-05,
      "loss": 0.7661,
      "step": 1841,
      "task_loss": 1.07028067111969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5334628820419312,
      "epoch": 1.56,
      "learning_rate": 4.979023168440827e-05,
      "loss": 0.6391,
      "step": 1842,
      "task_loss": 1.2108945846557617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5728611946105957,
      "epoch": 1.56,
      "learning_rate": 4.97871008140263e-05,
      "loss": 0.6743,
      "step": 1843,
      "task_loss": 0.5248939990997314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8412822484970093,
      "epoch": 1.56,
      "learning_rate": 4.978396994364434e-05,
      "loss": 0.5886,
      "step": 1844,
      "task_loss": 0.5057944655418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.784916877746582,
      "epoch": 1.56,
      "learning_rate": 4.978083907326237e-05,
      "loss": 0.7943,
      "step": 1845,
      "task_loss": 0.7054234147071838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6050792336463928,
      "epoch": 1.56,
      "learning_rate": 4.97777082028804e-05,
      "loss": 0.6653,
      "step": 1846,
      "task_loss": 0.743058979511261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6797387599945068,
      "epoch": 1.56,
      "learning_rate": 4.977457733249843e-05,
      "loss": 0.5427,
      "step": 1847,
      "task_loss": 1.0078208446502686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.013283371925354,
      "epoch": 1.56,
      "learning_rate": 4.977144646211647e-05,
      "loss": 0.6383,
      "step": 1848,
      "task_loss": 1.0155601501464844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5210666656494141,
      "epoch": 1.56,
      "learning_rate": 4.97683155917345e-05,
      "loss": 0.526,
      "step": 1849,
      "task_loss": 1.4587905406951904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7302477359771729,
      "epoch": 1.56,
      "learning_rate": 4.9765184721352535e-05,
      "loss": 0.6605,
      "step": 1850,
      "task_loss": 0.9275100231170654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8575241565704346,
      "epoch": 1.56,
      "learning_rate": 4.9762053850970574e-05,
      "loss": 0.6863,
      "step": 1851,
      "task_loss": 0.7441763281822205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6409611701965332,
      "epoch": 1.57,
      "learning_rate": 4.9758922980588605e-05,
      "loss": 0.568,
      "step": 1852,
      "task_loss": 0.8352595567703247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6701617240905762,
      "epoch": 1.57,
      "learning_rate": 4.975579211020664e-05,
      "loss": 0.6826,
      "step": 1853,
      "task_loss": 1.1050704717636108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5685806274414062,
      "epoch": 1.57,
      "learning_rate": 4.975266123982467e-05,
      "loss": 0.7567,
      "step": 1854,
      "task_loss": 0.7252973318099976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5129014253616333,
      "epoch": 1.57,
      "learning_rate": 4.974953036944271e-05,
      "loss": 0.6102,
      "step": 1855,
      "task_loss": 0.6139322519302368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34985101222991943,
      "epoch": 1.57,
      "learning_rate": 4.974639949906074e-05,
      "loss": 0.6686,
      "step": 1856,
      "task_loss": 0.06662418693304062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46754616498947144,
      "epoch": 1.57,
      "learning_rate": 4.974326862867877e-05,
      "loss": 0.6294,
      "step": 1857,
      "task_loss": 0.3787352740764618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7425840497016907,
      "epoch": 1.57,
      "learning_rate": 4.974013775829681e-05,
      "loss": 0.6034,
      "step": 1858,
      "task_loss": 0.6082272529602051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8619138598442078,
      "epoch": 1.57,
      "learning_rate": 4.973700688791484e-05,
      "loss": 0.8147,
      "step": 1859,
      "task_loss": 1.5062973499298096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9642199873924255,
      "epoch": 1.57,
      "learning_rate": 4.973387601753288e-05,
      "loss": 0.8482,
      "step": 1860,
      "task_loss": 2.0624330043792725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37015020847320557,
      "epoch": 1.57,
      "learning_rate": 4.973074514715091e-05,
      "loss": 0.5978,
      "step": 1861,
      "task_loss": 0.23315726220607758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8714903593063354,
      "epoch": 1.57,
      "learning_rate": 4.9727614276768944e-05,
      "loss": 0.5779,
      "step": 1862,
      "task_loss": 1.106894612312317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46105077862739563,
      "epoch": 1.57,
      "learning_rate": 4.972448340638698e-05,
      "loss": 0.5495,
      "step": 1863,
      "task_loss": 0.33445456624031067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6958836317062378,
      "epoch": 1.58,
      "learning_rate": 4.9721352536005014e-05,
      "loss": 0.651,
      "step": 1864,
      "task_loss": 1.3073015213012695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9411340951919556,
      "epoch": 1.58,
      "learning_rate": 4.9718221665623046e-05,
      "loss": 0.8908,
      "step": 1865,
      "task_loss": 1.8183186054229736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5974377393722534,
      "epoch": 1.58,
      "learning_rate": 4.9715090795241084e-05,
      "loss": 0.6495,
      "step": 1866,
      "task_loss": 0.40484994649887085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.649840772151947,
      "epoch": 1.58,
      "learning_rate": 4.9711959924859116e-05,
      "loss": 0.8113,
      "step": 1867,
      "task_loss": 1.0594204664230347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5160443782806396,
      "epoch": 1.58,
      "learning_rate": 4.970882905447715e-05,
      "loss": 0.6364,
      "step": 1868,
      "task_loss": 0.3267112374305725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49156510829925537,
      "epoch": 1.58,
      "learning_rate": 4.970569818409518e-05,
      "loss": 0.7124,
      "step": 1869,
      "task_loss": 0.967833399772644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5583096742630005,
      "epoch": 1.58,
      "learning_rate": 4.970256731371322e-05,
      "loss": 0.564,
      "step": 1870,
      "task_loss": 0.270713746547699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9654182195663452,
      "epoch": 1.58,
      "learning_rate": 4.969943644333125e-05,
      "loss": 0.8151,
      "step": 1871,
      "task_loss": 1.4135959148406982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6948229074478149,
      "epoch": 1.58,
      "learning_rate": 4.969630557294928e-05,
      "loss": 0.6895,
      "step": 1872,
      "task_loss": 0.5128327012062073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5274141430854797,
      "epoch": 1.58,
      "learning_rate": 4.9693174702567313e-05,
      "loss": 0.5025,
      "step": 1873,
      "task_loss": 0.6782694458961487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47294849157333374,
      "epoch": 1.58,
      "learning_rate": 4.969004383218535e-05,
      "loss": 0.6328,
      "step": 1874,
      "task_loss": 0.7425934076309204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9146326780319214,
      "epoch": 1.58,
      "learning_rate": 4.9686912961803384e-05,
      "loss": 0.746,
      "step": 1875,
      "task_loss": 0.7183727025985718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4129660725593567,
      "epoch": 1.59,
      "learning_rate": 4.9683782091421416e-05,
      "loss": 0.6906,
      "step": 1876,
      "task_loss": 0.33734527230262756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.31612256169319153,
      "epoch": 1.59,
      "learning_rate": 4.9680651221039454e-05,
      "loss": 0.5292,
      "step": 1877,
      "task_loss": 0.473185658454895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3645424246788025,
      "epoch": 1.59,
      "learning_rate": 4.9677520350657486e-05,
      "loss": 0.7389,
      "step": 1878,
      "task_loss": 0.42236536741256714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6450278162956238,
      "epoch": 1.59,
      "learning_rate": 4.967438948027552e-05,
      "loss": 0.531,
      "step": 1879,
      "task_loss": 0.502147376537323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8462682366371155,
      "epoch": 1.59,
      "learning_rate": 4.967125860989355e-05,
      "loss": 0.6969,
      "step": 1880,
      "task_loss": 1.1848641633987427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7974748015403748,
      "epoch": 1.59,
      "learning_rate": 4.966812773951159e-05,
      "loss": 0.6025,
      "step": 1881,
      "task_loss": 0.9261400103569031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5537360906600952,
      "epoch": 1.59,
      "learning_rate": 4.966499686912962e-05,
      "loss": 0.6897,
      "step": 1882,
      "task_loss": 0.1728622168302536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.611894428730011,
      "epoch": 1.59,
      "learning_rate": 4.966186599874765e-05,
      "loss": 0.6724,
      "step": 1883,
      "task_loss": 0.7432882785797119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6963502764701843,
      "epoch": 1.59,
      "learning_rate": 4.9658735128365683e-05,
      "loss": 0.7866,
      "step": 1884,
      "task_loss": 0.7535934448242188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38894689083099365,
      "epoch": 1.59,
      "learning_rate": 4.965560425798372e-05,
      "loss": 0.6377,
      "step": 1885,
      "task_loss": 0.717616081237793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38068193197250366,
      "epoch": 1.59,
      "learning_rate": 4.9652473387601754e-05,
      "loss": 0.7113,
      "step": 1886,
      "task_loss": 0.6385071277618408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6118330955505371,
      "epoch": 1.59,
      "learning_rate": 4.9649342517219786e-05,
      "loss": 0.6031,
      "step": 1887,
      "task_loss": 0.7858465313911438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7376946210861206,
      "epoch": 1.6,
      "learning_rate": 4.9646211646837824e-05,
      "loss": 0.7976,
      "step": 1888,
      "task_loss": 1.4276291131973267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7895321249961853,
      "epoch": 1.6,
      "learning_rate": 4.9643080776455856e-05,
      "loss": 0.6158,
      "step": 1889,
      "task_loss": 0.6673716902732849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6097396016120911,
      "epoch": 1.6,
      "learning_rate": 4.963994990607389e-05,
      "loss": 0.832,
      "step": 1890,
      "task_loss": 1.9537951946258545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6436938047409058,
      "epoch": 1.6,
      "learning_rate": 4.963681903569192e-05,
      "loss": 0.6908,
      "step": 1891,
      "task_loss": 0.9204204082489014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5961222052574158,
      "epoch": 1.6,
      "learning_rate": 4.963368816530996e-05,
      "loss": 0.483,
      "step": 1892,
      "task_loss": 0.24744339287281036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7518224716186523,
      "epoch": 1.6,
      "learning_rate": 4.963055729492799e-05,
      "loss": 0.7209,
      "step": 1893,
      "task_loss": 1.5790899991989136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5728371143341064,
      "epoch": 1.6,
      "learning_rate": 4.962742642454603e-05,
      "loss": 0.6284,
      "step": 1894,
      "task_loss": 0.5015727281570435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6766525506973267,
      "epoch": 1.6,
      "learning_rate": 4.962429555416406e-05,
      "loss": 0.5945,
      "step": 1895,
      "task_loss": 1.5083414316177368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7807190418243408,
      "epoch": 1.6,
      "learning_rate": 4.96211646837821e-05,
      "loss": 0.6959,
      "step": 1896,
      "task_loss": 1.3658125400543213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7218337059020996,
      "epoch": 1.6,
      "learning_rate": 4.961803381340013e-05,
      "loss": 0.6599,
      "step": 1897,
      "task_loss": 1.0971128940582275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.33474114537239075,
      "epoch": 1.6,
      "learning_rate": 4.961490294301816e-05,
      "loss": 0.4758,
      "step": 1898,
      "task_loss": 0.27137675881385803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.444968581199646,
      "epoch": 1.6,
      "learning_rate": 4.96117720726362e-05,
      "loss": 0.556,
      "step": 1899,
      "task_loss": 0.6097999215126038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6328514218330383,
      "epoch": 1.61,
      "learning_rate": 4.960864120225423e-05,
      "loss": 0.5153,
      "step": 1900,
      "task_loss": 0.6395464539527893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6463197469711304,
      "epoch": 1.61,
      "learning_rate": 4.9605510331872264e-05,
      "loss": 0.6608,
      "step": 1901,
      "task_loss": 1.0098474025726318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3754156827926636,
      "epoch": 1.61,
      "learning_rate": 4.9602379461490296e-05,
      "loss": 0.6518,
      "step": 1902,
      "task_loss": 0.1963372528553009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.431393027305603,
      "epoch": 1.61,
      "learning_rate": 4.9599248591108335e-05,
      "loss": 0.7657,
      "step": 1903,
      "task_loss": 0.7314988374710083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49419891834259033,
      "epoch": 1.61,
      "learning_rate": 4.9596117720726366e-05,
      "loss": 0.5716,
      "step": 1904,
      "task_loss": 0.8949008584022522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4104131758213043,
      "epoch": 1.61,
      "learning_rate": 4.95929868503444e-05,
      "loss": 0.7443,
      "step": 1905,
      "task_loss": 0.7403879165649414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.69712233543396,
      "epoch": 1.61,
      "learning_rate": 4.958985597996243e-05,
      "loss": 0.5786,
      "step": 1906,
      "task_loss": 1.1130852699279785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1562131643295288,
      "epoch": 1.61,
      "learning_rate": 4.958672510958047e-05,
      "loss": 0.8875,
      "step": 1907,
      "task_loss": 0.9969403743743896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8369267582893372,
      "epoch": 1.61,
      "learning_rate": 4.95835942391985e-05,
      "loss": 0.7038,
      "step": 1908,
      "task_loss": 0.8778485655784607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6184611320495605,
      "epoch": 1.61,
      "learning_rate": 4.958046336881653e-05,
      "loss": 0.8991,
      "step": 1909,
      "task_loss": 0.49932044744491577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42341554164886475,
      "epoch": 1.61,
      "learning_rate": 4.957733249843457e-05,
      "loss": 0.6186,
      "step": 1910,
      "task_loss": 1.1440263986587524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245881080627441,
      "epoch": 1.61,
      "learning_rate": 4.95742016280526e-05,
      "loss": 0.4534,
      "step": 1911,
      "task_loss": 1.2103773355484009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7973243594169617,
      "epoch": 1.62,
      "learning_rate": 4.9571070757670634e-05,
      "loss": 0.7673,
      "step": 1912,
      "task_loss": 1.1234196424484253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6281956434249878,
      "epoch": 1.62,
      "learning_rate": 4.9567939887288666e-05,
      "loss": 0.76,
      "step": 1913,
      "task_loss": 0.7964915037155151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6769474744796753,
      "epoch": 1.62,
      "learning_rate": 4.9564809016906705e-05,
      "loss": 0.6881,
      "step": 1914,
      "task_loss": 0.5975040197372437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5171736478805542,
      "epoch": 1.62,
      "learning_rate": 4.9561678146524736e-05,
      "loss": 0.5682,
      "step": 1915,
      "task_loss": 0.8132036328315735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3539310097694397,
      "epoch": 1.62,
      "learning_rate": 4.955854727614277e-05,
      "loss": 0.6061,
      "step": 1916,
      "task_loss": 0.938351571559906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43796542286872864,
      "epoch": 1.62,
      "learning_rate": 4.95554164057608e-05,
      "loss": 0.4974,
      "step": 1917,
      "task_loss": 0.45349541306495667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6885635256767273,
      "epoch": 1.62,
      "learning_rate": 4.955228553537884e-05,
      "loss": 0.6672,
      "step": 1918,
      "task_loss": 0.7289242744445801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5212783217430115,
      "epoch": 1.62,
      "learning_rate": 4.954915466499687e-05,
      "loss": 0.6399,
      "step": 1919,
      "task_loss": 0.5375036597251892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.954554557800293,
      "epoch": 1.62,
      "learning_rate": 4.95460237946149e-05,
      "loss": 0.7478,
      "step": 1920,
      "task_loss": 0.8465198874473572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8649784326553345,
      "epoch": 1.62,
      "learning_rate": 4.9542892924232934e-05,
      "loss": 0.7012,
      "step": 1921,
      "task_loss": 2.0679683685302734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5553555488586426,
      "epoch": 1.62,
      "learning_rate": 4.953976205385097e-05,
      "loss": 0.6321,
      "step": 1922,
      "task_loss": 0.8277266025543213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38108664751052856,
      "epoch": 1.63,
      "learning_rate": 4.9536631183469004e-05,
      "loss": 0.6543,
      "step": 1923,
      "task_loss": 0.2204054743051529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6473585963249207,
      "epoch": 1.63,
      "learning_rate": 4.9533500313087036e-05,
      "loss": 0.4589,
      "step": 1924,
      "task_loss": 0.8858429193496704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503647923469543,
      "epoch": 1.63,
      "learning_rate": 4.9530369442705075e-05,
      "loss": 0.6157,
      "step": 1925,
      "task_loss": 1.1575253009796143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6086478233337402,
      "epoch": 1.63,
      "learning_rate": 4.9527238572323106e-05,
      "loss": 0.5778,
      "step": 1926,
      "task_loss": 0.7648385167121887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.35494664311408997,
      "epoch": 1.63,
      "learning_rate": 4.9524107701941145e-05,
      "loss": 0.525,
      "step": 1927,
      "task_loss": 0.44571173191070557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6289347410202026,
      "epoch": 1.63,
      "learning_rate": 4.952097683155918e-05,
      "loss": 0.6942,
      "step": 1928,
      "task_loss": 2.0364298820495605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7279799580574036,
      "epoch": 1.63,
      "learning_rate": 4.951784596117721e-05,
      "loss": 0.7336,
      "step": 1929,
      "task_loss": 0.38676583766937256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7602465152740479,
      "epoch": 1.63,
      "learning_rate": 4.951471509079525e-05,
      "loss": 0.7469,
      "step": 1930,
      "task_loss": 0.5870030522346497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6314072608947754,
      "epoch": 1.63,
      "learning_rate": 4.951158422041328e-05,
      "loss": 0.7256,
      "step": 1931,
      "task_loss": 2.087371349334717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7365673780441284,
      "epoch": 1.63,
      "learning_rate": 4.950845335003131e-05,
      "loss": 0.6645,
      "step": 1932,
      "task_loss": 0.5904118418693542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6646330952644348,
      "epoch": 1.63,
      "learning_rate": 4.950532247964935e-05,
      "loss": 0.615,
      "step": 1933,
      "task_loss": 1.0293835401535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41148483753204346,
      "epoch": 1.63,
      "learning_rate": 4.950219160926738e-05,
      "loss": 0.6611,
      "step": 1934,
      "task_loss": 0.23426881432533264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47328197956085205,
      "epoch": 1.64,
      "learning_rate": 4.949906073888541e-05,
      "loss": 0.6199,
      "step": 1935,
      "task_loss": 1.0920230150222778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6245715618133545,
      "epoch": 1.64,
      "learning_rate": 4.949592986850345e-05,
      "loss": 0.5839,
      "step": 1936,
      "task_loss": 0.3793618977069855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5313767194747925,
      "epoch": 1.64,
      "learning_rate": 4.949279899812148e-05,
      "loss": 0.5664,
      "step": 1937,
      "task_loss": 0.4905346930027008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40442922711372375,
      "epoch": 1.64,
      "learning_rate": 4.9489668127739515e-05,
      "loss": 0.6156,
      "step": 1938,
      "task_loss": 0.7184382081031799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0248744487762451,
      "epoch": 1.64,
      "learning_rate": 4.9486537257357547e-05,
      "loss": 0.7475,
      "step": 1939,
      "task_loss": 1.445002555847168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49010708928108215,
      "epoch": 1.64,
      "learning_rate": 4.9483406386975585e-05,
      "loss": 0.5469,
      "step": 1940,
      "task_loss": 0.7649798393249512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40869268774986267,
      "epoch": 1.64,
      "learning_rate": 4.948027551659362e-05,
      "loss": 0.5429,
      "step": 1941,
      "task_loss": 0.6507436633110046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5798522233963013,
      "epoch": 1.64,
      "learning_rate": 4.947714464621165e-05,
      "loss": 0.6123,
      "step": 1942,
      "task_loss": 0.7554382681846619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164743661880493,
      "epoch": 1.64,
      "learning_rate": 4.947401377582968e-05,
      "loss": 0.7167,
      "step": 1943,
      "task_loss": 0.7159159779548645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6421444416046143,
      "epoch": 1.64,
      "learning_rate": 4.947088290544772e-05,
      "loss": 0.5765,
      "step": 1944,
      "task_loss": 1.0378459692001343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49714013934135437,
      "epoch": 1.64,
      "learning_rate": 4.946775203506575e-05,
      "loss": 0.7207,
      "step": 1945,
      "task_loss": 0.6052864193916321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6423880457878113,
      "epoch": 1.64,
      "learning_rate": 4.946462116468378e-05,
      "loss": 0.6891,
      "step": 1946,
      "task_loss": 1.6096755266189575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4944945275783539,
      "epoch": 1.65,
      "learning_rate": 4.946149029430182e-05,
      "loss": 0.5347,
      "step": 1947,
      "task_loss": 0.4242657423019409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8928776383399963,
      "epoch": 1.65,
      "learning_rate": 4.945835942391985e-05,
      "loss": 0.9216,
      "step": 1948,
      "task_loss": 1.4361083507537842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9358099699020386,
      "epoch": 1.65,
      "learning_rate": 4.9455228553537885e-05,
      "loss": 0.6402,
      "step": 1949,
      "task_loss": 1.248407006263733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4649122357368469,
      "epoch": 1.65,
      "learning_rate": 4.9452097683155916e-05,
      "loss": 0.675,
      "step": 1950,
      "task_loss": 0.577364981174469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3630506992340088,
      "epoch": 1.65,
      "learning_rate": 4.9448966812773955e-05,
      "loss": 0.6125,
      "step": 1951,
      "task_loss": 1.114147663116455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5133869647979736,
      "epoch": 1.65,
      "learning_rate": 4.944583594239199e-05,
      "loss": 0.5935,
      "step": 1952,
      "task_loss": 0.3679982125759125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7500715255737305,
      "epoch": 1.65,
      "learning_rate": 4.944270507201002e-05,
      "loss": 0.6887,
      "step": 1953,
      "task_loss": 0.543660044670105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8992449641227722,
      "epoch": 1.65,
      "learning_rate": 4.943957420162805e-05,
      "loss": 0.7484,
      "step": 1954,
      "task_loss": 0.832017183303833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5735136866569519,
      "epoch": 1.65,
      "learning_rate": 4.943644333124609e-05,
      "loss": 0.7995,
      "step": 1955,
      "task_loss": 1.1599526405334473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6302834749221802,
      "epoch": 1.65,
      "learning_rate": 4.943331246086412e-05,
      "loss": 0.6661,
      "step": 1956,
      "task_loss": 0.3010315001010895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6885948181152344,
      "epoch": 1.65,
      "learning_rate": 4.943018159048215e-05,
      "loss": 0.6881,
      "step": 1957,
      "task_loss": 0.7518966794013977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.755750298500061,
      "epoch": 1.65,
      "learning_rate": 4.9427050720100184e-05,
      "loss": 0.7154,
      "step": 1958,
      "task_loss": 0.6935897469520569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.36743319034576416,
      "epoch": 1.66,
      "learning_rate": 4.942391984971822e-05,
      "loss": 0.5368,
      "step": 1959,
      "task_loss": 0.5644461512565613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7725592255592346,
      "epoch": 1.66,
      "learning_rate": 4.9420788979336255e-05,
      "loss": 0.6846,
      "step": 1960,
      "task_loss": 0.41620486974716187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.39005398750305176,
      "epoch": 1.66,
      "learning_rate": 4.941765810895429e-05,
      "loss": 0.4699,
      "step": 1961,
      "task_loss": 0.5392753481864929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48912060260772705,
      "epoch": 1.66,
      "learning_rate": 4.9414527238572325e-05,
      "loss": 0.5679,
      "step": 1962,
      "task_loss": 0.20118527114391327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7551258206367493,
      "epoch": 1.66,
      "learning_rate": 4.9411396368190364e-05,
      "loss": 0.5452,
      "step": 1963,
      "task_loss": 0.14876854419708252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7719982266426086,
      "epoch": 1.66,
      "learning_rate": 4.9408265497808395e-05,
      "loss": 0.7333,
      "step": 1964,
      "task_loss": 0.9910011291503906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6281237602233887,
      "epoch": 1.66,
      "learning_rate": 4.940513462742643e-05,
      "loss": 0.4845,
      "step": 1965,
      "task_loss": 0.7331114411354065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.723662257194519,
      "epoch": 1.66,
      "learning_rate": 4.9402003757044466e-05,
      "loss": 0.7275,
      "step": 1966,
      "task_loss": 1.0949897766113281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7545567750930786,
      "epoch": 1.66,
      "learning_rate": 4.93988728866625e-05,
      "loss": 0.5968,
      "step": 1967,
      "task_loss": 1.1954057216644287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4971545338630676,
      "epoch": 1.66,
      "learning_rate": 4.939574201628053e-05,
      "loss": 0.5143,
      "step": 1968,
      "task_loss": 0.9052865505218506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6326043009757996,
      "epoch": 1.66,
      "learning_rate": 4.939261114589856e-05,
      "loss": 0.4374,
      "step": 1969,
      "task_loss": 0.5534011721611023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4748438894748688,
      "epoch": 1.66,
      "learning_rate": 4.93894802755166e-05,
      "loss": 0.6876,
      "step": 1970,
      "task_loss": 0.4051666855812073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3269922733306885,
      "epoch": 1.67,
      "learning_rate": 4.938634940513463e-05,
      "loss": 0.5996,
      "step": 1971,
      "task_loss": 1.2984964847564697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4338199198246002,
      "epoch": 1.67,
      "learning_rate": 4.938321853475266e-05,
      "loss": 0.4849,
      "step": 1972,
      "task_loss": 0.7718173861503601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7763398885726929,
      "epoch": 1.67,
      "learning_rate": 4.93800876643707e-05,
      "loss": 0.6696,
      "step": 1973,
      "task_loss": 0.9196620583534241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8411092758178711,
      "epoch": 1.67,
      "learning_rate": 4.9376956793988733e-05,
      "loss": 0.7312,
      "step": 1974,
      "task_loss": 1.2120000123977661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9371830224990845,
      "epoch": 1.67,
      "learning_rate": 4.9373825923606765e-05,
      "loss": 0.5641,
      "step": 1975,
      "task_loss": 1.0051378011703491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5774310231208801,
      "epoch": 1.67,
      "learning_rate": 4.93706950532248e-05,
      "loss": 0.68,
      "step": 1976,
      "task_loss": 1.1707119941711426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6136159896850586,
      "epoch": 1.67,
      "learning_rate": 4.9367564182842836e-05,
      "loss": 0.6724,
      "step": 1977,
      "task_loss": 1.3529040813446045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4807935953140259,
      "epoch": 1.67,
      "learning_rate": 4.936443331246087e-05,
      "loss": 0.7414,
      "step": 1978,
      "task_loss": 0.992839515209198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6059003472328186,
      "epoch": 1.67,
      "learning_rate": 4.93613024420789e-05,
      "loss": 0.5897,
      "step": 1979,
      "task_loss": 1.304392695426941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41444510221481323,
      "epoch": 1.67,
      "learning_rate": 4.935817157169693e-05,
      "loss": 0.5583,
      "step": 1980,
      "task_loss": 0.3821897804737091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5459423065185547,
      "epoch": 1.67,
      "learning_rate": 4.935504070131497e-05,
      "loss": 0.5173,
      "step": 1981,
      "task_loss": 0.7471437454223633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47253596782684326,
      "epoch": 1.67,
      "learning_rate": 4.9351909830933e-05,
      "loss": 0.4923,
      "step": 1982,
      "task_loss": 1.1227154731750488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3687297999858856,
      "epoch": 1.68,
      "learning_rate": 4.934877896055103e-05,
      "loss": 0.5459,
      "step": 1983,
      "task_loss": 0.5791575908660889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7077852487564087,
      "epoch": 1.68,
      "learning_rate": 4.934564809016907e-05,
      "loss": 0.6304,
      "step": 1984,
      "task_loss": 0.5971851348876953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5832208395004272,
      "epoch": 1.68,
      "learning_rate": 4.93425172197871e-05,
      "loss": 0.6258,
      "step": 1985,
      "task_loss": 0.4751685857772827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3852139413356781,
      "epoch": 1.68,
      "learning_rate": 4.9339386349405135e-05,
      "loss": 0.5782,
      "step": 1986,
      "task_loss": 0.7024917602539062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7285100221633911,
      "epoch": 1.68,
      "learning_rate": 4.933625547902317e-05,
      "loss": 0.7267,
      "step": 1987,
      "task_loss": 1.963628888130188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6865188479423523,
      "epoch": 1.68,
      "learning_rate": 4.9333124608641205e-05,
      "loss": 0.7319,
      "step": 1988,
      "task_loss": 1.2825442552566528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1501373052597046,
      "epoch": 1.68,
      "learning_rate": 4.932999373825924e-05,
      "loss": 0.6868,
      "step": 1989,
      "task_loss": 1.0284918546676636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8097833395004272,
      "epoch": 1.68,
      "learning_rate": 4.932686286787727e-05,
      "loss": 0.6955,
      "step": 1990,
      "task_loss": 0.964862048625946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.30223289132118225,
      "epoch": 1.68,
      "learning_rate": 4.93237319974953e-05,
      "loss": 0.4465,
      "step": 1991,
      "task_loss": 0.667451024055481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.550812840461731,
      "epoch": 1.68,
      "learning_rate": 4.932060112711334e-05,
      "loss": 0.505,
      "step": 1992,
      "task_loss": 0.5724264979362488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3076070547103882,
      "epoch": 1.68,
      "learning_rate": 4.931747025673137e-05,
      "loss": 0.5195,
      "step": 1993,
      "task_loss": 0.7102048993110657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4364529848098755,
      "epoch": 1.69,
      "learning_rate": 4.93143393863494e-05,
      "loss": 0.4866,
      "step": 1994,
      "task_loss": 0.9032068252563477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7616747617721558,
      "epoch": 1.69,
      "learning_rate": 4.931120851596744e-05,
      "loss": 0.5937,
      "step": 1995,
      "task_loss": 0.4781607985496521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48160672187805176,
      "epoch": 1.69,
      "learning_rate": 4.930807764558547e-05,
      "loss": 0.5314,
      "step": 1996,
      "task_loss": 0.5243744850158691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.506239116191864,
      "epoch": 1.69,
      "learning_rate": 4.930494677520351e-05,
      "loss": 0.6673,
      "step": 1997,
      "task_loss": 0.7698559761047363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1524841785430908,
      "epoch": 1.69,
      "learning_rate": 4.9301815904821544e-05,
      "loss": 0.71,
      "step": 1998,
      "task_loss": 1.2391326427459717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.36105772852897644,
      "epoch": 1.69,
      "learning_rate": 4.929868503443958e-05,
      "loss": 0.4396,
      "step": 1999,
      "task_loss": 0.4166907072067261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4137156009674072,
      "epoch": 1.69,
      "learning_rate": 4.9295554164057614e-05,
      "loss": 0.5777,
      "step": 2000,
      "task_loss": 0.1113438829779625
    },
    {
      "epoch": 1.69,
      "eval_accuracy": 0.9006336633663367,
      "eval_loss": 0.36640891432762146,
      "eval_runtime": 208.1301,
      "eval_samples_per_second": 121.318,
      "eval_steps_per_second": 0.951,
      "step": 2000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7018259763717651,
      "epoch": 1.69,
      "learning_rate": 4.9292423293675646e-05,
      "loss": 0.5719,
      "step": 2001,
      "task_loss": 0.2629460096359253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5679777264595032,
      "epoch": 1.69,
      "learning_rate": 4.928929242329368e-05,
      "loss": 0.579,
      "step": 2002,
      "task_loss": 0.3460458815097809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43855440616607666,
      "epoch": 1.69,
      "learning_rate": 4.9286161552911716e-05,
      "loss": 0.6825,
      "step": 2003,
      "task_loss": 0.930694580078125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7002033591270447,
      "epoch": 1.69,
      "learning_rate": 4.928303068252975e-05,
      "loss": 0.5247,
      "step": 2004,
      "task_loss": 0.5329486727714539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.646618664264679,
      "epoch": 1.69,
      "learning_rate": 4.927989981214778e-05,
      "loss": 0.6485,
      "step": 2005,
      "task_loss": 0.4069245159626007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0145593881607056,
      "epoch": 1.7,
      "learning_rate": 4.927676894176581e-05,
      "loss": 0.882,
      "step": 2006,
      "task_loss": 2.492241859436035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42476505041122437,
      "epoch": 1.7,
      "learning_rate": 4.927363807138385e-05,
      "loss": 0.5209,
      "step": 2007,
      "task_loss": 0.13505129516124725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1062614917755127,
      "epoch": 1.7,
      "learning_rate": 4.927050720100188e-05,
      "loss": 0.6577,
      "step": 2008,
      "task_loss": 1.6635442972183228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7027348279953003,
      "epoch": 1.7,
      "learning_rate": 4.9267376330619914e-05,
      "loss": 0.6095,
      "step": 2009,
      "task_loss": 0.3977372348308563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3768814206123352,
      "epoch": 1.7,
      "learning_rate": 4.926424546023795e-05,
      "loss": 0.713,
      "step": 2010,
      "task_loss": 1.0592989921569824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463868975639343,
      "epoch": 1.7,
      "learning_rate": 4.9261114589855984e-05,
      "loss": 0.6438,
      "step": 2011,
      "task_loss": 0.650419294834137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42588698863983154,
      "epoch": 1.7,
      "learning_rate": 4.9257983719474016e-05,
      "loss": 0.4957,
      "step": 2012,
      "task_loss": 0.4630742073059082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.685448169708252,
      "epoch": 1.7,
      "learning_rate": 4.925485284909205e-05,
      "loss": 0.5833,
      "step": 2013,
      "task_loss": 1.310046911239624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.39456626772880554,
      "epoch": 1.7,
      "learning_rate": 4.9251721978710086e-05,
      "loss": 0.4542,
      "step": 2014,
      "task_loss": 0.47526127099990845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7558485269546509,
      "epoch": 1.7,
      "learning_rate": 4.924859110832812e-05,
      "loss": 0.6641,
      "step": 2015,
      "task_loss": 0.5466424226760864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5756458640098572,
      "epoch": 1.7,
      "learning_rate": 4.924546023794615e-05,
      "loss": 0.6041,
      "step": 2016,
      "task_loss": 0.9603175520896912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.722676694393158,
      "epoch": 1.7,
      "learning_rate": 4.924232936756418e-05,
      "loss": 0.742,
      "step": 2017,
      "task_loss": 2.0924301147460938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.691618800163269,
      "epoch": 1.71,
      "learning_rate": 4.923919849718222e-05,
      "loss": 0.5845,
      "step": 2018,
      "task_loss": 1.0205845832824707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4835856258869171,
      "epoch": 1.71,
      "learning_rate": 4.923606762680025e-05,
      "loss": 0.5819,
      "step": 2019,
      "task_loss": 0.638346791267395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5968512296676636,
      "epoch": 1.71,
      "learning_rate": 4.9232936756418283e-05,
      "loss": 0.6626,
      "step": 2020,
      "task_loss": 0.9660597443580627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.50050950050354,
      "epoch": 1.71,
      "learning_rate": 4.922980588603632e-05,
      "loss": 0.688,
      "step": 2021,
      "task_loss": 0.673224687576294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.89590984582901,
      "epoch": 1.71,
      "learning_rate": 4.9226675015654354e-05,
      "loss": 0.6938,
      "step": 2022,
      "task_loss": 0.36511263251304626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4525848627090454,
      "epoch": 1.71,
      "learning_rate": 4.9223544145272386e-05,
      "loss": 0.4711,
      "step": 2023,
      "task_loss": 2.65280818939209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5653413534164429,
      "epoch": 1.71,
      "learning_rate": 4.922041327489042e-05,
      "loss": 0.6813,
      "step": 2024,
      "task_loss": 0.7345885634422302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.580802321434021,
      "epoch": 1.71,
      "learning_rate": 4.9217282404508456e-05,
      "loss": 0.778,
      "step": 2025,
      "task_loss": 1.44764244556427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4792664051055908,
      "epoch": 1.71,
      "learning_rate": 4.921415153412649e-05,
      "loss": 0.4886,
      "step": 2026,
      "task_loss": 0.6550425887107849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6716933250427246,
      "epoch": 1.71,
      "learning_rate": 4.921102066374452e-05,
      "loss": 0.6739,
      "step": 2027,
      "task_loss": 1.2890682220458984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45043429732322693,
      "epoch": 1.71,
      "learning_rate": 4.920788979336256e-05,
      "loss": 0.5488,
      "step": 2028,
      "task_loss": 0.41126132011413574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.577710747718811,
      "epoch": 1.71,
      "learning_rate": 4.920475892298059e-05,
      "loss": 0.6201,
      "step": 2029,
      "task_loss": 0.4359762966632843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48747503757476807,
      "epoch": 1.72,
      "learning_rate": 4.920162805259863e-05,
      "loss": 0.6496,
      "step": 2030,
      "task_loss": 0.7561209201812744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8348122835159302,
      "epoch": 1.72,
      "learning_rate": 4.919849718221666e-05,
      "loss": 0.7238,
      "step": 2031,
      "task_loss": 0.9416124224662781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4957389831542969,
      "epoch": 1.72,
      "learning_rate": 4.919536631183469e-05,
      "loss": 0.5096,
      "step": 2032,
      "task_loss": 0.297063946723938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4176046848297119,
      "epoch": 1.72,
      "learning_rate": 4.919223544145273e-05,
      "loss": 0.4662,
      "step": 2033,
      "task_loss": 1.4843019247055054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48003995418548584,
      "epoch": 1.72,
      "learning_rate": 4.918910457107076e-05,
      "loss": 0.623,
      "step": 2034,
      "task_loss": 0.7919873595237732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.557610034942627,
      "epoch": 1.72,
      "learning_rate": 4.9185973700688794e-05,
      "loss": 0.5895,
      "step": 2035,
      "task_loss": 0.7549609541893005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7372152805328369,
      "epoch": 1.72,
      "learning_rate": 4.918284283030683e-05,
      "loss": 0.7089,
      "step": 2036,
      "task_loss": 1.0130817890167236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6063181161880493,
      "epoch": 1.72,
      "learning_rate": 4.9179711959924864e-05,
      "loss": 0.6167,
      "step": 2037,
      "task_loss": 1.4348359107971191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8438919186592102,
      "epoch": 1.72,
      "learning_rate": 4.9176581089542896e-05,
      "loss": 0.5514,
      "step": 2038,
      "task_loss": 0.9761325120925903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5961563587188721,
      "epoch": 1.72,
      "learning_rate": 4.917345021916093e-05,
      "loss": 0.6892,
      "step": 2039,
      "task_loss": 0.5040318369865417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6199002265930176,
      "epoch": 1.72,
      "learning_rate": 4.9170319348778967e-05,
      "loss": 0.6097,
      "step": 2040,
      "task_loss": 1.1280938386917114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5494731068611145,
      "epoch": 1.72,
      "learning_rate": 4.9167188478397e-05,
      "loss": 0.5492,
      "step": 2041,
      "task_loss": 0.7358270883560181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7027154564857483,
      "epoch": 1.73,
      "learning_rate": 4.916405760801503e-05,
      "loss": 0.7005,
      "step": 2042,
      "task_loss": 0.47275885939598083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4182558059692383,
      "epoch": 1.73,
      "learning_rate": 4.916092673763306e-05,
      "loss": 0.4456,
      "step": 2043,
      "task_loss": 0.9683384895324707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34182876348495483,
      "epoch": 1.73,
      "learning_rate": 4.91577958672511e-05,
      "loss": 0.6713,
      "step": 2044,
      "task_loss": 0.5590824484825134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34680500626564026,
      "epoch": 1.73,
      "learning_rate": 4.915466499686913e-05,
      "loss": 0.5232,
      "step": 2045,
      "task_loss": 1.5110278129577637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2685874104499817,
      "epoch": 1.73,
      "learning_rate": 4.9151534126487164e-05,
      "loss": 0.5065,
      "step": 2046,
      "task_loss": 0.3219241797924042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4738891124725342,
      "epoch": 1.73,
      "learning_rate": 4.91484032561052e-05,
      "loss": 0.6959,
      "step": 2047,
      "task_loss": 1.094277024269104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34121495485305786,
      "epoch": 1.73,
      "learning_rate": 4.9145272385723234e-05,
      "loss": 0.5441,
      "step": 2048,
      "task_loss": 0.4475323259830475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5802171230316162,
      "epoch": 1.73,
      "learning_rate": 4.9142141515341266e-05,
      "loss": 0.5542,
      "step": 2049,
      "task_loss": 1.0223356485366821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6329468488693237,
      "epoch": 1.73,
      "learning_rate": 4.91390106449593e-05,
      "loss": 0.7662,
      "step": 2050,
      "task_loss": 0.5947673916816711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4295281767845154,
      "epoch": 1.73,
      "learning_rate": 4.9135879774577336e-05,
      "loss": 0.6475,
      "step": 2051,
      "task_loss": 0.310517281293869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38155925273895264,
      "epoch": 1.73,
      "learning_rate": 4.913274890419537e-05,
      "loss": 0.615,
      "step": 2052,
      "task_loss": 0.8374943733215332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5222368836402893,
      "epoch": 1.73,
      "learning_rate": 4.91296180338134e-05,
      "loss": 0.4413,
      "step": 2053,
      "task_loss": 0.7955223321914673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3367731273174286,
      "epoch": 1.74,
      "learning_rate": 4.912648716343143e-05,
      "loss": 0.5884,
      "step": 2054,
      "task_loss": 0.20172403752803802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7912696599960327,
      "epoch": 1.74,
      "learning_rate": 4.912335629304947e-05,
      "loss": 0.5577,
      "step": 2055,
      "task_loss": 1.4537066221237183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6863619685173035,
      "epoch": 1.74,
      "learning_rate": 4.91202254226675e-05,
      "loss": 0.6425,
      "step": 2056,
      "task_loss": 0.688111424446106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5390403866767883,
      "epoch": 1.74,
      "learning_rate": 4.9117094552285534e-05,
      "loss": 0.6213,
      "step": 2057,
      "task_loss": 1.159805178642273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281963348388672,
      "epoch": 1.74,
      "learning_rate": 4.911396368190357e-05,
      "loss": 0.4335,
      "step": 2058,
      "task_loss": 0.9060367345809937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5215946435928345,
      "epoch": 1.74,
      "learning_rate": 4.9110832811521604e-05,
      "loss": 0.4732,
      "step": 2059,
      "task_loss": 1.5111451148986816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42220818996429443,
      "epoch": 1.74,
      "learning_rate": 4.9107701941139636e-05,
      "loss": 0.5739,
      "step": 2060,
      "task_loss": 0.1371811330318451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3609325885772705,
      "epoch": 1.74,
      "learning_rate": 4.910457107075767e-05,
      "loss": 0.5775,
      "step": 2061,
      "task_loss": 0.060314346104860306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6961934566497803,
      "epoch": 1.74,
      "learning_rate": 4.9101440200375706e-05,
      "loss": 0.5225,
      "step": 2062,
      "task_loss": 0.9735041856765747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.27555352449417114,
      "epoch": 1.74,
      "learning_rate": 4.909830932999374e-05,
      "loss": 0.3439,
      "step": 2063,
      "task_loss": 0.03225020319223404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5072891712188721,
      "epoch": 1.74,
      "learning_rate": 4.909517845961178e-05,
      "loss": 0.4552,
      "step": 2064,
      "task_loss": 1.0870237350463867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.707290768623352,
      "epoch": 1.75,
      "learning_rate": 4.909204758922981e-05,
      "loss": 0.5853,
      "step": 2065,
      "task_loss": 0.6081264019012451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.4060214757919312,
      "epoch": 1.75,
      "learning_rate": 4.908891671884785e-05,
      "loss": 1.1267,
      "step": 2066,
      "task_loss": 1.127398133277893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8365243673324585,
      "epoch": 1.75,
      "learning_rate": 4.908578584846588e-05,
      "loss": 0.6841,
      "step": 2067,
      "task_loss": 1.1914780139923096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.1417372226715088,
      "epoch": 1.75,
      "learning_rate": 4.908265497808391e-05,
      "loss": 0.8157,
      "step": 2068,
      "task_loss": 0.6716783046722412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4661165177822113,
      "epoch": 1.75,
      "learning_rate": 4.907952410770194e-05,
      "loss": 0.5928,
      "step": 2069,
      "task_loss": 0.8545433878898621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48185107111930847,
      "epoch": 1.75,
      "learning_rate": 4.907639323731998e-05,
      "loss": 0.6948,
      "step": 2070,
      "task_loss": 0.05954224616289139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4463898837566376,
      "epoch": 1.75,
      "learning_rate": 4.907326236693801e-05,
      "loss": 0.5184,
      "step": 2071,
      "task_loss": 0.23890015482902527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7773299813270569,
      "epoch": 1.75,
      "learning_rate": 4.9070131496556045e-05,
      "loss": 0.7219,
      "step": 2072,
      "task_loss": 0.23574751615524292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5636759996414185,
      "epoch": 1.75,
      "learning_rate": 4.906700062617408e-05,
      "loss": 0.7084,
      "step": 2073,
      "task_loss": 0.4014042615890503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4411720633506775,
      "epoch": 1.75,
      "learning_rate": 4.9063869755792115e-05,
      "loss": 0.521,
      "step": 2074,
      "task_loss": 0.5234248638153076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4884949028491974,
      "epoch": 1.75,
      "learning_rate": 4.906073888541015e-05,
      "loss": 0.5953,
      "step": 2075,
      "task_loss": 0.9362673759460449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4500921368598938,
      "epoch": 1.75,
      "learning_rate": 4.905760801502818e-05,
      "loss": 0.4188,
      "step": 2076,
      "task_loss": 0.3185476064682007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5606488585472107,
      "epoch": 1.76,
      "learning_rate": 4.905447714464622e-05,
      "loss": 0.5489,
      "step": 2077,
      "task_loss": 0.14564985036849976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4630191922187805,
      "epoch": 1.76,
      "learning_rate": 4.905134627426425e-05,
      "loss": 0.5245,
      "step": 2078,
      "task_loss": 0.577075183391571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3914957046508789,
      "epoch": 1.76,
      "learning_rate": 4.904821540388228e-05,
      "loss": 0.586,
      "step": 2079,
      "task_loss": 0.21617145836353302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4646104574203491,
      "epoch": 1.76,
      "learning_rate": 4.904508453350031e-05,
      "loss": 0.6525,
      "step": 2080,
      "task_loss": 0.9521306753158569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5909013748168945,
      "epoch": 1.76,
      "learning_rate": 4.904195366311835e-05,
      "loss": 0.7381,
      "step": 2081,
      "task_loss": 0.7526659369468689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8249051570892334,
      "epoch": 1.76,
      "learning_rate": 4.903882279273638e-05,
      "loss": 0.7484,
      "step": 2082,
      "task_loss": 0.7452606558799744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.596991777420044,
      "epoch": 1.76,
      "learning_rate": 4.9035691922354414e-05,
      "loss": 0.517,
      "step": 2083,
      "task_loss": 2.459826707839966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3626992106437683,
      "epoch": 1.76,
      "learning_rate": 4.903256105197245e-05,
      "loss": 0.4604,
      "step": 2084,
      "task_loss": 0.11691419780254364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41758930683135986,
      "epoch": 1.76,
      "learning_rate": 4.9029430181590485e-05,
      "loss": 0.5549,
      "step": 2085,
      "task_loss": 2.065662145614624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3848503828048706,
      "epoch": 1.76,
      "learning_rate": 4.9026299311208517e-05,
      "loss": 0.4655,
      "step": 2086,
      "task_loss": 0.5120450854301453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2197413444519043,
      "epoch": 1.76,
      "learning_rate": 4.902316844082655e-05,
      "loss": 0.4522,
      "step": 2087,
      "task_loss": 0.30466586351394653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7243236899375916,
      "epoch": 1.76,
      "learning_rate": 4.902003757044459e-05,
      "loss": 0.5933,
      "step": 2088,
      "task_loss": 0.3135186731815338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41405266523361206,
      "epoch": 1.77,
      "learning_rate": 4.901690670006262e-05,
      "loss": 0.5895,
      "step": 2089,
      "task_loss": 1.3180618286132812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5005056262016296,
      "epoch": 1.77,
      "learning_rate": 4.901377582968065e-05,
      "loss": 0.6134,
      "step": 2090,
      "task_loss": 0.7872045636177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4454622268676758,
      "epoch": 1.77,
      "learning_rate": 4.901064495929868e-05,
      "loss": 0.6777,
      "step": 2091,
      "task_loss": 0.7301774621009827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.33388280868530273,
      "epoch": 1.77,
      "learning_rate": 4.900751408891672e-05,
      "loss": 0.5627,
      "step": 2092,
      "task_loss": 0.5217288136482239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.494853675365448,
      "epoch": 1.77,
      "learning_rate": 4.900438321853475e-05,
      "loss": 0.6132,
      "step": 2093,
      "task_loss": 1.1620210409164429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6449175477027893,
      "epoch": 1.77,
      "learning_rate": 4.9001252348152784e-05,
      "loss": 0.6142,
      "step": 2094,
      "task_loss": 0.8698065280914307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967389941215515,
      "epoch": 1.77,
      "learning_rate": 4.899812147777082e-05,
      "loss": 0.4615,
      "step": 2095,
      "task_loss": 0.9925934076309204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4799313247203827,
      "epoch": 1.77,
      "learning_rate": 4.8994990607388855e-05,
      "loss": 0.528,
      "step": 2096,
      "task_loss": 0.9510855674743652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7690541744232178,
      "epoch": 1.77,
      "learning_rate": 4.899185973700689e-05,
      "loss": 0.7087,
      "step": 2097,
      "task_loss": 1.3609060049057007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3533988296985626,
      "epoch": 1.77,
      "learning_rate": 4.8988728866624925e-05,
      "loss": 0.5156,
      "step": 2098,
      "task_loss": 0.8872549533843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.480049192905426,
      "epoch": 1.77,
      "learning_rate": 4.898559799624296e-05,
      "loss": 0.6161,
      "step": 2099,
      "task_loss": 0.7815600633621216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4116857051849365,
      "epoch": 1.77,
      "learning_rate": 4.8982467125860995e-05,
      "loss": 0.486,
      "step": 2100,
      "task_loss": 0.3901171088218689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4409099817276001,
      "epoch": 1.78,
      "learning_rate": 4.897933625547903e-05,
      "loss": 0.5123,
      "step": 2101,
      "task_loss": 0.48921525478363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8763812184333801,
      "epoch": 1.78,
      "learning_rate": 4.897620538509706e-05,
      "loss": 0.7333,
      "step": 2102,
      "task_loss": 1.0154145956039429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37436163425445557,
      "epoch": 1.78,
      "learning_rate": 4.89730745147151e-05,
      "loss": 0.5683,
      "step": 2103,
      "task_loss": 0.41537272930145264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571658611297607,
      "epoch": 1.78,
      "learning_rate": 4.896994364433313e-05,
      "loss": 0.5434,
      "step": 2104,
      "task_loss": 1.0850716829299927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.2591012716293335,
      "epoch": 1.78,
      "learning_rate": 4.896681277395116e-05,
      "loss": 0.8047,
      "step": 2105,
      "task_loss": 1.1168330907821655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.689893364906311,
      "epoch": 1.78,
      "learning_rate": 4.896368190356919e-05,
      "loss": 0.6425,
      "step": 2106,
      "task_loss": 1.3808951377868652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7274289131164551,
      "epoch": 1.78,
      "learning_rate": 4.896055103318723e-05,
      "loss": 0.8153,
      "step": 2107,
      "task_loss": 1.0645067691802979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5709022283554077,
      "epoch": 1.78,
      "learning_rate": 4.895742016280526e-05,
      "loss": 0.5475,
      "step": 2108,
      "task_loss": 0.9172461032867432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8034793138504028,
      "epoch": 1.78,
      "learning_rate": 4.8954289292423295e-05,
      "loss": 0.69,
      "step": 2109,
      "task_loss": 1.639829158782959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3763461709022522,
      "epoch": 1.78,
      "learning_rate": 4.8951158422041334e-05,
      "loss": 0.5466,
      "step": 2110,
      "task_loss": 0.5938164591789246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5774704217910767,
      "epoch": 1.78,
      "learning_rate": 4.8948027551659365e-05,
      "loss": 0.6243,
      "step": 2111,
      "task_loss": 0.3134887218475342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293296217918396,
      "epoch": 1.78,
      "learning_rate": 4.89448966812774e-05,
      "loss": 0.7504,
      "step": 2112,
      "task_loss": 0.22134238481521606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.39036330580711365,
      "epoch": 1.79,
      "learning_rate": 4.894176581089543e-05,
      "loss": 0.5992,
      "step": 2113,
      "task_loss": 0.09032367169857025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955778360366821,
      "epoch": 1.79,
      "learning_rate": 4.893863494051347e-05,
      "loss": 0.5707,
      "step": 2114,
      "task_loss": 0.7912930250167847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8447633981704712,
      "epoch": 1.79,
      "learning_rate": 4.89355040701315e-05,
      "loss": 0.6797,
      "step": 2115,
      "task_loss": 1.1877171993255615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4283994734287262,
      "epoch": 1.79,
      "learning_rate": 4.893237319974953e-05,
      "loss": 0.5651,
      "step": 2116,
      "task_loss": 0.9739860892295837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5256165862083435,
      "epoch": 1.79,
      "learning_rate": 4.892924232936756e-05,
      "loss": 0.6712,
      "step": 2117,
      "task_loss": 0.33050039410591125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.726043701171875,
      "epoch": 1.79,
      "learning_rate": 4.89261114589856e-05,
      "loss": 0.5461,
      "step": 2118,
      "task_loss": 0.6563425660133362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7229875326156616,
      "epoch": 1.79,
      "learning_rate": 4.892298058860363e-05,
      "loss": 0.5403,
      "step": 2119,
      "task_loss": 1.492161512374878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45323097705841064,
      "epoch": 1.79,
      "learning_rate": 4.8919849718221665e-05,
      "loss": 0.923,
      "step": 2120,
      "task_loss": 0.8250668048858643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4360085129737854,
      "epoch": 1.79,
      "learning_rate": 4.8916718847839703e-05,
      "loss": 0.6097,
      "step": 2121,
      "task_loss": 1.199126124382019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5901917815208435,
      "epoch": 1.79,
      "learning_rate": 4.8913587977457735e-05,
      "loss": 0.5727,
      "step": 2122,
      "task_loss": 0.6161655187606812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7889527678489685,
      "epoch": 1.79,
      "learning_rate": 4.891045710707577e-05,
      "loss": 0.8452,
      "step": 2123,
      "task_loss": 1.391523003578186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.729505717754364,
      "epoch": 1.79,
      "learning_rate": 4.89073262366938e-05,
      "loss": 0.7236,
      "step": 2124,
      "task_loss": 1.4552538394927979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 1.0266610383987427,
      "epoch": 1.8,
      "learning_rate": 4.890419536631184e-05,
      "loss": 0.7939,
      "step": 2125,
      "task_loss": 1.0114405155181885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434058904647827,
      "epoch": 1.8,
      "learning_rate": 4.890106449592987e-05,
      "loss": 0.5191,
      "step": 2126,
      "task_loss": 0.9051684737205505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6551738381385803,
      "epoch": 1.8,
      "learning_rate": 4.88979336255479e-05,
      "loss": 0.6577,
      "step": 2127,
      "task_loss": 0.6065924167633057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8395287990570068,
      "epoch": 1.8,
      "learning_rate": 4.889480275516593e-05,
      "loss": 0.6926,
      "step": 2128,
      "task_loss": 0.9712740778923035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.827460527420044,
      "epoch": 1.8,
      "learning_rate": 4.889167188478397e-05,
      "loss": 0.6317,
      "step": 2129,
      "task_loss": 0.1672440618276596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3177676796913147,
      "epoch": 1.8,
      "learning_rate": 4.8888541014402e-05,
      "loss": 0.5893,
      "step": 2130,
      "task_loss": 0.2996341586112976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.622376024723053,
      "epoch": 1.8,
      "learning_rate": 4.888541014402004e-05,
      "loss": 0.511,
      "step": 2131,
      "task_loss": 0.6662011742591858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5530962944030762,
      "epoch": 1.8,
      "learning_rate": 4.888227927363807e-05,
      "loss": 0.4772,
      "step": 2132,
      "task_loss": 1.3799068927764893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.39280903339385986,
      "epoch": 1.8,
      "learning_rate": 4.887914840325611e-05,
      "loss": 0.4791,
      "step": 2133,
      "task_loss": 0.7474582195281982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9605111479759216,
      "epoch": 1.8,
      "learning_rate": 4.8876017532874144e-05,
      "loss": 0.7368,
      "step": 2134,
      "task_loss": 0.7224611043930054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5554821491241455,
      "epoch": 1.8,
      "learning_rate": 4.8872886662492175e-05,
      "loss": 0.565,
      "step": 2135,
      "task_loss": 1.2930554151535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4907560646533966,
      "epoch": 1.81,
      "learning_rate": 4.8869755792110214e-05,
      "loss": 0.5153,
      "step": 2136,
      "task_loss": 0.38207367062568665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4421542286872864,
      "epoch": 1.81,
      "learning_rate": 4.8866624921728246e-05,
      "loss": 0.4932,
      "step": 2137,
      "task_loss": 1.4856674671173096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6923367977142334,
      "epoch": 1.81,
      "learning_rate": 4.886349405134628e-05,
      "loss": 0.683,
      "step": 2138,
      "task_loss": 1.5043758153915405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3068653345108032,
      "epoch": 1.81,
      "learning_rate": 4.886036318096431e-05,
      "loss": 0.403,
      "step": 2139,
      "task_loss": 0.5421009659767151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7366296052932739,
      "epoch": 1.81,
      "learning_rate": 4.885723231058235e-05,
      "loss": 0.6499,
      "step": 2140,
      "task_loss": 0.8569260239601135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3624809980392456,
      "epoch": 1.81,
      "learning_rate": 4.885410144020038e-05,
      "loss": 0.5115,
      "step": 2141,
      "task_loss": 0.07824302464723587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8588196039199829,
      "epoch": 1.81,
      "learning_rate": 4.885097056981841e-05,
      "loss": 0.7043,
      "step": 2142,
      "task_loss": 0.9554499983787537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6366950273513794,
      "epoch": 1.81,
      "learning_rate": 4.884783969943645e-05,
      "loss": 0.6665,
      "step": 2143,
      "task_loss": 1.2620222568511963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7368850708007812,
      "epoch": 1.81,
      "learning_rate": 4.884470882905448e-05,
      "loss": 0.6095,
      "step": 2144,
      "task_loss": 1.1792137622833252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5826089382171631,
      "epoch": 1.81,
      "learning_rate": 4.8841577958672514e-05,
      "loss": 0.5848,
      "step": 2145,
      "task_loss": 0.6086183786392212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7025729417800903,
      "epoch": 1.81,
      "learning_rate": 4.8838447088290545e-05,
      "loss": 0.5169,
      "step": 2146,
      "task_loss": 1.2442482709884644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46185675263404846,
      "epoch": 1.81,
      "learning_rate": 4.8835316217908584e-05,
      "loss": 0.6267,
      "step": 2147,
      "task_loss": 0.6671622395515442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7256494760513306,
      "epoch": 1.82,
      "learning_rate": 4.8832185347526616e-05,
      "loss": 0.5811,
      "step": 2148,
      "task_loss": 0.3093624413013458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7267260551452637,
      "epoch": 1.82,
      "learning_rate": 4.882905447714465e-05,
      "loss": 0.5474,
      "step": 2149,
      "task_loss": 0.6404131650924683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.39623990654945374,
      "epoch": 1.82,
      "learning_rate": 4.882592360676268e-05,
      "loss": 0.5643,
      "step": 2150,
      "task_loss": 0.14476701617240906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5093360543251038,
      "epoch": 1.82,
      "learning_rate": 4.882279273638072e-05,
      "loss": 0.472,
      "step": 2151,
      "task_loss": 0.5220075249671936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.465090811252594,
      "epoch": 1.82,
      "learning_rate": 4.881966186599875e-05,
      "loss": 0.5347,
      "step": 2152,
      "task_loss": 0.8201823830604553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8854434490203857,
      "epoch": 1.82,
      "learning_rate": 4.881653099561678e-05,
      "loss": 0.6039,
      "step": 2153,
      "task_loss": 0.8482139706611633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8003247976303101,
      "epoch": 1.82,
      "learning_rate": 4.881340012523481e-05,
      "loss": 0.7288,
      "step": 2154,
      "task_loss": 1.02394700050354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6002784967422485,
      "epoch": 1.82,
      "learning_rate": 4.881026925485285e-05,
      "loss": 0.6398,
      "step": 2155,
      "task_loss": 0.7402263879776001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5710400938987732,
      "epoch": 1.82,
      "learning_rate": 4.8807138384470884e-05,
      "loss": 0.5196,
      "step": 2156,
      "task_loss": 1.2978270053863525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5296972990036011,
      "epoch": 1.82,
      "learning_rate": 4.8804007514088915e-05,
      "loss": 0.607,
      "step": 2157,
      "task_loss": 0.7336243987083435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37521642446517944,
      "epoch": 1.82,
      "learning_rate": 4.8800876643706954e-05,
      "loss": 0.5288,
      "step": 2158,
      "task_loss": 0.4478328227996826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608843564987183,
      "epoch": 1.82,
      "learning_rate": 4.8797745773324986e-05,
      "loss": 0.543,
      "step": 2159,
      "task_loss": 0.9204266667366028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7064813375473022,
      "epoch": 1.83,
      "learning_rate": 4.879461490294302e-05,
      "loss": 0.6402,
      "step": 2160,
      "task_loss": 0.9193848371505737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3050161898136139,
      "epoch": 1.83,
      "learning_rate": 4.879148403256105e-05,
      "loss": 0.6641,
      "step": 2161,
      "task_loss": 0.20055975019931793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7948587536811829,
      "epoch": 1.83,
      "learning_rate": 4.878835316217909e-05,
      "loss": 0.7333,
      "step": 2162,
      "task_loss": 0.7384874224662781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.33466649055480957,
      "epoch": 1.83,
      "learning_rate": 4.878522229179712e-05,
      "loss": 0.6593,
      "step": 2163,
      "task_loss": 0.09069152921438217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5731754302978516,
      "epoch": 1.83,
      "learning_rate": 4.878209142141516e-05,
      "loss": 0.5703,
      "step": 2164,
      "task_loss": 0.45842090249061584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6033138036727905,
      "epoch": 1.83,
      "learning_rate": 4.877896055103319e-05,
      "loss": 0.5052,
      "step": 2165,
      "task_loss": 0.3740144968032837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5677679181098938,
      "epoch": 1.83,
      "learning_rate": 4.877582968065122e-05,
      "loss": 0.4807,
      "step": 2166,
      "task_loss": 1.1866438388824463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5365862250328064,
      "epoch": 1.83,
      "learning_rate": 4.877269881026926e-05,
      "loss": 0.7371,
      "step": 2167,
      "task_loss": 0.43480488657951355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7548823356628418,
      "epoch": 1.83,
      "learning_rate": 4.876956793988729e-05,
      "loss": 0.6137,
      "step": 2168,
      "task_loss": 0.5724943280220032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7481116652488708,
      "epoch": 1.83,
      "learning_rate": 4.876643706950533e-05,
      "loss": 0.723,
      "step": 2169,
      "task_loss": 0.3660881221294403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47073423862457275,
      "epoch": 1.83,
      "learning_rate": 4.876330619912336e-05,
      "loss": 0.4317,
      "step": 2170,
      "task_loss": 0.8030180931091309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6687943935394287,
      "epoch": 1.83,
      "learning_rate": 4.8760175328741394e-05,
      "loss": 0.6084,
      "step": 2171,
      "task_loss": 1.3962076902389526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8526927828788757,
      "epoch": 1.84,
      "learning_rate": 4.8757044458359426e-05,
      "loss": 0.5972,
      "step": 2172,
      "task_loss": 1.5182141065597534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9695984125137329,
      "epoch": 1.84,
      "learning_rate": 4.8753913587977464e-05,
      "loss": 0.5844,
      "step": 2173,
      "task_loss": 0.487541526556015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7158949375152588,
      "epoch": 1.84,
      "learning_rate": 4.8750782717595496e-05,
      "loss": 0.6288,
      "step": 2174,
      "task_loss": 0.9329524040222168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.28207823634147644,
      "epoch": 1.84,
      "learning_rate": 4.874765184721353e-05,
      "loss": 0.4656,
      "step": 2175,
      "task_loss": 0.19819530844688416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.33092135190963745,
      "epoch": 1.84,
      "learning_rate": 4.874452097683156e-05,
      "loss": 0.5663,
      "step": 2176,
      "task_loss": 1.1531652212142944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3137865364551544,
      "epoch": 1.84,
      "learning_rate": 4.87413901064496e-05,
      "loss": 0.4099,
      "step": 2177,
      "task_loss": 0.2796710729598999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3901706039905548,
      "epoch": 1.84,
      "learning_rate": 4.873825923606763e-05,
      "loss": 0.6147,
      "step": 2178,
      "task_loss": 0.6988053917884827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5045095682144165,
      "epoch": 1.84,
      "learning_rate": 4.873512836568566e-05,
      "loss": 0.544,
      "step": 2179,
      "task_loss": 1.0051348209381104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46893662214279175,
      "epoch": 1.84,
      "learning_rate": 4.87319974953037e-05,
      "loss": 0.4505,
      "step": 2180,
      "task_loss": 0.8602231740951538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.463205486536026,
      "epoch": 1.84,
      "learning_rate": 4.872886662492173e-05,
      "loss": 0.5216,
      "step": 2181,
      "task_loss": 0.9686093926429749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49171945452690125,
      "epoch": 1.84,
      "learning_rate": 4.8725735754539764e-05,
      "loss": 0.4508,
      "step": 2182,
      "task_loss": 0.39173591136932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3818315863609314,
      "epoch": 1.84,
      "learning_rate": 4.8722604884157796e-05,
      "loss": 0.5222,
      "step": 2183,
      "task_loss": 1.472856044769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5648458003997803,
      "epoch": 1.85,
      "learning_rate": 4.8719474013775834e-05,
      "loss": 0.7529,
      "step": 2184,
      "task_loss": 1.0871113538742065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8122997283935547,
      "epoch": 1.85,
      "learning_rate": 4.8716343143393866e-05,
      "loss": 0.6786,
      "step": 2185,
      "task_loss": 0.655812680721283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6582978963851929,
      "epoch": 1.85,
      "learning_rate": 4.87132122730119e-05,
      "loss": 0.7032,
      "step": 2186,
      "task_loss": 1.7352465391159058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5490027666091919,
      "epoch": 1.85,
      "learning_rate": 4.871008140262993e-05,
      "loss": 0.4023,
      "step": 2187,
      "task_loss": 0.48472151160240173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7001916766166687,
      "epoch": 1.85,
      "learning_rate": 4.870695053224797e-05,
      "loss": 0.6216,
      "step": 2188,
      "task_loss": 0.5699008107185364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4870021939277649,
      "epoch": 1.85,
      "learning_rate": 4.8703819661866e-05,
      "loss": 0.4118,
      "step": 2189,
      "task_loss": 0.47853875160217285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46022090315818787,
      "epoch": 1.85,
      "learning_rate": 4.870068879148403e-05,
      "loss": 0.4963,
      "step": 2190,
      "task_loss": 0.6397734880447388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5513700246810913,
      "epoch": 1.85,
      "learning_rate": 4.8697557921102064e-05,
      "loss": 0.5925,
      "step": 2191,
      "task_loss": 0.7450762391090393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.36688822507858276,
      "epoch": 1.85,
      "learning_rate": 4.86944270507201e-05,
      "loss": 0.4863,
      "step": 2192,
      "task_loss": 0.20471200346946716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46115782856941223,
      "epoch": 1.85,
      "learning_rate": 4.8691296180338134e-05,
      "loss": 0.6307,
      "step": 2193,
      "task_loss": 0.6599039435386658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7066313028335571,
      "epoch": 1.85,
      "learning_rate": 4.8688165309956166e-05,
      "loss": 0.4846,
      "step": 2194,
      "task_loss": 0.7911555171012878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6729583740234375,
      "epoch": 1.85,
      "learning_rate": 4.8685034439574204e-05,
      "loss": 0.5681,
      "step": 2195,
      "task_loss": 0.43649423122406006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44678613543510437,
      "epoch": 1.86,
      "learning_rate": 4.8681903569192236e-05,
      "loss": 0.6135,
      "step": 2196,
      "task_loss": 0.30738404393196106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4595412015914917,
      "epoch": 1.86,
      "learning_rate": 4.867877269881027e-05,
      "loss": 0.5655,
      "step": 2197,
      "task_loss": 0.5316629409790039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.24386191368103027,
      "epoch": 1.86,
      "learning_rate": 4.8675641828428306e-05,
      "loss": 0.5996,
      "step": 2198,
      "task_loss": 0.3736094534397125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6645935773849487,
      "epoch": 1.86,
      "learning_rate": 4.867251095804634e-05,
      "loss": 0.6208,
      "step": 2199,
      "task_loss": 0.9722223281860352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.34003517031669617,
      "epoch": 1.86,
      "learning_rate": 4.866938008766438e-05,
      "loss": 0.5625,
      "step": 2200,
      "task_loss": 0.549965500831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6636495590209961,
      "epoch": 1.86,
      "learning_rate": 4.866624921728241e-05,
      "loss": 0.5624,
      "step": 2201,
      "task_loss": 0.7956205010414124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3100022077560425,
      "epoch": 1.86,
      "learning_rate": 4.866311834690044e-05,
      "loss": 0.4288,
      "step": 2202,
      "task_loss": 0.3601055145263672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3589179515838623,
      "epoch": 1.86,
      "learning_rate": 4.865998747651848e-05,
      "loss": 0.4224,
      "step": 2203,
      "task_loss": 0.5323647856712341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4949137568473816,
      "epoch": 1.86,
      "learning_rate": 4.865685660613651e-05,
      "loss": 0.5327,
      "step": 2204,
      "task_loss": 0.7203745245933533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5541373491287231,
      "epoch": 1.86,
      "learning_rate": 4.865372573575454e-05,
      "loss": 0.5169,
      "step": 2205,
      "task_loss": 0.5352662801742554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.621067225933075,
      "epoch": 1.86,
      "learning_rate": 4.865059486537258e-05,
      "loss": 0.5533,
      "step": 2206,
      "task_loss": 0.3639921247959137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5573874711990356,
      "epoch": 1.87,
      "learning_rate": 4.864746399499061e-05,
      "loss": 0.6785,
      "step": 2207,
      "task_loss": 1.1045007705688477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3991885483264923,
      "epoch": 1.87,
      "learning_rate": 4.8644333124608645e-05,
      "loss": 0.5641,
      "step": 2208,
      "task_loss": 0.4841661751270294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.48987460136413574,
      "epoch": 1.87,
      "learning_rate": 4.8641202254226676e-05,
      "loss": 0.4202,
      "step": 2209,
      "task_loss": 0.6078423261642456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5457128286361694,
      "epoch": 1.87,
      "learning_rate": 4.8638071383844715e-05,
      "loss": 0.4337,
      "step": 2210,
      "task_loss": 0.867026150226593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41692811250686646,
      "epoch": 1.87,
      "learning_rate": 4.863494051346275e-05,
      "loss": 0.4691,
      "step": 2211,
      "task_loss": 0.502586305141449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7726911306381226,
      "epoch": 1.87,
      "learning_rate": 4.863180964308078e-05,
      "loss": 0.5822,
      "step": 2212,
      "task_loss": 1.239492654800415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5839382410049438,
      "epoch": 1.87,
      "learning_rate": 4.862867877269881e-05,
      "loss": 0.6054,
      "step": 2213,
      "task_loss": 0.7306771278381348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6883859038352966,
      "epoch": 1.87,
      "learning_rate": 4.862554790231685e-05,
      "loss": 0.6591,
      "step": 2214,
      "task_loss": 0.8644038438796997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6988998055458069,
      "epoch": 1.87,
      "learning_rate": 4.862241703193488e-05,
      "loss": 0.5352,
      "step": 2215,
      "task_loss": 0.7293692231178284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.847305417060852,
      "epoch": 1.87,
      "learning_rate": 4.861928616155291e-05,
      "loss": 0.5465,
      "step": 2216,
      "task_loss": 0.7182483673095703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955390334129333,
      "epoch": 1.87,
      "learning_rate": 4.861615529117095e-05,
      "loss": 0.5721,
      "step": 2217,
      "task_loss": 0.8275623321533203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49777621030807495,
      "epoch": 1.87,
      "learning_rate": 4.861302442078898e-05,
      "loss": 0.5567,
      "step": 2218,
      "task_loss": 1.8063640594482422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.36714044213294983,
      "epoch": 1.88,
      "learning_rate": 4.8609893550407015e-05,
      "loss": 0.3992,
      "step": 2219,
      "task_loss": 0.3525436818599701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2521466314792633,
      "epoch": 1.88,
      "learning_rate": 4.8606762680025046e-05,
      "loss": 0.5996,
      "step": 2220,
      "task_loss": 0.38019150495529175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4946924149990082,
      "epoch": 1.88,
      "learning_rate": 4.8603631809643085e-05,
      "loss": 0.6946,
      "step": 2221,
      "task_loss": 0.40845057368278503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5118348002433777,
      "epoch": 1.88,
      "learning_rate": 4.860050093926112e-05,
      "loss": 0.4591,
      "step": 2222,
      "task_loss": 0.7039198875427246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7832226753234863,
      "epoch": 1.88,
      "learning_rate": 4.859737006887915e-05,
      "loss": 0.5257,
      "step": 2223,
      "task_loss": 1.1461080312728882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5330616235733032,
      "epoch": 1.88,
      "learning_rate": 4.859423919849718e-05,
      "loss": 0.5571,
      "step": 2224,
      "task_loss": 0.9466378688812256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47596317529678345,
      "epoch": 1.88,
      "learning_rate": 4.859110832811522e-05,
      "loss": 0.6174,
      "step": 2225,
      "task_loss": 1.0317274332046509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3439880609512329,
      "epoch": 1.88,
      "learning_rate": 4.858797745773325e-05,
      "loss": 0.4797,
      "step": 2226,
      "task_loss": 0.14573565125465393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4096469283103943,
      "epoch": 1.88,
      "learning_rate": 4.858484658735128e-05,
      "loss": 0.5885,
      "step": 2227,
      "task_loss": 0.3415091931819916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6815884113311768,
      "epoch": 1.88,
      "learning_rate": 4.8581715716969314e-05,
      "loss": 0.5847,
      "step": 2228,
      "task_loss": 1.0233526229858398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9058316946029663,
      "epoch": 1.88,
      "learning_rate": 4.857858484658735e-05,
      "loss": 0.6057,
      "step": 2229,
      "task_loss": 0.4832155704498291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7172305583953857,
      "epoch": 1.88,
      "learning_rate": 4.8575453976205384e-05,
      "loss": 0.7863,
      "step": 2230,
      "task_loss": 1.3079471588134766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6532737016677856,
      "epoch": 1.89,
      "learning_rate": 4.857232310582342e-05,
      "loss": 0.7322,
      "step": 2231,
      "task_loss": 1.1798009872436523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43863439559936523,
      "epoch": 1.89,
      "learning_rate": 4.8569192235441455e-05,
      "loss": 0.5499,
      "step": 2232,
      "task_loss": 0.3716825246810913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7116318941116333,
      "epoch": 1.89,
      "learning_rate": 4.8566061365059487e-05,
      "loss": 0.636,
      "step": 2233,
      "task_loss": 0.7725350856781006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.819441556930542,
      "epoch": 1.89,
      "learning_rate": 4.8562930494677525e-05,
      "loss": 0.5958,
      "step": 2234,
      "task_loss": 0.31311309337615967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8627134561538696,
      "epoch": 1.89,
      "learning_rate": 4.855979962429556e-05,
      "loss": 0.6031,
      "step": 2235,
      "task_loss": 0.8065341114997864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5047589540481567,
      "epoch": 1.89,
      "learning_rate": 4.8556668753913595e-05,
      "loss": 0.3941,
      "step": 2236,
      "task_loss": 0.5051278471946716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8206089735031128,
      "epoch": 1.89,
      "learning_rate": 4.855353788353163e-05,
      "loss": 0.637,
      "step": 2237,
      "task_loss": 0.713137686252594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5062882304191589,
      "epoch": 1.89,
      "learning_rate": 4.855040701314966e-05,
      "loss": 0.5897,
      "step": 2238,
      "task_loss": 0.9989140033721924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45204123854637146,
      "epoch": 1.89,
      "learning_rate": 4.854727614276769e-05,
      "loss": 0.5192,
      "step": 2239,
      "task_loss": 0.4997401535511017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4479646384716034,
      "epoch": 1.89,
      "learning_rate": 4.854414527238573e-05,
      "loss": 0.5449,
      "step": 2240,
      "task_loss": 0.5937856435775757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4261937141418457,
      "epoch": 1.89,
      "learning_rate": 4.854101440200376e-05,
      "loss": 0.589,
      "step": 2241,
      "task_loss": 0.45445430278778076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4354429841041565,
      "epoch": 1.89,
      "learning_rate": 4.853788353162179e-05,
      "loss": 0.7142,
      "step": 2242,
      "task_loss": 1.290386438369751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5802772045135498,
      "epoch": 1.9,
      "learning_rate": 4.853475266123983e-05,
      "loss": 0.4622,
      "step": 2243,
      "task_loss": 0.9056605696678162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6103945970535278,
      "epoch": 1.9,
      "learning_rate": 4.853162179085786e-05,
      "loss": 0.561,
      "step": 2244,
      "task_loss": 0.809261679649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5052226781845093,
      "epoch": 1.9,
      "learning_rate": 4.8528490920475895e-05,
      "loss": 0.7168,
      "step": 2245,
      "task_loss": 0.6984712481498718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.614409327507019,
      "epoch": 1.9,
      "learning_rate": 4.852536005009393e-05,
      "loss": 0.6911,
      "step": 2246,
      "task_loss": 0.6481942534446716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.825417697429657,
      "epoch": 1.9,
      "learning_rate": 4.8522229179711965e-05,
      "loss": 0.6651,
      "step": 2247,
      "task_loss": 0.6266444325447083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5685454607009888,
      "epoch": 1.9,
      "learning_rate": 4.851909830933e-05,
      "loss": 0.578,
      "step": 2248,
      "task_loss": 1.0769387483596802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.470525860786438,
      "epoch": 1.9,
      "learning_rate": 4.851596743894803e-05,
      "loss": 0.5814,
      "step": 2249,
      "task_loss": 0.624211311340332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5710526704788208,
      "epoch": 1.9,
      "learning_rate": 4.851283656856606e-05,
      "loss": 0.525,
      "step": 2250,
      "task_loss": 1.6746357679367065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4028887152671814,
      "epoch": 1.9,
      "learning_rate": 4.85097056981841e-05,
      "loss": 0.4739,
      "step": 2251,
      "task_loss": 0.8210620880126953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.26171261072158813,
      "epoch": 1.9,
      "learning_rate": 4.850657482780213e-05,
      "loss": 0.5415,
      "step": 2252,
      "task_loss": 0.2836996018886566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4880768358707428,
      "epoch": 1.9,
      "learning_rate": 4.850344395742016e-05,
      "loss": 0.4706,
      "step": 2253,
      "task_loss": 0.49408388137817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6781322360038757,
      "epoch": 1.9,
      "learning_rate": 4.85003130870382e-05,
      "loss": 0.4689,
      "step": 2254,
      "task_loss": 0.24423527717590332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4817344546318054,
      "epoch": 1.91,
      "learning_rate": 4.849718221665623e-05,
      "loss": 0.4238,
      "step": 2255,
      "task_loss": 1.0819272994995117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4278075695037842,
      "epoch": 1.91,
      "learning_rate": 4.8494051346274265e-05,
      "loss": 0.6338,
      "step": 2256,
      "task_loss": 0.5323134660720825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43255361914634705,
      "epoch": 1.91,
      "learning_rate": 4.84909204758923e-05,
      "loss": 0.6065,
      "step": 2257,
      "task_loss": 0.15960419178009033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.755547046661377,
      "epoch": 1.91,
      "learning_rate": 4.8487789605510335e-05,
      "loss": 0.4504,
      "step": 2258,
      "task_loss": 0.3668578863143921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4487781524658203,
      "epoch": 1.91,
      "learning_rate": 4.848465873512837e-05,
      "loss": 0.5707,
      "step": 2259,
      "task_loss": 0.926218569278717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46880006790161133,
      "epoch": 1.91,
      "learning_rate": 4.84815278647464e-05,
      "loss": 0.502,
      "step": 2260,
      "task_loss": 1.4549139738082886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8510129451751709,
      "epoch": 1.91,
      "learning_rate": 4.847839699436443e-05,
      "loss": 0.673,
      "step": 2261,
      "task_loss": 1.2251989841461182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4598747193813324,
      "epoch": 1.91,
      "learning_rate": 4.847526612398247e-05,
      "loss": 0.4787,
      "step": 2262,
      "task_loss": 0.6540231704711914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4813276529312134,
      "epoch": 1.91,
      "learning_rate": 4.84721352536005e-05,
      "loss": 0.4172,
      "step": 2263,
      "task_loss": 0.1667739748954773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7407900094985962,
      "epoch": 1.91,
      "learning_rate": 4.846900438321853e-05,
      "loss": 0.6184,
      "step": 2264,
      "task_loss": 0.5356577634811401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5079731941223145,
      "epoch": 1.91,
      "learning_rate": 4.846587351283657e-05,
      "loss": 0.52,
      "step": 2265,
      "task_loss": 0.5252299308776855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9221036434173584,
      "epoch": 1.91,
      "learning_rate": 4.84627426424546e-05,
      "loss": 0.6639,
      "step": 2266,
      "task_loss": 1.843277096748352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5918920040130615,
      "epoch": 1.92,
      "learning_rate": 4.845961177207264e-05,
      "loss": 0.5695,
      "step": 2267,
      "task_loss": 0.4227873384952545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3924558460712433,
      "epoch": 1.92,
      "learning_rate": 4.8456480901690673e-05,
      "loss": 0.3948,
      "step": 2268,
      "task_loss": 0.5301018357276917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38882505893707275,
      "epoch": 1.92,
      "learning_rate": 4.8453350031308705e-05,
      "loss": 0.4935,
      "step": 2269,
      "task_loss": 0.4432561993598938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.46606874465942383,
      "epoch": 1.92,
      "learning_rate": 4.8450219160926744e-05,
      "loss": 0.5263,
      "step": 2270,
      "task_loss": 0.9365003108978271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37876835465431213,
      "epoch": 1.92,
      "learning_rate": 4.8447088290544776e-05,
      "loss": 0.4668,
      "step": 2271,
      "task_loss": 0.4731386601924896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7847674489021301,
      "epoch": 1.92,
      "learning_rate": 4.844395742016281e-05,
      "loss": 0.478,
      "step": 2272,
      "task_loss": 0.6595020294189453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4343452751636505,
      "epoch": 1.92,
      "learning_rate": 4.8440826549780846e-05,
      "loss": 0.5318,
      "step": 2273,
      "task_loss": 0.07590820640325546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.446866512298584,
      "epoch": 1.92,
      "learning_rate": 4.843769567939888e-05,
      "loss": 0.5559,
      "step": 2274,
      "task_loss": 0.5367981195449829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5787578821182251,
      "epoch": 1.92,
      "learning_rate": 4.843456480901691e-05,
      "loss": 0.5417,
      "step": 2275,
      "task_loss": 0.6284345984458923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.40120887756347656,
      "epoch": 1.92,
      "learning_rate": 4.843143393863494e-05,
      "loss": 0.6421,
      "step": 2276,
      "task_loss": 0.33334973454475403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6779735684394836,
      "epoch": 1.92,
      "learning_rate": 4.842830306825298e-05,
      "loss": 0.6171,
      "step": 2277,
      "task_loss": 0.293052077293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4384811222553253,
      "epoch": 1.93,
      "learning_rate": 4.842517219787101e-05,
      "loss": 0.5597,
      "step": 2278,
      "task_loss": 0.6216214895248413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7013087868690491,
      "epoch": 1.93,
      "learning_rate": 4.842204132748904e-05,
      "loss": 0.6151,
      "step": 2279,
      "task_loss": 0.6321526169776917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7947863936424255,
      "epoch": 1.93,
      "learning_rate": 4.841891045710708e-05,
      "loss": 0.5582,
      "step": 2280,
      "task_loss": 0.9204905033111572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.44094327092170715,
      "epoch": 1.93,
      "learning_rate": 4.8415779586725114e-05,
      "loss": 0.5425,
      "step": 2281,
      "task_loss": 0.9712821841239929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.47170448303222656,
      "epoch": 1.93,
      "learning_rate": 4.8412648716343145e-05,
      "loss": 0.6048,
      "step": 2282,
      "task_loss": 0.7364827394485474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.860568642616272,
      "epoch": 1.93,
      "learning_rate": 4.840951784596118e-05,
      "loss": 0.6358,
      "step": 2283,
      "task_loss": 0.8913965821266174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3109630346298218,
      "epoch": 1.93,
      "learning_rate": 4.8406386975579216e-05,
      "loss": 0.4889,
      "step": 2284,
      "task_loss": 0.4300428032875061
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5326797962188721,
      "epoch": 1.93,
      "learning_rate": 4.840325610519725e-05,
      "loss": 0.6871,
      "step": 2285,
      "task_loss": 0.9036595821380615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6360039710998535,
      "epoch": 1.93,
      "learning_rate": 4.840012523481528e-05,
      "loss": 0.5964,
      "step": 2286,
      "task_loss": 1.129393458366394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8353090286254883,
      "epoch": 1.93,
      "learning_rate": 4.839699436443331e-05,
      "loss": 0.6296,
      "step": 2287,
      "task_loss": 1.259513020515442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4459793269634247,
      "epoch": 1.93,
      "learning_rate": 4.839386349405135e-05,
      "loss": 0.6134,
      "step": 2288,
      "task_loss": 0.7472996115684509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6030188202857971,
      "epoch": 1.93,
      "learning_rate": 4.839073262366938e-05,
      "loss": 0.4816,
      "step": 2289,
      "task_loss": 1.0895473957061768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2766847610473633,
      "epoch": 1.94,
      "learning_rate": 4.838760175328741e-05,
      "loss": 0.5977,
      "step": 2290,
      "task_loss": 0.44785985350608826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9258207082748413,
      "epoch": 1.94,
      "learning_rate": 4.838447088290545e-05,
      "loss": 0.5965,
      "step": 2291,
      "task_loss": 2.1939585208892822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.580630362033844,
      "epoch": 1.94,
      "learning_rate": 4.8381340012523484e-05,
      "loss": 0.5953,
      "step": 2292,
      "task_loss": 0.8714878559112549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.582234263420105,
      "epoch": 1.94,
      "learning_rate": 4.8378209142141515e-05,
      "loss": 0.5938,
      "step": 2293,
      "task_loss": 0.5279783010482788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.37117767333984375,
      "epoch": 1.94,
      "learning_rate": 4.837507827175955e-05,
      "loss": 0.695,
      "step": 2294,
      "task_loss": 0.16425535082817078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7244715690612793,
      "epoch": 1.94,
      "learning_rate": 4.8371947401377586e-05,
      "loss": 0.4713,
      "step": 2295,
      "task_loss": 0.7118629217147827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5657180547714233,
      "epoch": 1.94,
      "learning_rate": 4.836881653099562e-05,
      "loss": 0.4816,
      "step": 2296,
      "task_loss": 1.0887293815612793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4801936149597168,
      "epoch": 1.94,
      "learning_rate": 4.836568566061365e-05,
      "loss": 0.4649,
      "step": 2297,
      "task_loss": 0.8230075240135193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.36039698123931885,
      "epoch": 1.94,
      "learning_rate": 4.836255479023168e-05,
      "loss": 0.4639,
      "step": 2298,
      "task_loss": 0.31595292687416077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434979200363159,
      "epoch": 1.94,
      "learning_rate": 4.835942391984972e-05,
      "loss": 0.4652,
      "step": 2299,
      "task_loss": 0.9178555607795715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5618191957473755,
      "epoch": 1.94,
      "learning_rate": 4.835629304946775e-05,
      "loss": 0.5013,
      "step": 2300,
      "task_loss": 1.772692084312439
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.20331023633480072,
      "epoch": 1.94,
      "learning_rate": 4.835316217908579e-05,
      "loss": 0.4754,
      "step": 2301,
      "task_loss": 0.47345834970474243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5976462364196777,
      "epoch": 1.95,
      "learning_rate": 4.835003130870382e-05,
      "loss": 0.6929,
      "step": 2302,
      "task_loss": 0.6692781448364258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3999878168106079,
      "epoch": 1.95,
      "learning_rate": 4.834690043832186e-05,
      "loss": 0.4871,
      "step": 2303,
      "task_loss": 1.6149033308029175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6641921401023865,
      "epoch": 1.95,
      "learning_rate": 4.834376956793989e-05,
      "loss": 0.4804,
      "step": 2304,
      "task_loss": 0.757662296295166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.848527193069458,
      "epoch": 1.95,
      "learning_rate": 4.8340638697557924e-05,
      "loss": 0.6909,
      "step": 2305,
      "task_loss": 0.9269886016845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.49475526809692383,
      "epoch": 1.95,
      "learning_rate": 4.833750782717596e-05,
      "loss": 0.4947,
      "step": 2306,
      "task_loss": 1.1016515493392944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8003455400466919,
      "epoch": 1.95,
      "learning_rate": 4.8334376956793994e-05,
      "loss": 0.495,
      "step": 2307,
      "task_loss": 0.7892528176307678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7096338272094727,
      "epoch": 1.95,
      "learning_rate": 4.8331246086412026e-05,
      "loss": 0.6716,
      "step": 2308,
      "task_loss": 0.6020727753639221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5426114201545715,
      "epoch": 1.95,
      "learning_rate": 4.832811521603006e-05,
      "loss": 0.6022,
      "step": 2309,
      "task_loss": 0.6870071887969971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8560212850570679,
      "epoch": 1.95,
      "learning_rate": 4.8324984345648096e-05,
      "loss": 0.6392,
      "step": 2310,
      "task_loss": 0.7902010083198547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6016613245010376,
      "epoch": 1.95,
      "learning_rate": 4.832185347526613e-05,
      "loss": 0.4684,
      "step": 2311,
      "task_loss": 0.6191394329071045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.9783615469932556,
      "epoch": 1.95,
      "learning_rate": 4.831872260488416e-05,
      "loss": 0.6139,
      "step": 2312,
      "task_loss": 1.0745034217834473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6236714720726013,
      "epoch": 1.95,
      "learning_rate": 4.831559173450219e-05,
      "loss": 0.6124,
      "step": 2313,
      "task_loss": 1.1000510454177856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5916001200675964,
      "epoch": 1.96,
      "learning_rate": 4.831246086412023e-05,
      "loss": 0.5616,
      "step": 2314,
      "task_loss": 1.220458984375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4502362906932831,
      "epoch": 1.96,
      "learning_rate": 4.830932999373826e-05,
      "loss": 0.6761,
      "step": 2315,
      "task_loss": 0.8882645964622498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4899022579193115,
      "epoch": 1.96,
      "learning_rate": 4.8306199123356294e-05,
      "loss": 0.4327,
      "step": 2316,
      "task_loss": 0.9517663717269897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6315869092941284,
      "epoch": 1.96,
      "learning_rate": 4.830306825297433e-05,
      "loss": 0.5883,
      "step": 2317,
      "task_loss": 0.7336822748184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.41864582896232605,
      "epoch": 1.96,
      "learning_rate": 4.8299937382592364e-05,
      "loss": 0.3649,
      "step": 2318,
      "task_loss": 0.37236616015434265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5211153030395508,
      "epoch": 1.96,
      "learning_rate": 4.8296806512210396e-05,
      "loss": 0.4577,
      "step": 2319,
      "task_loss": 0.42924952507019043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3662870526313782,
      "epoch": 1.96,
      "learning_rate": 4.829367564182843e-05,
      "loss": 0.531,
      "step": 2320,
      "task_loss": 0.4386194348335266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030696392059326,
      "epoch": 1.96,
      "learning_rate": 4.8290544771446466e-05,
      "loss": 0.5211,
      "step": 2321,
      "task_loss": 0.3987022042274475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.613250732421875,
      "epoch": 1.96,
      "learning_rate": 4.82874139010645e-05,
      "loss": 0.4916,
      "step": 2322,
      "task_loss": 0.33156564831733704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5225822925567627,
      "epoch": 1.96,
      "learning_rate": 4.828428303068253e-05,
      "loss": 0.5046,
      "step": 2323,
      "task_loss": 0.37034887075424194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5736628770828247,
      "epoch": 1.96,
      "learning_rate": 4.828115216030056e-05,
      "loss": 0.5536,
      "step": 2324,
      "task_loss": 0.32722270488739014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5345181226730347,
      "epoch": 1.96,
      "learning_rate": 4.82780212899186e-05,
      "loss": 0.6735,
      "step": 2325,
      "task_loss": 0.7939822673797607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4815193712711334,
      "epoch": 1.97,
      "learning_rate": 4.827489041953663e-05,
      "loss": 0.6578,
      "step": 2326,
      "task_loss": 0.896963894367218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.42960891127586365,
      "epoch": 1.97,
      "learning_rate": 4.8271759549154664e-05,
      "loss": 0.4585,
      "step": 2327,
      "task_loss": 0.38021665811538696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5771958827972412,
      "epoch": 1.97,
      "learning_rate": 4.82686286787727e-05,
      "loss": 0.5368,
      "step": 2328,
      "task_loss": 0.5883228182792664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.29872360825538635,
      "epoch": 1.97,
      "learning_rate": 4.8265497808390734e-05,
      "loss": 0.5615,
      "step": 2329,
      "task_loss": 0.561460018157959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5133383274078369,
      "epoch": 1.97,
      "learning_rate": 4.8262366938008766e-05,
      "loss": 0.501,
      "step": 2330,
      "task_loss": 0.8558510541915894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6714968085289001,
      "epoch": 1.97,
      "learning_rate": 4.82592360676268e-05,
      "loss": 0.5672,
      "step": 2331,
      "task_loss": 0.3734920918941498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.440443217754364,
      "epoch": 1.97,
      "learning_rate": 4.8256105197244836e-05,
      "loss": 0.5001,
      "step": 2332,
      "task_loss": 0.16747237741947174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45396584272384644,
      "epoch": 1.97,
      "learning_rate": 4.825297432686287e-05,
      "loss": 0.4829,
      "step": 2333,
      "task_loss": 0.7542091012001038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5400270223617554,
      "epoch": 1.97,
      "learning_rate": 4.8249843456480907e-05,
      "loss": 0.6094,
      "step": 2334,
      "task_loss": 1.1040728092193604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5729333162307739,
      "epoch": 1.97,
      "learning_rate": 4.824671258609894e-05,
      "loss": 0.6343,
      "step": 2335,
      "task_loss": 1.1269257068634033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6913278102874756,
      "epoch": 1.97,
      "learning_rate": 4.824358171571697e-05,
      "loss": 0.834,
      "step": 2336,
      "task_loss": 1.6339163780212402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4340217709541321,
      "epoch": 1.97,
      "learning_rate": 4.824045084533501e-05,
      "loss": 0.5217,
      "step": 2337,
      "task_loss": 1.2662758827209473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7026585340499878,
      "epoch": 1.98,
      "learning_rate": 4.823731997495304e-05,
      "loss": 0.5176,
      "step": 2338,
      "task_loss": 1.089275598526001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7056485414505005,
      "epoch": 1.98,
      "learning_rate": 4.823418910457107e-05,
      "loss": 0.6633,
      "step": 2339,
      "task_loss": 0.21117419004440308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5564246773719788,
      "epoch": 1.98,
      "learning_rate": 4.823105823418911e-05,
      "loss": 0.484,
      "step": 2340,
      "task_loss": 0.1559027135372162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.43339788913726807,
      "epoch": 1.98,
      "learning_rate": 4.822792736380714e-05,
      "loss": 0.5432,
      "step": 2341,
      "task_loss": 0.518622636795044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2995416522026062,
      "epoch": 1.98,
      "learning_rate": 4.8224796493425174e-05,
      "loss": 0.3897,
      "step": 2342,
      "task_loss": 0.43075984716415405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.50166916847229,
      "epoch": 1.98,
      "learning_rate": 4.822166562304321e-05,
      "loss": 0.4344,
      "step": 2343,
      "task_loss": 0.6882398724555969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.4896463453769684,
      "epoch": 1.98,
      "learning_rate": 4.8218534752661245e-05,
      "loss": 0.5129,
      "step": 2344,
      "task_loss": 0.6826088428497314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6738490462303162,
      "epoch": 1.98,
      "learning_rate": 4.8215403882279276e-05,
      "loss": 0.5819,
      "step": 2345,
      "task_loss": 1.7720729112625122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3711905777454376,
      "epoch": 1.98,
      "learning_rate": 4.821227301189731e-05,
      "loss": 0.4951,
      "step": 2346,
      "task_loss": 0.4412442445755005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45153188705444336,
      "epoch": 1.98,
      "learning_rate": 4.820914214151535e-05,
      "loss": 0.5616,
      "step": 2347,
      "task_loss": 0.46905645728111267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.7163456678390503,
      "epoch": 1.98,
      "learning_rate": 4.820601127113338e-05,
      "loss": 0.716,
      "step": 2348,
      "task_loss": 1.5200878381729126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.21376165747642517,
      "epoch": 1.99,
      "learning_rate": 4.820288040075141e-05,
      "loss": 0.6132,
      "step": 2349,
      "task_loss": 0.03780439496040344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6425676345825195,
      "epoch": 1.99,
      "learning_rate": 4.819974953036944e-05,
      "loss": 0.6212,
      "step": 2350,
      "task_loss": 0.530227780342102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5389307141304016,
      "epoch": 1.99,
      "learning_rate": 4.819661865998748e-05,
      "loss": 0.5552,
      "step": 2351,
      "task_loss": 0.2800722122192383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8230087757110596,
      "epoch": 1.99,
      "learning_rate": 4.819348778960551e-05,
      "loss": 0.5647,
      "step": 2352,
      "task_loss": 0.3036193251609802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.975246787071228,
      "epoch": 1.99,
      "learning_rate": 4.8190356919223544e-05,
      "loss": 0.733,
      "step": 2353,
      "task_loss": 1.2826430797576904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.3644910454750061,
      "epoch": 1.99,
      "learning_rate": 4.818722604884158e-05,
      "loss": 0.4565,
      "step": 2354,
      "task_loss": 0.12701237201690674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5540529489517212,
      "epoch": 1.99,
      "learning_rate": 4.8184095178459615e-05,
      "loss": 0.4749,
      "step": 2355,
      "task_loss": 0.6275436878204346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6679797768592834,
      "epoch": 1.99,
      "learning_rate": 4.8180964308077646e-05,
      "loss": 0.58,
      "step": 2356,
      "task_loss": 0.8768760561943054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2897258400917053,
      "epoch": 1.99,
      "learning_rate": 4.817783343769568e-05,
      "loss": 0.3722,
      "step": 2357,
      "task_loss": 0.37791842222213745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.38319751620292664,
      "epoch": 1.99,
      "learning_rate": 4.817470256731372e-05,
      "loss": 0.6613,
      "step": 2358,
      "task_loss": 0.1642351746559143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.5559956431388855,
      "epoch": 1.99,
      "learning_rate": 4.817157169693175e-05,
      "loss": 0.6609,
      "step": 2359,
      "task_loss": 0.9434230327606201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.2253756821155548,
      "epoch": 1.99,
      "learning_rate": 4.816844082654978e-05,
      "loss": 0.3833,
      "step": 2360,
      "task_loss": 0.6086814403533936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.23713171482086182,
      "epoch": 2.0,
      "learning_rate": 4.816530995616781e-05,
      "loss": 0.5745,
      "step": 2361,
      "task_loss": 0.4492885172367096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.45277753472328186,
      "epoch": 2.0,
      "learning_rate": 4.816217908578585e-05,
      "loss": 0.6587,
      "step": 2362,
      "task_loss": 0.19286037981510162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6741446852684021,
      "epoch": 2.0,
      "learning_rate": 4.815904821540388e-05,
      "loss": 0.6458,
      "step": 2363,
      "task_loss": 1.4836196899414062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.269355833530426,
      "epoch": 2.0,
      "learning_rate": 4.8155917345021914e-05,
      "loss": 0.5648,
      "step": 2364,
      "task_loss": 1.4011789560317993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.8324846625328064,
      "epoch": 2.0,
      "learning_rate": 4.815278647463995e-05,
      "loss": 0.6006,
      "step": 2365,
      "task_loss": 1.1632333993911743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -Infinity,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0,
      "compression/movement_sparsity/model_sparsity": 0.0,
      "compression_loss": 0.0,
      "distillation_loss": 0.6602296829223633,
      "epoch": 2.0,
      "learning_rate": 4.8149655604257984e-05,
      "loss": 0.5425,
      "step": 2366,
      "task_loss": 0.9465316534042358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0,
      "compression/movement_sparsity/importance_threshold": -0.00649014487862587,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010077591035773266,
      "compression/movement_sparsity/model_sparsity": 0.0009731394781398207,
      "compression_loss": 0.0,
      "distillation_loss": 0.6075857877731323,
      "epoch": 2.0,
      "learning_rate": 4.8146524733876016e-05,
      "loss": 1.0106,
      "step": 2367,
      "task_loss": 1.584323525428772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0008443568368990961,
      "compression/movement_sparsity/importance_threshold": -0.006484664880425137,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010230220381512313,
      "compression/movement_sparsity/model_sparsity": 0.000987878083956833,
      "compression_loss": 0.09122346341609955,
      "distillation_loss": 0.7368004322052002,
      "epoch": 2.0,
      "learning_rate": 4.8143393863494055e-05,
      "loss": 0.7928,
      "step": 2368,
      "task_loss": 0.8754284381866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0016882382476638425,
      "compression/movement_sparsity/importance_threshold": -0.006479187967808894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010230220381512313,
      "compression/movement_sparsity/model_sparsity": 0.000987878083956833,
      "compression_loss": 0.18239536881446838,
      "distillation_loss": 0.5301963686943054,
      "epoch": 2.0,
      "learning_rate": 4.814026299311209e-05,
      "loss": 0.6769,
      "step": 2369,
      "task_loss": 0.7310242056846619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.002531644366179364,
      "compression/movement_sparsity/importance_threshold": -0.0064737141399082085,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001026086549233648,
      "compression/movement_sparsity/model_sparsity": 0.00099083731965603,
      "compression_loss": 0.2735157608985901,
      "distillation_loss": 0.6477317810058594,
      "epoch": 2.0,
      "learning_rate": 4.8137132122730125e-05,
      "loss": 0.909,
      "step": 2370,
      "task_loss": 0.729023814201355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0033745753263308975,
      "compression/movement_sparsity/importance_threshold": -0.006468243395854146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001023045886486503,
      "compression/movement_sparsity/model_sparsity": 0.0009879011130284221,
      "compression_loss": 0.3645848035812378,
      "distillation_loss": 0.42150405049324036,
      "epoch": 2.0,
      "learning_rate": 4.813400125234816e-05,
      "loss": 0.8189,
      "step": 2371,
      "task_loss": 0.7407252192497253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.004217031262003457,
      "compression/movement_sparsity/importance_threshold": -0.006462775734777773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010291629844837006,
      "compression/movement_sparsity/model_sparsity": 0.0009938080698910215,
      "compression_loss": 0.45560222864151,
      "distillation_loss": 0.4441831111907959,
      "epoch": 2.01,
      "learning_rate": 4.813087038196619e-05,
      "loss": 1.0866,
      "step": 2372,
      "task_loss": 1.202262043952942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.005059012307081834,
      "compression/movement_sparsity/importance_threshold": -0.006457311155810158,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010276247668586744,
      "compression/movement_sparsity/model_sparsity": 0.0009923226947735257,
      "compression_loss": 0.5465679168701172,
      "distillation_loss": 0.7204372882843018,
      "epoch": 2.01,
      "learning_rate": 4.812773951158423e-05,
      "loss": 1.1765,
      "step": 2373,
      "task_loss": 0.6989492774009705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.005900518595452042,
      "compression/movement_sparsity/importance_threshold": -0.00645184965808236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010276247668586744,
      "compression/movement_sparsity/model_sparsity": 0.0009923226947735257,
      "compression_loss": 0.637482762336731,
      "distillation_loss": 0.31616097688674927,
      "epoch": 2.01,
      "learning_rate": 4.812460864120226e-05,
      "loss": 1.2026,
      "step": 2374,
      "task_loss": 0.11441697180271149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.006741550260998652,
      "compression/movement_sparsity/importance_threshold": -0.00644639124072545,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010154144191995506,
      "compression/movement_sparsity/model_sparsity": 0.000980531810119916,
      "compression_loss": 0.7283458113670349,
      "distillation_loss": 0.5314382314682007,
      "epoch": 2.01,
      "learning_rate": 4.812147777082029e-05,
      "loss": 1.266,
      "step": 2375,
      "task_loss": 0.8511703610420227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.007582107437607011,
      "compression/movement_sparsity/importance_threshold": -0.006440935902870494,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010154263433671865,
      "compression/movement_sparsity/model_sparsity": 0.0009805433246557105,
      "compression_loss": 0.8191575407981873,
      "distillation_loss": 0.43945521116256714,
      "epoch": 2.01,
      "learning_rate": 4.811834690043832e-05,
      "loss": 1.296,
      "step": 2376,
      "task_loss": 0.6286712884902954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.008422190259162132,
      "compression/movement_sparsity/importance_threshold": -0.006435483643648556,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010154263433671865,
      "compression/movement_sparsity/model_sparsity": 0.0009805433246557105,
      "compression_loss": 0.9099172353744507,
      "distillation_loss": 0.5057438611984253,
      "epoch": 2.01,
      "learning_rate": 4.811521603005636e-05,
      "loss": 1.5028,
      "step": 2377,
      "task_loss": 1.1899856328964233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.009261798859549142,
      "compression/movement_sparsity/importance_threshold": -0.006430034462190704,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010459522125149958,
      "compression/movement_sparsity/model_sparsity": 0.001010020536289735,
      "compression_loss": 1.000625729560852,
      "distillation_loss": 0.4951814115047455,
      "epoch": 2.01,
      "learning_rate": 4.811208515967439e-05,
      "loss": 1.5867,
      "step": 2378,
      "task_loss": 0.0590469054877758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.010100933372653165,
      "compression/movement_sparsity/importance_threshold": -0.006424588357628004,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010444139948899696,
      "compression/movement_sparsity/model_sparsity": 0.0010085351611722393,
      "compression_loss": 1.0912823677062988,
      "distillation_loss": 0.49385765194892883,
      "epoch": 2.01,
      "learning_rate": 4.8108954289292425e-05,
      "loss": 1.7601,
      "step": 2379,
      "task_loss": 0.24165870249271393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.010939593932359548,
      "compression/movement_sparsity/importance_threshold": -0.00641914532909152,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010566124183814573,
      "compression/movement_sparsity/model_sparsity": 0.0010203145312900543,
      "compression_loss": 1.1818888187408447,
      "distillation_loss": 0.36515486240386963,
      "epoch": 2.01,
      "learning_rate": 4.810582341891046e-05,
      "loss": 1.5229,
      "step": 2380,
      "task_loss": 0.6111304759979248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.011777780672553195,
      "compression/movement_sparsity/importance_threshold": -0.00641370537571232,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001068822766040581,
      "compression/movement_sparsity/model_sparsity": 0.0010321054159436642,
      "compression_loss": 1.2724430561065674,
      "distillation_loss": 0.466522753238678,
      "epoch": 2.01,
      "learning_rate": 4.8102692548528495e-05,
      "loss": 1.8615,
      "step": 2381,
      "task_loss": 0.8660000562667847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.012615493727119342,
      "compression/movement_sparsity/importance_threshold": -0.00640826849662147,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010871502116969025,
      "compression/movement_sparsity/model_sparsity": 0.0010498032574598733,
      "compression_loss": 1.3629459142684937,
      "distillation_loss": 0.45724570751190186,
      "epoch": 2.01,
      "learning_rate": 4.809956167814653e-05,
      "loss": 1.9242,
      "step": 2382,
      "task_loss": 0.9577873945236206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.013452733229942782,
      "compression/movement_sparsity/importance_threshold": -0.006402834690950036,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010993605593560263,
      "compression/movement_sparsity/model_sparsity": 0.0010615941421134832,
      "compression_loss": 1.4533970355987549,
      "distillation_loss": 0.5181804895401001,
      "epoch": 2.01,
      "learning_rate": 4.809643080776456e-05,
      "loss": 1.8853,
      "step": 2383,
      "task_loss": 0.2620887756347656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.014289499314909304,
      "compression/movement_sparsity/importance_threshold": -0.006397403957829083,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011298864285038356,
      "compression/movement_sparsity/model_sparsity": 0.0010910713537475075,
      "compression_loss": 1.5437968969345093,
      "distillation_loss": 0.9385466575622559,
      "epoch": 2.02,
      "learning_rate": 4.80932999373826e-05,
      "loss": 2.1159,
      "step": 2384,
      "task_loss": 1.0335040092468262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.015125792115903702,
      "compression/movement_sparsity/importance_threshold": -0.006391976296389678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001102425070438443,
      "compression/movement_sparsity/model_sparsity": 0.0010645533778126802,
      "compression_loss": 1.6341437101364136,
      "distillation_loss": 0.37138110399246216,
      "epoch": 2.02,
      "learning_rate": 4.809016906700063e-05,
      "loss": 2.162,
      "step": 2385,
      "task_loss": 0.4602084755897522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.015961611766811212,
      "compression/movement_sparsity/importance_threshold": -0.0063865517057628855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0010902266469469551,
      "compression/movement_sparsity/model_sparsity": 0.001052774007694865,
      "compression_loss": 1.7244389057159424,
      "distillation_loss": 0.6597011089324951,
      "epoch": 2.02,
      "learning_rate": 4.808703819661866e-05,
      "loss": 2.3298,
      "step": 2386,
      "task_loss": 0.7242158651351929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.01679695840151696,
      "compression/movement_sparsity/importance_threshold": -0.006381130185079772,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001102436994606079,
      "compression/movement_sparsity/model_sparsity": 0.0010645648923484747,
      "compression_loss": 1.814683198928833,
      "distillation_loss": 0.47187626361846924,
      "epoch": 2.02,
      "learning_rate": 4.808390732623669e-05,
      "loss": 2.233,
      "step": 2387,
      "task_loss": 0.5295450687408447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.017631832153905957,
      "compression/movement_sparsity/importance_threshold": -0.006375711733471406,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011314246461288618,
      "compression/movement_sparsity/model_sparsity": 0.0010925567288650032,
      "compression_loss": 1.904875636100769,
      "distillation_loss": 0.3846927881240845,
      "epoch": 2.02,
      "learning_rate": 4.808077645585473e-05,
      "loss": 2.4401,
      "step": 2388,
      "task_loss": 0.429897278547287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.018466233157863443,
      "compression/movement_sparsity/importance_threshold": -0.006370296350068851,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011344891572112787,
      "compression/movement_sparsity/model_sparsity": 0.0010955159645642002,
      "compression_loss": 1.99501633644104,
      "distillation_loss": 0.30190205574035645,
      "epoch": 2.02,
      "learning_rate": 4.807764558547276e-05,
      "loss": 2.5459,
      "step": 2389,
      "task_loss": 0.7954344749450684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.01930016154727454,
      "compression/movement_sparsity/importance_threshold": -0.006364884034003174,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011482257983277929,
      "compression/movement_sparsity/model_sparsity": 0.0011087807097995112,
      "compression_loss": 2.0851047039031982,
      "distillation_loss": 0.47791004180908203,
      "epoch": 2.02,
      "learning_rate": 4.8074514715090795e-05,
      "loss": 2.6231,
      "step": 2390,
      "task_loss": 0.7972474098205566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.02013361745602449,
      "compression/movement_sparsity/importance_threshold": -0.00635947478440544,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011512903094102096,
      "compression/movement_sparsity/model_sparsity": 0.0011117399454987082,
      "compression_loss": 2.1751413345336914,
      "distillation_loss": 0.49011731147766113,
      "epoch": 2.02,
      "learning_rate": 4.807138384470883e-05,
      "loss": 2.7674,
      "step": 2391,
      "task_loss": 0.23868288099765778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.020966601017998188,
      "compression/movement_sparsity/importance_threshold": -0.006354068600406717,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011545336830071644,
      "compression/movement_sparsity/model_sparsity": 0.0011148718992348235,
      "compression_loss": 2.265124797821045,
      "distillation_loss": 0.27632296085357666,
      "epoch": 2.02,
      "learning_rate": 4.8068252974326865e-05,
      "loss": 2.8008,
      "step": 2392,
      "task_loss": 0.5388728380203247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.021799112367080653,
      "compression/movement_sparsity/importance_threshold": -0.006348665481138071,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011575862699219454,
      "compression/movement_sparsity/model_sparsity": 0.0011178196203982258,
      "compression_loss": 2.3550539016723633,
      "distillation_loss": 0.6467183232307434,
      "epoch": 2.02,
      "learning_rate": 4.80651221039449e-05,
      "loss": 3.0399,
      "step": 2393,
      "task_loss": 0.2825332283973694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.022631151637157676,
      "compression/movement_sparsity/importance_threshold": -0.006343265425730565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001179717525054107,
      "compression/movement_sparsity/model_sparsity": 0.0011391905988328936,
      "compression_loss": 2.444932699203491,
      "distillation_loss": 0.6522690653800964,
      "epoch": 2.02,
      "learning_rate": 4.806199123356293e-05,
      "loss": 3.0138,
      "step": 2394,
      "task_loss": 1.2385218143463135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.023462718962113938,
      "compression/movement_sparsity/importance_threshold": -0.006337868433315268,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011801110225860905,
      "compression/movement_sparsity/model_sparsity": 0.0011395705785141135,
      "compression_loss": 2.5347588062286377,
      "distillation_loss": 0.732337474822998,
      "epoch": 2.02,
      "learning_rate": 4.805886036318097e-05,
      "loss": 3.1014,
      "step": 2395,
      "task_loss": 1.7141814231872559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.024293814475834785,
      "compression/movement_sparsity/importance_threshold": -0.006332474503023244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0011947896729458379,
      "compression/movement_sparsity/model_sparsity": 0.0011537449720771932,
      "compression_loss": 2.624532699584961,
      "distillation_loss": 0.5605267286300659,
      "epoch": 2.03,
      "learning_rate": 4.8055729492799e-05,
      "loss": 3.1166,
      "step": 2396,
      "task_loss": 0.7844738364219666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.025124438312205122,
      "compression/movement_sparsity/importance_threshold": -0.00632708363398556,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001201657993504095,
      "compression/movement_sparsity/model_sparsity": 0.0011603773446948486,
      "compression_loss": 2.714254140853882,
      "distillation_loss": 0.6501294374465942,
      "epoch": 2.03,
      "learning_rate": 4.805259862241703e-05,
      "loss": 3.2809,
      "step": 2397,
      "task_loss": 0.7354158759117126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.025954590605110184,
      "compression/movement_sparsity/importance_threshold": -0.006321695825333283,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0012663466029286519,
      "compression/movement_sparsity/model_sparsity": 0.0012228437013802325,
      "compression_loss": 2.8039238452911377,
      "distillation_loss": 0.511442244052887,
      "epoch": 2.03,
      "learning_rate": 4.804946775203506e-05,
      "loss": 3.2274,
      "step": 2398,
      "task_loss": 1.3458755016326904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.026784271488435207,
      "compression/movement_sparsity/importance_threshold": -0.006316311076197477,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001294201458526028,
      "compression/movement_sparsity/model_sparsity": 0.0012497416569962798,
      "compression_loss": 2.893541097640991,
      "distillation_loss": 0.8996846079826355,
      "epoch": 2.03,
      "learning_rate": 4.80463368816531e-05,
      "loss": 3.4432,
      "step": 2399,
      "task_loss": 1.267540693283081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.027613481096065207,
      "compression/movement_sparsity/importance_threshold": -0.00631092938570921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0012924843783864636,
      "compression/movement_sparsity/model_sparsity": 0.0012480835638418659,
      "compression_loss": 2.983107566833496,
      "distillation_loss": 0.6550298929214478,
      "epoch": 2.03,
      "learning_rate": 4.804320601127113e-05,
      "loss": 3.6241,
      "step": 2400,
      "task_loss": 1.6606813669204712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.028442219561885307,
      "compression/movement_sparsity/importance_threshold": -0.006305550752999547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0013043131526812397,
      "compression/movement_sparsity/model_sparsity": 0.0012595059833500504,
      "compression_loss": 3.0726213455200195,
      "distillation_loss": 0.47700437903404236,
      "epoch": 2.03,
      "learning_rate": 4.804007514088917e-05,
      "loss": 3.6151,
      "step": 2401,
      "task_loss": 0.7379401326179504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.029270487019780744,
      "compression/movement_sparsity/importance_threshold": -0.006300175177199554,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0013535361166820822,
      "compression/movement_sparsity/model_sparsity": 0.0013070379871099147,
      "compression_loss": 3.1620829105377197,
      "distillation_loss": 0.7665954828262329,
      "epoch": 2.03,
      "learning_rate": 4.80369442705072e-05,
      "loss": 3.7294,
      "step": 2402,
      "task_loss": 0.8929296135902405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03009828360363631,
      "compression/movement_sparsity/importance_threshold": -0.0062948026574403005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0013716489273209581,
      "compression/movement_sparsity/model_sparsity": 0.0013245285669818221,
      "compression_loss": 3.2514920234680176,
      "distillation_loss": 0.3567678928375244,
      "epoch": 2.03,
      "learning_rate": 4.8033813400125235e-05,
      "loss": 3.689,
      "step": 2403,
      "task_loss": 0.3630422353744507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03092560944733791,
      "compression/movement_sparsity/importance_threshold": -0.006289433192852846,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0013989314228718126,
      "compression/movement_sparsity/model_sparsity": 0.0013508738248797316,
      "compression_loss": 3.3408493995666504,
      "distillation_loss": 0.6617258787155151,
      "epoch": 2.03,
      "learning_rate": 4.8030682529743273e-05,
      "loss": 3.9214,
      "step": 2404,
      "task_loss": 1.0481939315795898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03175246468477011,
      "compression/movement_sparsity/importance_threshold": -0.00628406678256826,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0014426334972572506,
      "compression/movement_sparsity/model_sparsity": 0.0013930745985667235,
      "compression_loss": 3.4301517009735107,
      "distillation_loss": 0.477468878030777,
      "epoch": 2.03,
      "learning_rate": 4.8027551659361305e-05,
      "loss": 3.8853,
      "step": 2405,
      "task_loss": 0.30540746450424194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03257884944981815,
      "compression/movement_sparsity/importance_threshold": -0.00627870342571761,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0015202836769019905,
      "compression/movement_sparsity/model_sparsity": 0.0014680572556607732,
      "compression_loss": 3.519404649734497,
      "distillation_loss": 0.5837590098381042,
      "epoch": 2.03,
      "learning_rate": 4.8024420788979344e-05,
      "loss": 3.9875,
      "step": 2406,
      "task_loss": 0.4039652347564697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03340476387636726,
      "compression/movement_sparsity/importance_threshold": -0.006273343121431958,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0015372636916154594,
      "compression/movement_sparsity/model_sparsity": 0.0014844539546321994,
      "compression_loss": 3.6086039543151855,
      "distillation_loss": 0.2445085644721985,
      "epoch": 2.03,
      "learning_rate": 4.8021289918597376e-05,
      "loss": 4.0699,
      "step": 2407,
      "task_loss": 0.9099907875061035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03423020809830246,
      "compression/movement_sparsity/importance_threshold": -0.006267985868842374,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0015849603621589116,
      "compression/movement_sparsity/model_sparsity": 0.0015305120978103624,
      "compression_loss": 3.697749376296997,
      "distillation_loss": 0.6575204133987427,
      "epoch": 2.04,
      "learning_rate": 4.801815904821541e-05,
      "loss": 4.2396,
      "step": 2408,
      "task_loss": 1.1214654445648193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03505518224950899,
      "compression/movement_sparsity/importance_threshold": -0.006262631667079923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0016112889242988972,
      "compression/movement_sparsity/model_sparsity": 0.0015559361928447085,
      "compression_loss": 3.7868428230285645,
      "distillation_loss": 0.42375025153160095,
      "epoch": 2.04,
      "learning_rate": 4.801502817783344e-05,
      "loss": 4.2447,
      "step": 2409,
      "task_loss": 0.20064783096313477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03587968646387196,
      "compression/movement_sparsity/importance_threshold": -0.006257280515275669,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001641063570885647,
      "compression/movement_sparsity/model_sparsity": 0.001584687988723677,
      "compression_loss": 3.875885248184204,
      "distillation_loss": 0.5622499585151672,
      "epoch": 2.04,
      "learning_rate": 4.801189730745148e-05,
      "loss": 4.3153,
      "step": 2410,
      "task_loss": 0.573811948299408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0367037208752764,
      "compression/movement_sparsity/importance_threshold": -0.006251932412560681,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0016633856126999826,
      "compression/movement_sparsity/model_sparsity": 0.0016062431997310573,
      "compression_loss": 3.9648735523223877,
      "distillation_loss": 0.3149120807647705,
      "epoch": 2.04,
      "learning_rate": 4.800876643706951e-05,
      "loss": 4.4999,
      "step": 2411,
      "task_loss": 1.0052573680877686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03752728561760765,
      "compression/movement_sparsity/importance_threshold": -0.0062465873580660235,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0017370531203543442,
      "compression/movement_sparsity/model_sparsity": 0.0016773800018697303,
      "compression_loss": 4.053811550140381,
      "distillation_loss": 0.6441569328308105,
      "epoch": 2.04,
      "learning_rate": 4.800563556668754e-05,
      "loss": 4.5,
      "step": 2412,
      "task_loss": 0.4948197901248932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.038350380824750396,
      "compression/movement_sparsity/importance_threshold": -0.006241245350922764,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001787039231083882,
      "compression/movement_sparsity/model_sparsity": 0.0017256489359204453,
      "compression_loss": 4.142693996429443,
      "distillation_loss": 0.3789566159248352,
      "epoch": 2.04,
      "learning_rate": 4.800250469630558e-05,
      "loss": 4.7829,
      "step": 2413,
      "task_loss": 0.3423377573490143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03917300663059042,
      "compression/movement_sparsity/importance_threshold": -0.006235906390261966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0018003942988360487,
      "compression/movement_sparsity/model_sparsity": 0.0017385452160103311,
      "compression_loss": 4.231527805328369,
      "distillation_loss": 0.9483208656311035,
      "epoch": 2.04,
      "learning_rate": 4.799937382592361e-05,
      "loss": 4.7902,
      "step": 2414,
      "task_loss": 0.8575778007507324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.03999516316901264,
      "compression/movement_sparsity/importance_threshold": -0.006230570475214696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0018412107246536078,
      "compression/movement_sparsity/model_sparsity": 0.0017779594720350443,
      "compression_loss": 4.3203043937683105,
      "distillation_loss": 0.5988214612007141,
      "epoch": 2.04,
      "learning_rate": 4.7996242955541643e-05,
      "loss": 4.8452,
      "step": 2415,
      "task_loss": 0.4690380394458771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04081685057390205,
      "compression/movement_sparsity/importance_threshold": -0.006225237604912022,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0019219015670454928,
      "compression/movement_sparsity/model_sparsity": 0.0018558783357567018,
      "compression_loss": 4.409032344818115,
      "distillation_loss": 0.471515417098999,
      "epoch": 2.04,
      "learning_rate": 4.7993112085159675e-05,
      "loss": 5.0725,
      "step": 2416,
      "task_loss": 0.7680541276931763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.041638068979143905,
      "compression/movement_sparsity/importance_threshold": -0.0062199077784850084,
      "compression/movement_sparsity/linear_layer_sparsity": 0.001932394834565052,
      "compression/movement_sparsity/model_sparsity": 0.0018660111272558975,
      "compression_loss": 4.497708320617676,
      "distillation_loss": 0.4816495478153229,
      "epoch": 2.04,
      "learning_rate": 4.7989981214777714e-05,
      "loss": 5.0595,
      "step": 2417,
      "task_loss": 0.9911508560180664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04245881851862332,
      "compression/movement_sparsity/importance_threshold": -0.0062145809950647215,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0019272435941463594,
      "compression/movement_sparsity/model_sparsity": 0.001861036847792656,
      "compression_loss": 4.58632755279541,
      "distillation_loss": 0.434975802898407,
      "epoch": 2.04,
      "learning_rate": 4.7986850344395746e-05,
      "loss": 5.2836,
      "step": 2418,
      "task_loss": 0.3383782207965851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04327909932622542,
      "compression/movement_sparsity/importance_threshold": -0.006209257253782227,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0019682865791489997,
      "compression/movement_sparsity/model_sparsity": 0.0019006698799974653,
      "compression_loss": 4.674900531768799,
      "distillation_loss": 0.5818958282470703,
      "epoch": 2.04,
      "learning_rate": 4.798371947401378e-05,
      "loss": 5.3117,
      "step": 2419,
      "task_loss": 0.2089730054140091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04409891153583545,
      "compression/movement_sparsity/importance_threshold": -0.006203936553768592,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0020392473007500205,
      "compression/movement_sparsity/model_sparsity": 0.001969192882510778,
      "compression_loss": 4.763415813446045,
      "distillation_loss": 0.6268411874771118,
      "epoch": 2.05,
      "learning_rate": 4.798058860363181e-05,
      "loss": 5.3723,
      "step": 2420,
      "task_loss": 0.8575180768966675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.044918255281338304,
      "compression/movement_sparsity/importance_threshold": -0.0061986188941548824,
      "compression/movement_sparsity/linear_layer_sparsity": 0.002085429602003718,
      "compression/movement_sparsity/model_sparsity": 0.002013788679643034,
      "compression_loss": 4.8518805503845215,
      "distillation_loss": 0.4193408191204071,
      "epoch": 2.05,
      "learning_rate": 4.797745773324985e-05,
      "loss": 5.3346,
      "step": 2421,
      "task_loss": 0.7247567176818848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04573713069661933,
      "compression/movement_sparsity/importance_threshold": -0.006193304274072164,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0021653692218345437,
      "compression/movement_sparsity/model_sparsity": 0.002090982127609636,
      "compression_loss": 4.940296173095703,
      "distillation_loss": 0.5909290313720703,
      "epoch": 2.05,
      "learning_rate": 4.797432686286788e-05,
      "loss": 5.3759,
      "step": 2422,
      "task_loss": 1.589556097984314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04655553791556333,
      "compression/movement_sparsity/importance_threshold": -0.006187992692651504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0021813953031371435,
      "compression/movement_sparsity/model_sparsity": 0.0021064576637174984,
      "compression_loss": 5.028654098510742,
      "distillation_loss": 0.6817412376403809,
      "epoch": 2.05,
      "learning_rate": 4.797119599248591e-05,
      "loss": 5.558,
      "step": 2423,
      "task_loss": 0.48237931728363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04737347707205597,
      "compression/movement_sparsity/importance_threshold": -0.006182684149023966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0022193857012250033,
      "compression/movement_sparsity/model_sparsity": 0.0021431429747589053,
      "compression_loss": 5.116967678070068,
      "distillation_loss": 0.3739989995956421,
      "epoch": 2.05,
      "learning_rate": 4.796806512210394e-05,
      "loss": 5.7049,
      "step": 2424,
      "task_loss": 0.393751859664917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04819094829998227,
      "compression/movement_sparsity/importance_threshold": -0.006177378642320616,
      "compression/movement_sparsity/linear_layer_sparsity": 0.002269181025272367,
      "compression/movement_sparsity/model_sparsity": 0.0021912276762369076,
      "compression_loss": 5.205223083496094,
      "distillation_loss": 0.9563711881637573,
      "epoch": 2.05,
      "learning_rate": 4.796493425172198e-05,
      "loss": 5.9243,
      "step": 2425,
      "task_loss": 0.9983874559402466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04900795173322714,
      "compression/movement_sparsity/importance_threshold": -0.006172076171672522,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0023161383974223955,
      "compression/movement_sparsity/model_sparsity": 0.0022365719181958094,
      "compression_loss": 5.2934250831604,
      "distillation_loss": 0.7592760324478149,
      "epoch": 2.05,
      "learning_rate": 4.796180338134001e-05,
      "loss": 5.896,
      "step": 2426,
      "task_loss": 0.27847200632095337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.04982448750567581,
      "compression/movement_sparsity/importance_threshold": -0.006166776736210749,
      "compression/movement_sparsity/linear_layer_sparsity": 0.002358874614229329,
      "compression/movement_sparsity/model_sparsity": 0.0022778400144834437,
      "compression_loss": 5.381577968597412,
      "distillation_loss": 0.46952933073043823,
      "epoch": 2.05,
      "learning_rate": 4.7958672510958045e-05,
      "loss": 5.7777,
      "step": 2427,
      "task_loss": 0.46050283312797546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05064055575121351,
      "compression/movement_sparsity/importance_threshold": -0.006161480335066364,
      "compression/movement_sparsity/linear_layer_sparsity": 0.002401646603539169,
      "compression/movement_sparsity/model_sparsity": 0.0023191426543784617,
      "compression_loss": 5.469667911529541,
      "distillation_loss": 0.517757773399353,
      "epoch": 2.05,
      "learning_rate": 4.7955541640576084e-05,
      "loss": 5.9116,
      "step": 2428,
      "task_loss": 0.23131200671195984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05145615660372527,
      "compression/movement_sparsity/importance_threshold": -0.006156186967370431,
      "compression/movement_sparsity/linear_layer_sparsity": 0.002518038403832828,
      "compression/movement_sparsity/model_sparsity": 0.002431536038268974,
      "compression_loss": 5.557706832885742,
      "distillation_loss": 0.5169776678085327,
      "epoch": 2.05,
      "learning_rate": 4.7952410770194115e-05,
      "loss": 6.0982,
      "step": 2429,
      "task_loss": 0.6633235216140747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05227129019709631,
      "compression/movement_sparsity/importance_threshold": -0.0061508966322540186,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0026288854661758107,
      "compression/movement_sparsity/model_sparsity": 0.0025385751630150255,
      "compression_loss": 5.645697593688965,
      "distillation_loss": 0.5901542901992798,
      "epoch": 2.05,
      "learning_rate": 4.794927989981215e-05,
      "loss": 6.1831,
      "step": 2430,
      "task_loss": 1.0530812740325928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05308595666521165,
      "compression/movement_sparsity/importance_threshold": -0.0061456093288481915,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0026899372044714293,
      "compression/movement_sparsity/model_sparsity": 0.0025975295862830745,
      "compression_loss": 5.733635425567627,
      "distillation_loss": 0.4503580927848816,
      "epoch": 2.05,
      "learning_rate": 4.794614902943018e-05,
      "loss": 6.2261,
      "step": 2431,
      "task_loss": 0.5380730032920837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.053900156141956646,
      "compression/movement_sparsity/importance_threshold": -0.006140325056284015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0027723689753381504,
      "compression/movement_sparsity/model_sparsity": 0.002677129572230735,
      "compression_loss": 5.821515083312988,
      "distillation_loss": 0.6026744842529297,
      "epoch": 2.06,
      "learning_rate": 4.794301815904822e-05,
      "loss": 6.3913,
      "step": 2432,
      "task_loss": 0.7269959449768066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.054713888761215856,
      "compression/movement_sparsity/importance_threshold": -0.006135043813692559,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0028618479292776664,
      "compression/movement_sparsity/model_sparsity": 0.002763534648832969,
      "compression_loss": 5.909345626831055,
      "distillation_loss": 0.5396760106086731,
      "epoch": 2.06,
      "learning_rate": 4.793988728866625e-05,
      "loss": 6.4972,
      "step": 2433,
      "task_loss": 1.1610075235366821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0555271546568753,
      "compression/movement_sparsity/importance_threshold": -0.006129765600204884,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0029629767949974207,
      "compression/movement_sparsity/model_sparsity": 0.0028611894269064695,
      "compression_loss": 5.997123718261719,
      "distillation_loss": 0.5538237690925598,
      "epoch": 2.06,
      "learning_rate": 4.793675641828428e-05,
      "loss": 6.4959,
      "step": 2434,
      "task_loss": 0.7483657002449036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.056339953962819544,
      "compression/movement_sparsity/importance_threshold": -0.0061244904149520595,
      "compression/movement_sparsity/linear_layer_sparsity": 0.00305685576679457,
      "compression/movement_sparsity/model_sparsity": 0.0029518433672168893,
      "compression_loss": 6.084847927093506,
      "distillation_loss": 0.5863285660743713,
      "epoch": 2.06,
      "learning_rate": 4.793362554790232e-05,
      "loss": 6.6904,
      "step": 2435,
      "task_loss": 1.1088011264801025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05715228681293394,
      "compression/movement_sparsity/importance_threshold": -0.00611921825706515,
      "compression/movement_sparsity/linear_layer_sparsity": 0.003111969269607529,
      "compression/movement_sparsity/model_sparsity": 0.0030050635516592566,
      "compression_loss": 6.172518730163574,
      "distillation_loss": 0.8408394455909729,
      "epoch": 2.06,
      "learning_rate": 4.793049467752035e-05,
      "loss": 6.7382,
      "step": 2436,
      "task_loss": 0.8827014565467834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05796415334110361,
      "compression/movement_sparsity/importance_threshold": -0.0061139491256752216,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0031522252595462025,
      "compression/movement_sparsity/model_sparsity": 0.0030439366245016263,
      "compression_loss": 6.26013708114624,
      "distillation_loss": 0.7559710741043091,
      "epoch": 2.06,
      "learning_rate": 4.792736380713839e-05,
      "loss": 6.8958,
      "step": 2437,
      "task_loss": 1.2365788221359253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.058775553681213566,
      "compression/movement_sparsity/importance_threshold": -0.006108683019913342,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0032914995375330825,
      "compression/movement_sparsity/model_sparsity": 0.003178426402581863,
      "compression_loss": 6.347705364227295,
      "distillation_loss": 0.5755919218063354,
      "epoch": 2.06,
      "learning_rate": 4.792423293675642e-05,
      "loss": 6.9174,
      "step": 2438,
      "task_loss": 0.7407458424568176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.05958648796714905,
      "compression/movement_sparsity/importance_threshold": -0.006103419938910576,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0033758153268862697,
      "compression/movement_sparsity/model_sparsity": 0.003259845685185061,
      "compression_loss": 6.435220718383789,
      "distillation_loss": 0.60747230052948,
      "epoch": 2.06,
      "learning_rate": 4.7921102066374454e-05,
      "loss": 7.0963,
      "step": 2439,
      "task_loss": 0.6079419851303101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06039695633279518,
      "compression/movement_sparsity/importance_threshold": -0.0060981598817979885,
      "compression/movement_sparsity/linear_layer_sparsity": 0.003479794068670995,
      "compression/movement_sparsity/model_sparsity": 0.0033602524373134565,
      "compression_loss": 6.5226874351501465,
      "distillation_loss": 0.3900158107280731,
      "epoch": 2.06,
      "learning_rate": 4.791797119599249e-05,
      "loss": 7.0396,
      "step": 2440,
      "task_loss": 0.34926968812942505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06120695891203709,
      "compression/movement_sparsity/importance_threshold": -0.006092902847706648,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0036194618441898587,
      "compression/movement_sparsity/model_sparsity": 0.003495122195074913,
      "compression_loss": 6.610100746154785,
      "distillation_loss": 0.2940852642059326,
      "epoch": 2.06,
      "learning_rate": 4.7914840325610524e-05,
      "loss": 6.9432,
      "step": 2441,
      "task_loss": 0.11611046642065048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06201649583876001,
      "compression/movement_sparsity/importance_threshold": -0.006087648835767619,
      "compression/movement_sparsity/linear_layer_sparsity": 0.003754550739336551,
      "compression/movement_sparsity/model_sparsity": 0.0036255703710912656,
      "compression_loss": 6.697459697723389,
      "distillation_loss": 0.4436652660369873,
      "epoch": 2.06,
      "learning_rate": 4.7911709455228556e-05,
      "loss": 7.2697,
      "step": 2442,
      "task_loss": 0.6699572205543518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06282556724684862,
      "compression/movement_sparsity/importance_threshold": -0.00608239784511197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0038858239008397666,
      "compression/movement_sparsity/model_sparsity": 0.0037523338956533653,
      "compression_loss": 6.7847676277160645,
      "distillation_loss": 0.5506840944290161,
      "epoch": 2.07,
      "learning_rate": 4.7908578584846594e-05,
      "loss": 7.2007,
      "step": 2443,
      "task_loss": 0.25510552525520325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06363417327018872,
      "compression/movement_sparsity/importance_threshold": -0.006077149874870763,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004041696620175768,
      "compression/movement_sparsity/model_sparsity": 0.0039028519075596027,
      "compression_loss": 6.872019290924072,
      "distillation_loss": 0.8852063417434692,
      "epoch": 2.07,
      "learning_rate": 4.7905447714464626e-05,
      "loss": 7.5125,
      "step": 2444,
      "task_loss": 1.067788004875183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0644423140426652,
      "compression/movement_sparsity/importance_threshold": -0.006071904924175066,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004155035833554646,
      "compression/movement_sparsity/model_sparsity": 0.0040122975702867126,
      "compression_loss": 6.959228515625,
      "distillation_loss": 0.5758681297302246,
      "epoch": 2.07,
      "learning_rate": 4.790231684408266e-05,
      "loss": 7.5146,
      "step": 2445,
      "task_loss": 0.21737156808376312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0652499896981632,
      "compression/movement_sparsity/importance_threshold": -0.006066662992155945,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004265501322533281,
      "compression/movement_sparsity/model_sparsity": 0.004118968229887339,
      "compression_loss": 7.046379566192627,
      "distillation_loss": 0.42602860927581787,
      "epoch": 2.07,
      "learning_rate": 4.789918597370069e-05,
      "loss": 7.6664,
      "step": 2446,
      "task_loss": 0.4365503191947937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06605720037056773,
      "compression/movement_sparsity/importance_threshold": -0.006061424077944467,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004424247766269525,
      "compression/movement_sparsity/model_sparsity": 0.00427226124492006,
      "compression_loss": 7.133483409881592,
      "distillation_loss": 0.5850775837898254,
      "epoch": 2.07,
      "learning_rate": 4.789605510331873e-05,
      "loss": 7.5976,
      "step": 2447,
      "task_loss": 0.3459823727607727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06686394619376412,
      "compression/movement_sparsity/importance_threshold": -0.006056188180671696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004601882091540976,
      "compression/movement_sparsity/model_sparsity": 0.004443793284651334,
      "compression_loss": 7.220536708831787,
      "distillation_loss": 0.8706289529800415,
      "epoch": 2.07,
      "learning_rate": 4.789292423293676e-05,
      "loss": 7.8351,
      "step": 2448,
      "task_loss": 1.0656594038009644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06767022730163741,
      "compression/movement_sparsity/importance_threshold": -0.006050955299468699,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004706230482522414,
      "compression/movement_sparsity/model_sparsity": 0.004544556987389361,
      "compression_loss": 7.307534694671631,
      "distillation_loss": 0.7764495611190796,
      "epoch": 2.07,
      "learning_rate": 4.788979336255479e-05,
      "loss": 7.8267,
      "step": 2449,
      "task_loss": 1.154152274131775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06847604382807271,
      "compression/movement_sparsity/importance_threshold": -0.006045725433466543,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004818019554108629,
      "compression/movement_sparsity/model_sparsity": 0.004652505760463181,
      "compression_loss": 7.394482135772705,
      "distillation_loss": 0.4880790114402771,
      "epoch": 2.07,
      "learning_rate": 4.788666249217283e-05,
      "loss": 7.9235,
      "step": 2450,
      "task_loss": 0.9652631282806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.06928139590695526,
      "compression/movement_sparsity/importance_threshold": -0.006040498581796293,
      "compression/movement_sparsity/linear_layer_sparsity": 0.004928127318058188,
      "compression/movement_sparsity/model_sparsity": 0.004758830983989971,
      "compression_loss": 7.481370449066162,
      "distillation_loss": 0.520179808139801,
      "epoch": 2.07,
      "learning_rate": 4.788353162179086e-05,
      "loss": 7.8684,
      "step": 2451,
      "task_loss": 0.2602771818637848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07008628367217007,
      "compression/movement_sparsity/importance_threshold": -0.006035274743589015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005076547432621775,
      "compression/movement_sparsity/model_sparsity": 0.00490215241102462,
      "compression_loss": 7.568206787109375,
      "distillation_loss": 0.2904081344604492,
      "epoch": 2.07,
      "learning_rate": 4.7880400751408894e-05,
      "loss": 7.9069,
      "step": 2452,
      "task_loss": 0.6402894854545593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07089070725760216,
      "compression/movement_sparsity/importance_threshold": -0.0060300539179757775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005272497279381912,
      "compression/movement_sparsity/model_sparsity": 0.005091370777736309,
      "compression_loss": 7.654984951019287,
      "distillation_loss": 0.41537243127822876,
      "epoch": 2.07,
      "learning_rate": 4.7877269881026926e-05,
      "loss": 8.1827,
      "step": 2453,
      "task_loss": 0.8969612121582031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0716946667971371,
      "compression/movement_sparsity/importance_threshold": -0.006024836104087643,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005337352827153371,
      "compression/movement_sparsity/model_sparsity": 0.005153998337922816,
      "compression_loss": 7.7417097091674805,
      "distillation_loss": 0.44362667202949524,
      "epoch": 2.07,
      "learning_rate": 4.7874139010644964e-05,
      "loss": 8.2086,
      "step": 2454,
      "task_loss": 0.43033918738365173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07249816242465978,
      "compression/movement_sparsity/importance_threshold": -0.006019621301055678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005521414278780553,
      "compression/movement_sparsity/model_sparsity": 0.005331736712447348,
      "compression_loss": 7.828378200531006,
      "distillation_loss": 0.3020409643650055,
      "epoch": 2.08,
      "learning_rate": 4.7871008140262996e-05,
      "loss": 8.2991,
      "step": 2455,
      "task_loss": 0.5633275508880615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07330119427405535,
      "compression/movement_sparsity/importance_threshold": -0.006014409508010949,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0057202020774380245,
      "compression/movement_sparsity/model_sparsity": 0.005523695538678137,
      "compression_loss": 7.914995193481445,
      "distillation_loss": 0.5233095288276672,
      "epoch": 2.08,
      "learning_rate": 4.786787726988103e-05,
      "loss": 8.4755,
      "step": 2456,
      "task_loss": 1.0775245428085327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07410376247920902,
      "compression/movement_sparsity/importance_threshold": -0.006009200724084523,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005863864449114902,
      "compression/movement_sparsity/model_sparsity": 0.005662422665930765,
      "compression_loss": 8.001562118530273,
      "distillation_loss": 0.7105423212051392,
      "epoch": 2.08,
      "learning_rate": 4.786474639949906e-05,
      "loss": 8.5267,
      "step": 2457,
      "task_loss": 1.055181622505188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07490586717400582,
      "compression/movement_sparsity/importance_threshold": -0.006003994948407466,
      "compression/movement_sparsity/linear_layer_sparsity": 0.005977012875811607,
      "compression/movement_sparsity/model_sparsity": 0.005771684096085162,
      "compression_loss": 8.088078498840332,
      "distillation_loss": 0.488961398601532,
      "epoch": 2.08,
      "learning_rate": 4.78616155291171e-05,
      "loss": 8.6397,
      "step": 2458,
      "task_loss": 0.45086681842803955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07570750849233099,
      "compression/movement_sparsity/importance_threshold": -0.005998792180110843,
      "compression/movement_sparsity/linear_layer_sparsity": 0.006235147256792769,
      "compression/movement_sparsity/model_sparsity": 0.006020950766965382,
      "compression_loss": 8.174543380737305,
      "distillation_loss": 0.37834522128105164,
      "epoch": 2.08,
      "learning_rate": 4.785848465873513e-05,
      "loss": 8.6698,
      "step": 2459,
      "task_loss": 0.5697919726371765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07650868656806953,
      "compression/movement_sparsity/importance_threshold": -0.005993592418325721,
      "compression/movement_sparsity/linear_layer_sparsity": 0.006426112801481115,
      "compression/movement_sparsity/model_sparsity": 0.006205356057714952,
      "compression_loss": 8.260957717895508,
      "distillation_loss": 0.5034921765327454,
      "epoch": 2.08,
      "learning_rate": 4.785535378835316e-05,
      "loss": 8.8814,
      "step": 2460,
      "task_loss": 1.0568251609802246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07730940153510668,
      "compression/movement_sparsity/importance_threshold": -0.0059883956621831665,
      "compression/movement_sparsity/linear_layer_sparsity": 0.006621669150709268,
      "compression/movement_sparsity/model_sparsity": 0.006394194444745422,
      "compression_loss": 8.34732437133789,
      "distillation_loss": 0.556475043296814,
      "epoch": 2.08,
      "learning_rate": 4.7852222917971193e-05,
      "loss": 8.9458,
      "step": 2461,
      "task_loss": 0.39032644033432007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07810965352732757,
      "compression/movement_sparsity/importance_threshold": -0.005983201910814244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0068326792211935005,
      "compression/movement_sparsity/model_sparsity": 0.006597955670165616,
      "compression_loss": 8.433637619018555,
      "distillation_loss": 0.3479404151439667,
      "epoch": 2.08,
      "learning_rate": 4.784909204758923e-05,
      "loss": 9.0909,
      "step": 2462,
      "task_loss": 0.27851831912994385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0789094426786171,
      "compression/movement_sparsity/importance_threshold": -0.005978011163350021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.006991807238294092,
      "compression/movement_sparsity/model_sparsity": 0.006751617150343762,
      "compression_loss": 8.519902229309082,
      "distillation_loss": 0.48571208119392395,
      "epoch": 2.08,
      "learning_rate": 4.7845961177207264e-05,
      "loss": 9.1818,
      "step": 2463,
      "task_loss": 0.5385258197784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.07970876912286096,
      "compression/movement_sparsity/importance_threshold": -0.005972823418921562,
      "compression/movement_sparsity/linear_layer_sparsity": 0.007201314863656205,
      "compression/movement_sparsity/model_sparsity": 0.006953927544253845,
      "compression_loss": 8.606112480163574,
      "distillation_loss": 0.8172193765640259,
      "epoch": 2.08,
      "learning_rate": 4.7842830306825296e-05,
      "loss": 9.0918,
      "step": 2464,
      "task_loss": 0.22411011159420013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08050763299394392,
      "compression/movement_sparsity/importance_threshold": -0.005967638676659934,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0074367694777939565,
      "compression/movement_sparsity/model_sparsity": 0.007181293568052847,
      "compression_loss": 8.692278861999512,
      "distillation_loss": 0.3886789083480835,
      "epoch": 2.08,
      "learning_rate": 4.7839699436443334e-05,
      "loss": 9.2494,
      "step": 2465,
      "task_loss": 0.11984727531671524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08130603442575124,
      "compression/movement_sparsity/importance_threshold": -0.005962456935696202,
      "compression/movement_sparsity/linear_layer_sparsity": 0.007652179566135822,
      "compression/movement_sparsity/model_sparsity": 0.007389303657181226,
      "compression_loss": 8.778374671936035,
      "distillation_loss": 0.799217939376831,
      "epoch": 2.08,
      "learning_rate": 4.7836568566061366e-05,
      "loss": 9.2798,
      "step": 2466,
      "task_loss": 0.7339923977851868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08210397355216792,
      "compression/movement_sparsity/importance_threshold": -0.005957278195161433,
      "compression/movement_sparsity/linear_layer_sparsity": 0.007971580320430048,
      "compression/movement_sparsity/model_sparsity": 0.007697732012973796,
      "compression_loss": 8.864422798156738,
      "distillation_loss": 0.41805076599121094,
      "epoch": 2.09,
      "learning_rate": 4.78334376956794e-05,
      "loss": 9.4919,
      "step": 2467,
      "task_loss": 0.8373850584030151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0829014505070792,
      "compression/movement_sparsity/importance_threshold": -0.005952102454186693,
      "compression/movement_sparsity/linear_layer_sparsity": 0.008266333820220946,
      "compression/movement_sparsity/model_sparsity": 0.00798235982327905,
      "compression_loss": 8.95042610168457,
      "distillation_loss": 0.5397064685821533,
      "epoch": 2.09,
      "learning_rate": 4.7830306825297436e-05,
      "loss": 9.5097,
      "step": 2468,
      "task_loss": 1.4559286832809448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0836984654243702,
      "compression/movement_sparsity/importance_threshold": -0.005946929711903049,
      "compression/movement_sparsity/linear_layer_sparsity": 0.008385957069943923,
      "compression/movement_sparsity/model_sparsity": 0.008097873646369883,
      "compression_loss": 9.036380767822266,
      "distillation_loss": 0.5260220766067505,
      "epoch": 2.09,
      "learning_rate": 4.782717595491547e-05,
      "loss": 9.5095,
      "step": 2469,
      "task_loss": 0.30859607458114624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08449501843792617,
      "compression/movement_sparsity/importance_threshold": -0.005941759967441565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.008700552384680899,
      "compression/movement_sparsity/model_sparsity": 0.008401661644237253,
      "compression_loss": 9.12227725982666,
      "distillation_loss": 0.8130235075950623,
      "epoch": 2.09,
      "learning_rate": 4.78240450845335e-05,
      "loss": 9.7203,
      "step": 2470,
      "task_loss": 0.9196327328681946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.085291109681632,
      "compression/movement_sparsity/importance_threshold": -0.005936593219933308,
      "compression/movement_sparsity/linear_layer_sparsity": 0.00899820345720731,
      "compression/movement_sparsity/model_sparsity": 0.00868908748674058,
      "compression_loss": 9.208130836486816,
      "distillation_loss": 0.49410247802734375,
      "epoch": 2.09,
      "learning_rate": 4.782091421415154e-05,
      "loss": 9.7591,
      "step": 2471,
      "task_loss": 1.1558340787887573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08608673928937305,
      "compression/movement_sparsity/importance_threshold": -0.005931429468509344,
      "compression/movement_sparsity/linear_layer_sparsity": 0.009176767867554359,
      "compression/movement_sparsity/model_sparsity": 0.008861517660263829,
      "compression_loss": 9.29392147064209,
      "distillation_loss": 1.2711620330810547,
      "epoch": 2.09,
      "learning_rate": 4.781778334376957e-05,
      "loss": 10.1621,
      "step": 2472,
      "task_loss": 0.5127913951873779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08688190739503443,
      "compression/movement_sparsity/importance_threshold": -0.00592626871230074,
      "compression/movement_sparsity/linear_layer_sparsity": 0.009390425103253752,
      "compression/movement_sparsity/model_sparsity": 0.00906783511263041,
      "compression_loss": 9.379671096801758,
      "distillation_loss": 0.4633873403072357,
      "epoch": 2.09,
      "learning_rate": 4.781465247338761e-05,
      "loss": 9.8982,
      "step": 2473,
      "task_loss": 0.8557053804397583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08767661413250083,
      "compression/movement_sparsity/importance_threshold": -0.005921110950438563,
      "compression/movement_sparsity/linear_layer_sparsity": 0.009641130727797773,
      "compression/movement_sparsity/model_sparsity": 0.00930992822771063,
      "compression_loss": 9.46536636352539,
      "distillation_loss": 0.35170578956604004,
      "epoch": 2.09,
      "learning_rate": 4.781152160300564e-05,
      "loss": 10.0273,
      "step": 2474,
      "task_loss": 0.6469836235046387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.08847085963565826,
      "compression/movement_sparsity/importance_threshold": -0.005915956182053874,
      "compression/movement_sparsity/linear_layer_sparsity": 0.009900779478068689,
      "compression/movement_sparsity/model_sparsity": 0.009560657244636757,
      "compression_loss": 9.551017761230469,
      "distillation_loss": 0.5214751958847046,
      "epoch": 2.09,
      "learning_rate": 4.780839073262367e-05,
      "loss": 10.3271,
      "step": 2475,
      "task_loss": 0.8135666847229004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.0892646440383913,
      "compression/movement_sparsity/importance_threshold": -0.005910804406277743,
      "compression/movement_sparsity/linear_layer_sparsity": 0.010139083968271411,
      "compression/movement_sparsity/model_sparsity": 0.009790775242490654,
      "compression_loss": 9.63662052154541,
      "distillation_loss": 0.47391343116760254,
      "epoch": 2.09,
      "learning_rate": 4.780525986224171e-05,
      "loss": 10.1311,
      "step": 2476,
      "task_loss": 0.4595968425273895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09005796747458517,
      "compression/movement_sparsity/importance_threshold": -0.005905655622241235,
      "compression/movement_sparsity/linear_layer_sparsity": 0.010407890479286672,
      "compression/movement_sparsity/model_sparsity": 0.010050347422906988,
      "compression_loss": 9.722159385681152,
      "distillation_loss": 0.7042484283447266,
      "epoch": 2.09,
      "learning_rate": 4.780212899185974e-05,
      "loss": 10.3074,
      "step": 2477,
      "task_loss": 1.041536808013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.090850830078125,
      "compression/movement_sparsity/importance_threshold": -0.005900509829075418,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01061622953622047,
      "compression/movement_sparsity/model_sparsity": 0.010251529392309205,
      "compression_loss": 9.807655334472656,
      "distillation_loss": 0.4340529441833496,
      "epoch": 2.09,
      "learning_rate": 4.7798998121477774e-05,
      "loss": 10.4186,
      "step": 2478,
      "task_loss": 1.127314805984497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09164323198289603,
      "compression/movement_sparsity/importance_threshold": -0.005895367025911355,
      "compression/movement_sparsity/linear_layer_sparsity": 0.010908121235778761,
      "compression/movement_sparsity/model_sparsity": 0.01053339371402377,
      "compression_loss": 9.893097877502441,
      "distillation_loss": 0.5161107182502747,
      "epoch": 2.1,
      "learning_rate": 4.7795867251095806e-05,
      "loss": 10.4851,
      "step": 2479,
      "task_loss": 0.36080145835876465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09243517332278328,
      "compression/movement_sparsity/importance_threshold": -0.005890227211880113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.011291244741919039,
      "compression/movement_sparsity/model_sparsity": 0.010903355749102363,
      "compression_loss": 9.978495597839355,
      "distillation_loss": 0.6847619414329529,
      "epoch": 2.1,
      "learning_rate": 4.7792736380713845e-05,
      "loss": 10.5747,
      "step": 2480,
      "task_loss": 1.3506616353988647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09322665423167198,
      "compression/movement_sparsity/importance_threshold": -0.005885090386112759,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0115297280946363,
      "compression/movement_sparsity/model_sparsity": 0.01113364646499318,
      "compression_loss": 10.063837051391602,
      "distillation_loss": 0.48525765538215637,
      "epoch": 2.1,
      "learning_rate": 4.7789605510331877e-05,
      "loss": 10.5775,
      "step": 2481,
      "task_loss": 0.3752705752849579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09401767484344714,
      "compression/movement_sparsity/importance_threshold": -0.005879956547740359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.011770906309239266,
      "compression/movement_sparsity/model_sparsity": 0.011366539465973562,
      "compression_loss": 10.149129867553711,
      "distillation_loss": 0.3827081322669983,
      "epoch": 2.1,
      "learning_rate": 4.778647463994991e-05,
      "loss": 10.761,
      "step": 2482,
      "task_loss": 0.9920173287391663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09480823529199378,
      "compression/movement_sparsity/importance_threshold": -0.00587482569589398,
      "compression/movement_sparsity/linear_layer_sparsity": 0.012050826144491149,
      "compression/movement_sparsity/model_sparsity": 0.011636843193750407,
      "compression_loss": 10.234374046325684,
      "distillation_loss": 0.6438371539115906,
      "epoch": 2.1,
      "learning_rate": 4.778334376956794e-05,
      "loss": 10.7236,
      "step": 2483,
      "task_loss": 0.23454447090625763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09559833571119758,
      "compression/movement_sparsity/importance_threshold": -0.005869697829704684,
      "compression/movement_sparsity/linear_layer_sparsity": 0.012334919438415585,
      "compression/movement_sparsity/model_sparsity": 0.011911177009055342,
      "compression_loss": 10.319570541381836,
      "distillation_loss": 0.42084020376205444,
      "epoch": 2.1,
      "learning_rate": 4.778021289918598e-05,
      "loss": 10.796,
      "step": 2484,
      "task_loss": 0.6355000138282776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09638797623494333,
      "compression/movement_sparsity/importance_threshold": -0.00586457294830354,
      "compression/movement_sparsity/linear_layer_sparsity": 0.012597418064751474,
      "compression/movement_sparsity/model_sparsity": 0.012164658000036363,
      "compression_loss": 10.40471076965332,
      "distillation_loss": 0.40922582149505615,
      "epoch": 2.1,
      "learning_rate": 4.777708202880401e-05,
      "loss": 10.8727,
      "step": 2485,
      "task_loss": 0.3642033040523529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09717715699711615,
      "compression/movement_sparsity/importance_threshold": -0.005859451050821614,
      "compression/movement_sparsity/linear_layer_sparsity": 0.012962392987749968,
      "compression/movement_sparsity/model_sparsity": 0.012517094911635667,
      "compression_loss": 10.489790916442871,
      "distillation_loss": 0.5610826015472412,
      "epoch": 2.1,
      "learning_rate": 4.777395115842204e-05,
      "loss": 11.0904,
      "step": 2486,
      "task_loss": 0.9736693501472473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09796587813160129,
      "compression/movement_sparsity/importance_threshold": -0.005854332136389972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.013272624057132216,
      "compression/movement_sparsity/model_sparsity": 0.012816668589402235,
      "compression_loss": 10.574828147888184,
      "distillation_loss": 0.8054144978523254,
      "epoch": 2.1,
      "learning_rate": 4.777082028804008e-05,
      "loss": 11.1799,
      "step": 2487,
      "task_loss": 0.8829770088195801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09875413977228376,
      "compression/movement_sparsity/importance_threshold": -0.005849216204139679,
      "compression/movement_sparsity/linear_layer_sparsity": 0.013503094369198177,
      "compression/movement_sparsity/model_sparsity": 0.01303922153723912,
      "compression_loss": 10.659805297851562,
      "distillation_loss": 1.3927768468856812,
      "epoch": 2.1,
      "learning_rate": 4.776768941765811e-05,
      "loss": 11.5463,
      "step": 2488,
      "task_loss": 2.412458658218384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.09954194205304878,
      "compression/movement_sparsity/importance_threshold": -0.005844103253201802,
      "compression/movement_sparsity/linear_layer_sparsity": 0.013699008443455406,
      "compression/movement_sparsity/model_sparsity": 0.013228405360343426,
      "compression_loss": 10.744742393493652,
      "distillation_loss": 0.7488387823104858,
      "epoch": 2.1,
      "learning_rate": 4.7764558547276144e-05,
      "loss": 11.4226,
      "step": 2489,
      "task_loss": 1.9958994388580322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1003292851077815,
      "compression/movement_sparsity/importance_threshold": -0.005838993282707407,
      "compression/movement_sparsity/linear_layer_sparsity": 0.013874699129402212,
      "compression/movement_sparsity/model_sparsity": 0.01339806053074019,
      "compression_loss": 10.82961654663086,
      "distillation_loss": 0.6004053354263306,
      "epoch": 2.1,
      "learning_rate": 4.7761427676894176e-05,
      "loss": 11.32,
      "step": 2490,
      "task_loss": 0.381400465965271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10111616907036702,
      "compression/movement_sparsity/importance_threshold": -0.005833886291787559,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01422176395261164,
      "compression/movement_sparsity/model_sparsity": 0.013733202609576094,
      "compression_loss": 10.914445877075195,
      "distillation_loss": 0.4100477397441864,
      "epoch": 2.11,
      "learning_rate": 4.7758296806512215e-05,
      "loss": 11.4417,
      "step": 2491,
      "task_loss": 1.1919161081314087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10190259407469049,
      "compression/movement_sparsity/importance_threshold": -0.0058287822795733265,
      "compression/movement_sparsity/linear_layer_sparsity": 0.014571297078521693,
      "compression/movement_sparsity/model_sparsity": 0.014070728197321468,
      "compression_loss": 10.999223709106445,
      "distillation_loss": 0.6430803537368774,
      "epoch": 2.11,
      "learning_rate": 4.7755165936130246e-05,
      "loss": 11.7333,
      "step": 2492,
      "task_loss": 1.7541719675064087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10268856025463713,
      "compression/movement_sparsity/importance_threshold": -0.005823681245195772,
      "compression/movement_sparsity/linear_layer_sparsity": 0.014901203024503115,
      "compression/movement_sparsity/model_sparsity": 0.014389300859149029,
      "compression_loss": 11.083954811096191,
      "distillation_loss": 0.46874165534973145,
      "epoch": 2.11,
      "learning_rate": 4.775203506574828e-05,
      "loss": 11.6788,
      "step": 2493,
      "task_loss": 0.3522428274154663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10347406774409162,
      "compression/movement_sparsity/importance_threshold": -0.005818583187785967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01521734848103275,
      "compression/movement_sparsity/model_sparsity": 0.014694585746669687,
      "compression_loss": 11.168622970581055,
      "distillation_loss": 0.5918667912483215,
      "epoch": 2.11,
      "learning_rate": 4.774890419536631e-05,
      "loss": 11.7992,
      "step": 2494,
      "task_loss": 1.0757381916046143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10425911667693977,
      "compression/movement_sparsity/importance_threshold": -0.005813488106474972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.015600853560537378,
      "compression/movement_sparsity/model_sparsity": 0.01506491624689371,
      "compression_loss": 11.253251075744629,
      "distillation_loss": 0.41713857650756836,
      "epoch": 2.11,
      "learning_rate": 4.774577332498435e-05,
      "loss": 11.895,
      "step": 2495,
      "task_loss": 0.6001870632171631
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10504370718706657,
      "compression/movement_sparsity/importance_threshold": -0.005808396000393854,
      "compression/movement_sparsity/linear_layer_sparsity": 0.015897169126288573,
      "compression/movement_sparsity/model_sparsity": 0.015351052461388048,
      "compression_loss": 11.33781909942627,
      "distillation_loss": 0.4317503869533539,
      "epoch": 2.11,
      "learning_rate": 4.774264245460238e-05,
      "loss": 11.9093,
      "step": 2496,
      "task_loss": 0.22093573212623596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10582783940835694,
      "compression/movement_sparsity/importance_threshold": -0.005803306868673681,
      "compression/movement_sparsity/linear_layer_sparsity": 0.016309268359784,
      "compression/movement_sparsity/model_sparsity": 0.015748994818447378,
      "compression_loss": 11.422333717346191,
      "distillation_loss": 0.6259301900863647,
      "epoch": 2.11,
      "learning_rate": 4.773951158422041e-05,
      "loss": 11.9216,
      "step": 2497,
      "task_loss": 1.1824445724487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1066115134746961,
      "compression/movement_sparsity/importance_threshold": -0.005798220710445518,
      "compression/movement_sparsity/linear_layer_sparsity": 0.016638935822412704,
      "compression/movement_sparsity/model_sparsity": 0.016067337189559047,
      "compression_loss": 11.506796836853027,
      "distillation_loss": 0.48445576429367065,
      "epoch": 2.11,
      "learning_rate": 4.7736380713838444e-05,
      "loss": 12.0243,
      "step": 2498,
      "task_loss": 0.7680969834327698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1073947295199692,
      "compression/movement_sparsity/importance_threshold": -0.005793137524840431,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01695046662606726,
      "compression/movement_sparsity/model_sparsity": 0.01636816595172722,
      "compression_loss": 11.591214179992676,
      "distillation_loss": 0.5935084819793701,
      "epoch": 2.11,
      "learning_rate": 4.773324984345648e-05,
      "loss": 12.0489,
      "step": 2499,
      "task_loss": 1.2045649290084839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10817748767806146,
      "compression/movement_sparsity/importance_threshold": -0.005788057310989486,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01743009242088458,
      "compression/movement_sparsity/model_sparsity": 0.016831315124991034,
      "compression_loss": 11.675570487976074,
      "distillation_loss": 0.8085423707962036,
      "epoch": 2.11,
      "learning_rate": 4.7730118973074514e-05,
      "loss": 12.3601,
      "step": 2500,
      "task_loss": 0.6951969265937805
    },
    {
      "epoch": 2.11,
      "eval_accuracy": 0.9023366336633664,
      "eval_loss": 12.032795906066895,
      "eval_runtime": 209.7114,
      "eval_samples_per_second": 120.404,
      "eval_steps_per_second": 0.944,
      "step": 2500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10895978808285789,
      "compression/movement_sparsity/importance_threshold": -0.00578298006802375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.017652955113998857,
      "compression/movement_sparsity/model_sparsity": 0.017046521798991,
      "compression_loss": 11.759878158569336,
      "distillation_loss": 0.278495728969574,
      "epoch": 2.11,
      "learning_rate": 4.7726988102692546e-05,
      "loss": 12.293,
      "step": 2501,
      "task_loss": 0.2632511854171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.10974163086824362,
      "compression/movement_sparsity/importance_threshold": -0.0057779057950742875,
      "compression/movement_sparsity/linear_layer_sparsity": 0.018011812939000154,
      "compression/movement_sparsity/model_sparsity": 0.01739305175372771,
      "compression_loss": 11.844137191772461,
      "distillation_loss": 0.5362043380737305,
      "epoch": 2.11,
      "learning_rate": 4.7723857232310585e-05,
      "loss": 12.3839,
      "step": 2502,
      "task_loss": 0.4176577627658844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.110523016168104,
      "compression/movement_sparsity/importance_threshold": -0.0057728344912721654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.01838595754691063,
      "compression/movement_sparsity/model_sparsity": 0.017754343343353015,
      "compression_loss": 11.92834758758545,
      "distillation_loss": 0.43128153681755066,
      "epoch": 2.12,
      "learning_rate": 4.7720726361928616e-05,
      "loss": 12.4279,
      "step": 2503,
      "task_loss": 0.7632910013198853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1113039441163236,
      "compression/movement_sparsity/importance_threshold": -0.005767766155748452,
      "compression/movement_sparsity/linear_layer_sparsity": 0.018758575861363713,
      "compression/movement_sparsity/model_sparsity": 0.01811416107239662,
      "compression_loss": 12.012508392333984,
      "distillation_loss": 0.613702118396759,
      "epoch": 2.12,
      "learning_rate": 4.7717595491546655e-05,
      "loss": 12.6604,
      "step": 2504,
      "task_loss": 1.2232531309127808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11208441484678833,
      "compression/movement_sparsity/importance_threshold": -0.005762700787634209,
      "compression/movement_sparsity/linear_layer_sparsity": 0.019009078775057923,
      "compression/movement_sparsity/model_sparsity": 0.018356058440368334,
      "compression_loss": 12.096613883972168,
      "distillation_loss": 0.7630182504653931,
      "epoch": 2.12,
      "learning_rate": 4.771446462116469e-05,
      "loss": 12.7989,
      "step": 2505,
      "task_loss": 0.7728609442710876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11286442849338296,
      "compression/movement_sparsity/importance_threshold": -0.0057576383860605046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.019288593188610186,
      "compression/movement_sparsity/model_sparsity": 0.018625970673928162,
      "compression_loss": 12.180685043334961,
      "distillation_loss": 0.6107282638549805,
      "epoch": 2.12,
      "learning_rate": 4.771133375078272e-05,
      "loss": 12.7492,
      "step": 2506,
      "task_loss": 0.9047357439994812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11364398518999275,
      "compression/movement_sparsity/importance_threshold": -0.005752578950158405,
      "compression/movement_sparsity/linear_layer_sparsity": 0.019633762069165513,
      "compression/movement_sparsity/model_sparsity": 0.018959281941572734,
      "compression_loss": 12.26469898223877,
      "distillation_loss": 0.4964275360107422,
      "epoch": 2.12,
      "learning_rate": 4.770820288040076e-05,
      "loss": 12.8756,
      "step": 2507,
      "task_loss": 0.4108199179172516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1144230850705027,
      "compression/movement_sparsity/importance_threshold": -0.0057475224790589745,
      "compression/movement_sparsity/linear_layer_sparsity": 0.019872066559368236,
      "compression/movement_sparsity/model_sparsity": 0.019189399939426633,
      "compression_loss": 12.348668098449707,
      "distillation_loss": 0.7940950989723206,
      "epoch": 2.12,
      "learning_rate": 4.770507201001879e-05,
      "loss": 13.042,
      "step": 2508,
      "task_loss": 0.9802160859107971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11520172826879793,
      "compression/movement_sparsity/importance_threshold": -0.005742468971893282,
      "compression/movement_sparsity/linear_layer_sparsity": 0.020199098780949415,
      "compression/movement_sparsity/model_sparsity": 0.01950519759812771,
      "compression_loss": 12.43259048461914,
      "distillation_loss": 0.7256219387054443,
      "epoch": 2.12,
      "learning_rate": 4.770194113963682e-05,
      "loss": 13.004,
      "step": 2509,
      "task_loss": 0.7595838904380798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1159799149187637,
      "compression/movement_sparsity/importance_threshold": -0.005737418427792391,
      "compression/movement_sparsity/linear_layer_sparsity": 0.020454013636668895,
      "compression/movement_sparsity/model_sparsity": 0.019751355344343403,
      "compression_loss": 12.516448974609375,
      "distillation_loss": 0.40436020493507385,
      "epoch": 2.12,
      "learning_rate": 4.769881026925486e-05,
      "loss": 12.9443,
      "step": 2510,
      "task_loss": 0.2580111026763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1167576451542851,
      "compression/movement_sparsity/importance_threshold": -0.005732370845887369,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0208815665914204,
      "compression/movement_sparsity/model_sparsity": 0.020164220539792457,
      "compression_loss": 12.600245475769043,
      "distillation_loss": 0.5622445940971375,
      "epoch": 2.12,
      "learning_rate": 4.769567939887289e-05,
      "loss": 13.2169,
      "step": 2511,
      "task_loss": 0.8614364266395569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1175349191092473,
      "compression/movement_sparsity/importance_threshold": -0.005727326225309283,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02130433795494992,
      "compression/movement_sparsity/model_sparsity": 0.0205724684063879,
      "compression_loss": 12.683991432189941,
      "distillation_loss": 0.6842716932296753,
      "epoch": 2.12,
      "learning_rate": 4.769254852849092e-05,
      "loss": 13.3158,
      "step": 2512,
      "task_loss": 0.4576231837272644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11831173691753538,
      "compression/movement_sparsity/importance_threshold": -0.005722284565189196,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02169049019966971,
      "compression/movement_sparsity/model_sparsity": 0.02094535513355831,
      "compression_loss": 12.767690658569336,
      "distillation_loss": 0.24844618141651154,
      "epoch": 2.12,
      "learning_rate": 4.768941765810896e-05,
      "loss": 13.1715,
      "step": 2513,
      "task_loss": 0.09964857250452042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11908809871303416,
      "compression/movement_sparsity/importance_threshold": -0.005717245864658179,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02199593967782998,
      "compression/movement_sparsity/model_sparsity": 0.021240311482471266,
      "compression_loss": 12.851343154907227,
      "distillation_loss": 0.7388131618499756,
      "epoch": 2.13,
      "learning_rate": 4.768628678772699e-05,
      "loss": 13.5034,
      "step": 2514,
      "task_loss": 1.1730766296386719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.11986400462962954,
      "compression/movement_sparsity/importance_threshold": -0.005712210122847292,
      "compression/movement_sparsity/linear_layer_sparsity": 0.022307291618969997,
      "compression/movement_sparsity/model_sparsity": 0.021540967526602523,
      "compression_loss": 12.934932708740234,
      "distillation_loss": 0.8580704927444458,
      "epoch": 2.13,
      "learning_rate": 4.7683155917345025e-05,
      "loss": 13.5621,
      "step": 2515,
      "task_loss": 0.5532090067863464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12063945480120619,
      "compression/movement_sparsity/importance_threshold": -0.0057071773388876045,
      "compression/movement_sparsity/linear_layer_sparsity": 0.022624963368957023,
      "compression/movement_sparsity/model_sparsity": 0.02184772627470488,
      "compression_loss": 13.018482208251953,
      "distillation_loss": 1.1399739980697632,
      "epoch": 2.13,
      "learning_rate": 4.7680025046963057e-05,
      "loss": 13.624,
      "step": 2516,
      "task_loss": 1.0813512802124023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12141444936164936,
      "compression/movement_sparsity/importance_threshold": -0.005702147511910181,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02303420080221984,
      "compression/movement_sparsity/model_sparsity": 0.022242905143173522,
      "compression_loss": 13.101982116699219,
      "distillation_loss": 0.8479353785514832,
      "epoch": 2.13,
      "learning_rate": 4.7676894176581095e-05,
      "loss": 13.6719,
      "step": 2517,
      "task_loss": 1.492380976676941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12218898844484405,
      "compression/movement_sparsity/importance_threshold": -0.0056971206410460894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.023389815253624185,
      "compression/movement_sparsity/model_sparsity": 0.022586303144174112,
      "compression_loss": 13.185418128967285,
      "distillation_loss": 0.5313619375228882,
      "epoch": 2.13,
      "learning_rate": 4.767376330619913e-05,
      "loss": 13.6441,
      "step": 2518,
      "task_loss": 0.5065880417823792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12296307218467561,
      "compression/movement_sparsity/importance_threshold": -0.005692096725426394,
      "compression/movement_sparsity/linear_layer_sparsity": 0.023754802100790316,
      "compression/movement_sparsity/model_sparsity": 0.022938751570309213,
      "compression_loss": 13.268796920776367,
      "distillation_loss": 0.5685032606124878,
      "epoch": 2.13,
      "learning_rate": 4.767063243581716e-05,
      "loss": 13.8229,
      "step": 2519,
      "task_loss": 0.504263162612915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12373670071502896,
      "compression/movement_sparsity/importance_threshold": -0.005687075764182163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02417338808147965,
      "compression/movement_sparsity/model_sparsity": 0.023342957834840774,
      "compression_loss": 13.352120399475098,
      "distillation_loss": 0.5057448148727417,
      "epoch": 2.13,
      "learning_rate": 4.766750156543519e-05,
      "loss": 14.0977,
      "step": 2520,
      "task_loss": 0.3477921485900879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12450987416978943,
      "compression/movement_sparsity/importance_threshold": -0.00568205775644446,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02459772151096947,
      "compression/movement_sparsity/model_sparsity": 0.0237527141056253,
      "compression_loss": 13.435402870178223,
      "distillation_loss": 0.4782823920249939,
      "epoch": 2.13,
      "learning_rate": 4.766437069505323e-05,
      "loss": 14.0854,
      "step": 2521,
      "task_loss": 0.7928575873374939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12528259268284203,
      "compression/movement_sparsity/importance_threshold": -0.005677042701344352,
      "compression/movement_sparsity/linear_layer_sparsity": 0.024935032365052765,
      "compression/movement_sparsity/model_sparsity": 0.02407843729418127,
      "compression_loss": 13.518645286560059,
      "distillation_loss": 0.5356513261795044,
      "epoch": 2.13,
      "learning_rate": 4.766123982467126e-05,
      "loss": 14.0412,
      "step": 2522,
      "task_loss": 1.0778230428695679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12605485638807157,
      "compression/movement_sparsity/importance_threshold": -0.005672030598012907,
      "compression/movement_sparsity/linear_layer_sparsity": 0.025243379415948546,
      "compression/movement_sparsity/model_sparsity": 0.0243761916752923,
      "compression_loss": 13.601839065551758,
      "distillation_loss": 0.528675377368927,
      "epoch": 2.13,
      "learning_rate": 4.765810895428929e-05,
      "loss": 14.1369,
      "step": 2523,
      "task_loss": 0.48589956760406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12682666541936405,
      "compression/movement_sparsity/importance_threshold": -0.005667021445581188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02558088105671401,
      "compression/movement_sparsity/model_sparsity": 0.024702099096420984,
      "compression_loss": 13.684976577758789,
      "distillation_loss": 0.5117270350456238,
      "epoch": 2.13,
      "learning_rate": 4.765497808390733e-05,
      "loss": 14.2493,
      "step": 2524,
      "task_loss": 0.773658037185669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12759801991060393,
      "compression/movement_sparsity/importance_threshold": -0.005662015243180262,
      "compression/movement_sparsity/linear_layer_sparsity": 0.02600978144240837,
      "compression/movement_sparsity/model_sparsity": 0.025116265434414822,
      "compression_loss": 13.768060684204102,
      "distillation_loss": 0.948596715927124,
      "epoch": 2.13,
      "learning_rate": 4.765184721352536e-05,
      "loss": 14.3856,
      "step": 2525,
      "task_loss": 1.4683077335357666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12836891999567668,
      "compression/movement_sparsity/importance_threshold": -0.005657011989941195,
      "compression/movement_sparsity/linear_layer_sparsity": 0.026354723763778613,
      "compression/movement_sparsity/model_sparsity": 0.0254493579258793,
      "compression_loss": 13.851090431213379,
      "distillation_loss": 0.5374099016189575,
      "epoch": 2.14,
      "learning_rate": 4.7648716343143395e-05,
      "loss": 14.3746,
      "step": 2526,
      "task_loss": 0.8020678758621216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1291393658084673,
      "compression/movement_sparsity/importance_threshold": -0.005652011684995053,
      "compression/movement_sparsity/linear_layer_sparsity": 0.026741066795180575,
      "compression/movement_sparsity/model_sparsity": 0.02582242888562242,
      "compression_loss": 13.934062957763672,
      "distillation_loss": 0.5234959125518799,
      "epoch": 2.14,
      "learning_rate": 4.7645585472761427e-05,
      "loss": 14.4906,
      "step": 2527,
      "task_loss": 0.9672248363494873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.12990935748286092,
      "compression/movement_sparsity/importance_threshold": -0.005647014327472903,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0270951788014628,
      "compression/movement_sparsity/model_sparsity": 0.026164376055112896,
      "compression_loss": 14.016979217529297,
      "distillation_loss": 0.7152500152587891,
      "epoch": 2.14,
      "learning_rate": 4.7642454602379465e-05,
      "loss": 14.5275,
      "step": 2528,
      "task_loss": 0.5796002149581909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13067889515274267,
      "compression/movement_sparsity/importance_threshold": -0.00564201991650581,
      "compression/movement_sparsity/linear_layer_sparsity": 0.027475619369885008,
      "compression/movement_sparsity/model_sparsity": 0.02653174731963772,
      "compression_loss": 14.099839210510254,
      "distillation_loss": 0.318798303604126,
      "epoch": 2.14,
      "learning_rate": 4.76393237319975e-05,
      "loss": 14.733,
      "step": 2529,
      "task_loss": 0.46080684661865234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13144797895199778,
      "compression/movement_sparsity/importance_threshold": -0.00563702845122484,
      "compression/movement_sparsity/linear_layer_sparsity": 0.027977984552383917,
      "compression/movement_sparsity/model_sparsity": 0.027016854712661725,
      "compression_loss": 14.182652473449707,
      "distillation_loss": 0.6657871007919312,
      "epoch": 2.14,
      "learning_rate": 4.763619286161553e-05,
      "loss": 14.7417,
      "step": 2530,
      "task_loss": 0.9634329080581665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13221660901451127,
      "compression/movement_sparsity/importance_threshold": -0.00563203993076106,
      "compression/movement_sparsity/linear_layer_sparsity": 0.028431675282593234,
      "compression/movement_sparsity/model_sparsity": 0.027454959770572412,
      "compression_loss": 14.26540470123291,
      "distillation_loss": 0.5511736869812012,
      "epoch": 2.14,
      "learning_rate": 4.763306199123356e-05,
      "loss": 14.8156,
      "step": 2531,
      "task_loss": 1.2524274587631226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13298478547416837,
      "compression/movement_sparsity/importance_threshold": -0.005627054354245536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.028824147336160028,
      "compression/movement_sparsity/model_sparsity": 0.02783394920171393,
      "compression_loss": 14.348104476928711,
      "distillation_loss": 0.7599971294403076,
      "epoch": 2.14,
      "learning_rate": 4.76299311208516e-05,
      "loss": 14.8604,
      "step": 2532,
      "task_loss": 0.833115816116333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1337525084648542,
      "compression/movement_sparsity/importance_threshold": -0.005622071720809333,
      "compression/movement_sparsity/linear_layer_sparsity": 0.029330876764013664,
      "compression/movement_sparsity/model_sparsity": 0.028323270914838734,
      "compression_loss": 14.430750846862793,
      "distillation_loss": 0.9440480470657349,
      "epoch": 2.14,
      "learning_rate": 4.762680025046963e-05,
      "loss": 15.0394,
      "step": 2533,
      "task_loss": 2.4352779388427734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13451977812045357,
      "compression/movement_sparsity/importance_threshold": -0.005617092029583519,
      "compression/movement_sparsity/linear_layer_sparsity": 0.029711138469921336,
      "compression/movement_sparsity/model_sparsity": 0.02869046946132664,
      "compression_loss": 14.513333320617676,
      "distillation_loss": 0.4248049855232239,
      "epoch": 2.14,
      "learning_rate": 4.762366938008766e-05,
      "loss": 15.023,
      "step": 2534,
      "task_loss": 1.3365730047225952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13528659457485237,
      "compression/movement_sparsity/importance_threshold": -0.005612115279699157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.030066752921325678,
      "compression/movement_sparsity/model_sparsity": 0.02903386746232723,
      "compression_loss": 14.595866203308105,
      "distillation_loss": 0.5043361783027649,
      "epoch": 2.14,
      "learning_rate": 4.76205385097057e-05,
      "loss": 15.2825,
      "step": 2535,
      "task_loss": 0.3752364218235016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13605295796193517,
      "compression/movement_sparsity/importance_threshold": -0.0056071414702873155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0305597457080628,
      "compression/movement_sparsity/model_sparsity": 0.029509924430216727,
      "compression_loss": 14.67834758758545,
      "distillation_loss": 0.8242826461791992,
      "epoch": 2.14,
      "learning_rate": 4.761740763932373e-05,
      "loss": 15.1913,
      "step": 2536,
      "task_loss": 1.1448078155517578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13681886841558732,
      "compression/movement_sparsity/importance_threshold": -0.005602170600479059,
      "compression/movement_sparsity/linear_layer_sparsity": 0.030948950539697366,
      "compression/movement_sparsity/model_sparsity": 0.029885758878550536,
      "compression_loss": 14.760785102844238,
      "distillation_loss": 0.6137906312942505,
      "epoch": 2.14,
      "learning_rate": 4.7614276768941765e-05,
      "loss": 15.4015,
      "step": 2537,
      "task_loss": 0.4415515661239624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13758432606969384,
      "compression/movement_sparsity/importance_threshold": -0.005597202669405455,
      "compression/movement_sparsity/linear_layer_sparsity": 0.031384134961735824,
      "compression/movement_sparsity/model_sparsity": 0.0303059933769081,
      "compression_loss": 14.843162536621094,
      "distillation_loss": 0.37066197395324707,
      "epoch": 2.15,
      "learning_rate": 4.76111458985598e-05,
      "loss": 15.465,
      "step": 2538,
      "task_loss": 0.08855317533016205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.13834933105813996,
      "compression/movement_sparsity/importance_threshold": -0.0055922376761975675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.032034526761266335,
      "compression/movement_sparsity/model_sparsity": 0.03093404221728553,
      "compression_loss": 14.925480842590332,
      "distillation_loss": 0.4489689767360687,
      "epoch": 2.15,
      "learning_rate": 4.7608015028177835e-05,
      "loss": 15.6577,
      "step": 2539,
      "task_loss": 0.41667982935905457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1391138835148108,
      "compression/movement_sparsity/importance_threshold": -0.005587275619986465,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03251990000488414,
      "compression/movement_sparsity/model_sparsity": 0.03140274139680231,
      "compression_loss": 15.007755279541016,
      "distillation_loss": 0.41979971528053284,
      "epoch": 2.15,
      "learning_rate": 4.7604884157795874e-05,
      "loss": 15.5601,
      "step": 2540,
      "task_loss": 0.13476291298866272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1398779835735915,
      "compression/movement_sparsity/importance_threshold": -0.005582316499903211,
      "compression/movement_sparsity/linear_layer_sparsity": 0.032996103563589965,
      "compression/movement_sparsity/model_sparsity": 0.0318625858982931,
      "compression_loss": 15.089981079101562,
      "distillation_loss": 0.9956264495849609,
      "epoch": 2.15,
      "learning_rate": 4.7601753287413905e-05,
      "loss": 15.6591,
      "step": 2541,
      "task_loss": 1.5913867950439453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14064163136836716,
      "compression/movement_sparsity/importance_threshold": -0.005577360315078874,
      "compression/movement_sparsity/linear_layer_sparsity": 0.033525953952489536,
      "compression/movement_sparsity/model_sparsity": 0.032374234296323516,
      "compression_loss": 15.172152519226074,
      "distillation_loss": 0.6104323267936707,
      "epoch": 2.15,
      "learning_rate": 4.759862241703194e-05,
      "loss": 15.745,
      "step": 2542,
      "task_loss": 1.356231689453125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14140482703302293,
      "compression/movement_sparsity/importance_threshold": -0.005572407064644519,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03404185306525515,
      "compression/movement_sparsity/model_sparsity": 0.032872410687474325,
      "compression_loss": 15.25428295135498,
      "distillation_loss": 0.606002151966095,
      "epoch": 2.15,
      "learning_rate": 4.7595491546649976e-05,
      "loss": 15.7865,
      "step": 2543,
      "task_loss": 0.6194770336151123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14216757070144403,
      "compression/movement_sparsity/importance_threshold": -0.005567456747731211,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03456385735185032,
      "compression/movement_sparsity/model_sparsity": 0.03337648252095193,
      "compression_loss": 15.3363618850708,
      "distillation_loss": 0.48396044969558716,
      "epoch": 2.15,
      "learning_rate": 4.759236067626801e-05,
      "loss": 15.8203,
      "step": 2544,
      "task_loss": 0.4347563087940216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14292986250751516,
      "compression/movement_sparsity/importance_threshold": -0.005562509363470021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03509368389241463,
      "compression/movement_sparsity/model_sparsity": 0.033888107889910764,
      "compression_loss": 15.41838550567627,
      "distillation_loss": 0.6619105339050293,
      "epoch": 2.15,
      "learning_rate": 4.758922980588604e-05,
      "loss": 16.0124,
      "step": 2545,
      "task_loss": 0.7195212244987488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1436917025851222,
      "compression/movement_sparsity/importance_threshold": -0.005557564910992007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03571050916005018,
      "compression/movement_sparsity/model_sparsity": 0.03448374331202657,
      "compression_loss": 15.500356674194336,
      "distillation_loss": 0.43613138794898987,
      "epoch": 2.15,
      "learning_rate": 4.758609893550407e-05,
      "loss": 15.9575,
      "step": 2546,
      "task_loss": 0.6238259673118591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14445309106814996,
      "compression/movement_sparsity/importance_threshold": -0.00555262338942824,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03628018626885354,
      "compression/movement_sparsity/model_sparsity": 0.035033850259610755,
      "compression_loss": 15.582277297973633,
      "distillation_loss": 0.3563975691795349,
      "epoch": 2.15,
      "learning_rate": 4.758296806512211e-05,
      "loss": 16.0224,
      "step": 2547,
      "task_loss": 0.333992600440979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14521402809048345,
      "compression/movement_sparsity/importance_threshold": -0.005547684797909786,
      "compression/movement_sparsity/linear_layer_sparsity": 0.036762673863903465,
      "compression/movement_sparsity/model_sparsity": 0.035499762921465255,
      "compression_loss": 15.664133071899414,
      "distillation_loss": 0.5010138750076294,
      "epoch": 2.15,
      "learning_rate": 4.757983719474014e-05,
      "loss": 16.1331,
      "step": 2548,
      "task_loss": 0.5144262909889221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.145974513786008,
      "compression/movement_sparsity/importance_threshold": -0.0055427491355677086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03740068837742795,
      "compression/movement_sparsity/model_sparsity": 0.03611585967368796,
      "compression_loss": 15.745939254760742,
      "distillation_loss": 0.3559642434120178,
      "epoch": 2.15,
      "learning_rate": 4.757670632435817e-05,
      "loss": 16.2427,
      "step": 2549,
      "task_loss": 0.7619218230247498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14673454828860866,
      "compression/movement_sparsity/importance_threshold": -0.005537816401533076,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0379184953570153,
      "compression/movement_sparsity/model_sparsity": 0.03661587839056589,
      "compression_loss": 15.827678680419922,
      "distillation_loss": 0.6284353733062744,
      "epoch": 2.16,
      "learning_rate": 4.757357545397621e-05,
      "loss": 16.3914,
      "step": 2550,
      "task_loss": 1.9819852113723755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14749413173217052,
      "compression/movement_sparsity/importance_threshold": -0.005532886594936954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.03861620225372492,
      "compression/movement_sparsity/model_sparsity": 0.037289616908976066,
      "compression_loss": 15.909363746643066,
      "distillation_loss": 0.43171942234039307,
      "epoch": 2.16,
      "learning_rate": 4.7570444583594243e-05,
      "loss": 16.3498,
      "step": 2551,
      "task_loss": 0.42524290084838867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14825326425057883,
      "compression/movement_sparsity/importance_threshold": -0.005527959714910408,
      "compression/movement_sparsity/linear_layer_sparsity": 0.039180954681294664,
      "compression/movement_sparsity/model_sparsity": 0.037834968353277106,
      "compression_loss": 15.991000175476074,
      "distillation_loss": 0.4507143497467041,
      "epoch": 2.16,
      "learning_rate": 4.7567313713212275e-05,
      "loss": 16.567,
      "step": 2552,
      "task_loss": 0.22841984033584595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1490119459777186,
      "compression/movement_sparsity/importance_threshold": -0.005523035760584504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.039788419477336065,
      "compression/movement_sparsity/model_sparsity": 0.03842156486479419,
      "compression_loss": 16.07259750366211,
      "distillation_loss": 0.6524878144264221,
      "epoch": 2.16,
      "learning_rate": 4.756418284283031e-05,
      "loss": 16.6658,
      "step": 2553,
      "task_loss": 1.2741645574569702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.14977017704747486,
      "compression/movement_sparsity/importance_threshold": -0.005518114731090311,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04041574993665882,
      "compression/movement_sparsity/model_sparsity": 0.03902734459294498,
      "compression_loss": 16.154144287109375,
      "distillation_loss": 0.4062063694000244,
      "epoch": 2.16,
      "learning_rate": 4.7561051972448346e-05,
      "loss": 16.641,
      "step": 2554,
      "task_loss": 0.720470130443573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15052795759373316,
      "compression/movement_sparsity/importance_threshold": -0.005513196625558891,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0410445828411037,
      "compression/movement_sparsity/model_sparsity": 0.039634575152605885,
      "compression_loss": 16.235628128051758,
      "distillation_loss": 0.30214062333106995,
      "epoch": 2.16,
      "learning_rate": 4.755792110206638e-05,
      "loss": 16.7901,
      "step": 2555,
      "task_loss": 0.4137303829193115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15128528775037842,
      "compression/movement_sparsity/importance_threshold": -0.005508281443121311,
      "compression/movement_sparsity/linear_layer_sparsity": 0.041646145174165344,
      "compression/movement_sparsity/model_sparsity": 0.040215471968904674,
      "compression_loss": 16.317092895507812,
      "distillation_loss": 0.7011353373527527,
      "epoch": 2.16,
      "learning_rate": 4.755479023168441e-05,
      "loss": 16.9378,
      "step": 2556,
      "task_loss": 0.660033643245697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15204216765129575,
      "compression/movement_sparsity/importance_threshold": -0.005503369182908637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.042146781352357054,
      "compression/movement_sparsity/model_sparsity": 0.04069890975423847,
      "compression_loss": 16.39850616455078,
      "distillation_loss": 0.6069098711013794,
      "epoch": 2.16,
      "learning_rate": 4.755165936130244e-05,
      "loss": 17.2013,
      "step": 2557,
      "task_loss": 2.1290268898010254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1527985974303704,
      "compression/movement_sparsity/importance_threshold": -0.005498459844051935,
      "compression/movement_sparsity/linear_layer_sparsity": 0.042672029012549184,
      "compression/movement_sparsity/model_sparsity": 0.0412061135414522,
      "compression_loss": 16.47986602783203,
      "distillation_loss": 0.712462306022644,
      "epoch": 2.16,
      "learning_rate": 4.754852849092048e-05,
      "loss": 17.0428,
      "step": 2558,
      "task_loss": 0.583937406539917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15355457722148735,
      "compression/movement_sparsity/importance_threshold": -0.005493553425682273,
      "compression/movement_sparsity/linear_layer_sparsity": 0.043306979014991254,
      "compression/movement_sparsity/model_sparsity": 0.0418192510579757,
      "compression_loss": 16.56117057800293,
      "distillation_loss": 0.6467421650886536,
      "epoch": 2.16,
      "learning_rate": 4.754539762053851e-05,
      "loss": 17.1761,
      "step": 2559,
      "task_loss": 1.1820670366287231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15431010715853188,
      "compression/movement_sparsity/importance_threshold": -0.0054886499269307144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04376030009600386,
      "compression/movement_sparsity/model_sparsity": 0.042256999165276754,
      "compression_loss": 16.64242172241211,
      "distillation_loss": 0.6140848398208618,
      "epoch": 2.16,
      "learning_rate": 4.754226675015654e-05,
      "loss": 17.2849,
      "step": 2560,
      "task_loss": 0.6969770193099976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1550651873753891,
      "compression/movement_sparsity/importance_threshold": -0.005483749346928328,
      "compression/movement_sparsity/linear_layer_sparsity": 0.044407853943637034,
      "compression/movement_sparsity/model_sparsity": 0.04288230754613509,
      "compression_loss": 16.723617553710938,
      "distillation_loss": 0.6086236834526062,
      "epoch": 2.16,
      "learning_rate": 4.753913587977458e-05,
      "loss": 17.3085,
      "step": 2561,
      "task_loss": 0.6385365128517151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15581981800594402,
      "compression/movement_sparsity/importance_threshold": -0.005478851684806177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04496648927320958,
      "compression/movement_sparsity/model_sparsity": 0.043421752033573534,
      "compression_loss": 16.804758071899414,
      "distillation_loss": 0.809333860874176,
      "epoch": 2.17,
      "learning_rate": 4.7536005009392613e-05,
      "loss": 17.4913,
      "step": 2562,
      "task_loss": 1.3450331687927246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.156573999184082,
      "compression/movement_sparsity/importance_threshold": -0.005473956939695329,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04546004249582559,
      "compression/movement_sparsity/model_sparsity": 0.04389835018464537,
      "compression_loss": 16.885852813720703,
      "distillation_loss": 0.428792804479599,
      "epoch": 2.17,
      "learning_rate": 4.7532874139010645e-05,
      "loss": 17.3086,
      "step": 2563,
      "task_loss": 0.36649569869041443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1573277310436879,
      "compression/movement_sparsity/importance_threshold": -0.00546906511072685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.045979387693037964,
      "compression/movement_sparsity/model_sparsity": 0.044399854276640796,
      "compression_loss": 16.96689224243164,
      "distillation_loss": 0.6158169507980347,
      "epoch": 2.17,
      "learning_rate": 4.752974326862868e-05,
      "loss": 17.4961,
      "step": 2564,
      "task_loss": 0.48326969146728516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1580810137186469,
      "compression/movement_sparsity/importance_threshold": -0.005464176197031808,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04666793682900324,
      "compression/movement_sparsity/model_sparsity": 0.04506474963156076,
      "compression_loss": 17.04787254333496,
      "distillation_loss": 0.6933388710021973,
      "epoch": 2.17,
      "learning_rate": 4.7526612398246716e-05,
      "loss": 17.7725,
      "step": 2565,
      "task_loss": 0.12252967059612274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15883384734284445,
      "compression/movement_sparsity/importance_threshold": -0.005459290197741265,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04737785407337198,
      "compression/movement_sparsity/model_sparsity": 0.045750279034624544,
      "compression_loss": 17.12881851196289,
      "distillation_loss": 0.5452978610992432,
      "epoch": 2.17,
      "learning_rate": 4.752348152786475e-05,
      "loss": 17.7374,
      "step": 2566,
      "task_loss": 0.5267574191093445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.15958623205016553,
      "compression/movement_sparsity/importance_threshold": -0.005454407111986288,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04807689647685681,
      "compression/movement_sparsity/model_sparsity": 0.0464253071810437,
      "compression_loss": 17.2097110748291,
      "distillation_loss": 0.4271111488342285,
      "epoch": 2.17,
      "learning_rate": 4.752035065748278e-05,
      "loss": 17.7764,
      "step": 2567,
      "task_loss": 0.35401666164398193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1603381679744953,
      "compression/movement_sparsity/importance_threshold": -0.005449526938897945,
      "compression/movement_sparsity/linear_layer_sparsity": 0.048763752381017794,
      "compression/movement_sparsity/model_sparsity": 0.047088567471880845,
      "compression_loss": 17.29054832458496,
      "distillation_loss": 0.546153724193573,
      "epoch": 2.17,
      "learning_rate": 4.751721978710081e-05,
      "loss": 17.8335,
      "step": 2568,
      "task_loss": 0.35751181840896606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16108965524971874,
      "compression/movement_sparsity/importance_threshold": -0.005444649677607301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.04936529086574418,
      "compression/movement_sparsity/model_sparsity": 0.04766944125910804,
      "compression_loss": 17.3713321685791,
      "distillation_loss": 0.46392932534217834,
      "epoch": 2.17,
      "learning_rate": 4.751408891671885e-05,
      "loss": 17.8385,
      "step": 2569,
      "task_loss": 1.1553065776824951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16184069400972123,
      "compression/movement_sparsity/importance_threshold": -0.005439775327245421,
      "compression/movement_sparsity/linear_layer_sparsity": 0.049960557238294095,
      "compression/movement_sparsity/model_sparsity": 0.04824425840050731,
      "compression_loss": 17.452062606811523,
      "distillation_loss": 0.21762919425964355,
      "epoch": 2.17,
      "learning_rate": 4.751095804633688e-05,
      "loss": 17.9281,
      "step": 2570,
      "task_loss": 1.5561257600784302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16259128438838777,
      "compression/movement_sparsity/importance_threshold": -0.0054349038869433725,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05045699610947798,
      "compression/movement_sparsity/model_sparsity": 0.04872364306924143,
      "compression_loss": 17.53274154663086,
      "distillation_loss": 0.4284694492816925,
      "epoch": 2.17,
      "learning_rate": 4.750782717595492e-05,
      "loss": 18.0582,
      "step": 2571,
      "task_loss": 0.44271305203437805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16334142651960348,
      "compression/movement_sparsity/importance_threshold": -0.005430035355832221,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05112399827452525,
      "compression/movement_sparsity/model_sparsity": 0.049367731657980654,
      "compression_loss": 17.613370895385742,
      "distillation_loss": 0.5635119080543518,
      "epoch": 2.17,
      "learning_rate": 4.750469630557295e-05,
      "loss": 18.1258,
      "step": 2572,
      "task_loss": 0.9482659101486206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1640911205372535,
      "compression/movement_sparsity/importance_threshold": -0.005425169733043034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0517978449117955,
      "compression/movement_sparsity/model_sparsity": 0.05001842959026595,
      "compression_loss": 17.69392967224121,
      "distillation_loss": 0.6442070007324219,
      "epoch": 2.17,
      "learning_rate": 4.750156543519098e-05,
      "loss": 18.3589,
      "step": 2573,
      "task_loss": 1.0752402544021606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16484036657522272,
      "compression/movement_sparsity/importance_threshold": -0.005420307017706877,
      "compression/movement_sparsity/linear_layer_sparsity": 0.052426737437078555,
      "compression/movement_sparsity/model_sparsity": 0.05062571772260583,
      "compression_loss": 17.774463653564453,
      "distillation_loss": 0.6814181804656982,
      "epoch": 2.18,
      "learning_rate": 4.749843456480902e-05,
      "loss": 18.7106,
      "step": 2574,
      "task_loss": 1.0185085535049438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16558916476739693,
      "compression/movement_sparsity/importance_threshold": -0.005415447208954813,
      "compression/movement_sparsity/linear_layer_sparsity": 0.052959437702043095,
      "compression/movement_sparsity/model_sparsity": 0.05114011809469114,
      "compression_loss": 17.854948043823242,
      "distillation_loss": 0.5388513803482056,
      "epoch": 2.18,
      "learning_rate": 4.7495303694427054e-05,
      "loss": 18.4279,
      "step": 2575,
      "task_loss": 0.21930694580078125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16633751524766094,
      "compression/movement_sparsity/importance_threshold": -0.005410590305917911,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05356386183533736,
      "compression/movement_sparsity/model_sparsity": 0.051723778399580624,
      "compression_loss": 17.93538475036621,
      "distillation_loss": 0.7340750098228455,
      "epoch": 2.18,
      "learning_rate": 4.749217282404509e-05,
      "loss": 18.6361,
      "step": 2576,
      "task_loss": 0.8354368805885315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16708541814989974,
      "compression/movement_sparsity/importance_threshold": -0.005405736307727236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05421101026127091,
      "compression/movement_sparsity/model_sparsity": 0.05234869528622194,
      "compression_loss": 18.015769958496094,
      "distillation_loss": 0.5724314451217651,
      "epoch": 2.18,
      "learning_rate": 4.7489041953663124e-05,
      "loss": 18.6146,
      "step": 2577,
      "task_loss": 0.593174159526825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1678328736079987,
      "compression/movement_sparsity/importance_threshold": -0.005400885213513854,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05470421768302548,
      "compression/movement_sparsity/model_sparsity": 0.052824959515755734,
      "compression_loss": 18.096105575561523,
      "distillation_loss": 0.7497145533561707,
      "epoch": 2.18,
      "learning_rate": 4.7485911083281156e-05,
      "loss": 18.7761,
      "step": 2578,
      "task_loss": 2.0371592044830322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16857988175584282,
      "compression/movement_sparsity/importance_threshold": -0.005396037022408832,
      "compression/movement_sparsity/linear_layer_sparsity": 0.055507214979959765,
      "compression/movement_sparsity/model_sparsity": 0.0536003713852317,
      "compression_loss": 18.176387786865234,
      "distillation_loss": 0.506813645362854,
      "epoch": 2.18,
      "learning_rate": 4.748278021289919e-05,
      "loss": 18.9498,
      "step": 2579,
      "task_loss": 0.48924702405929565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.16932644272731723,
      "compression/movement_sparsity/importance_threshold": -0.005391191733543235,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05611163911325403,
      "compression/movement_sparsity/model_sparsity": 0.05418403169012118,
      "compression_loss": 18.25662612915039,
      "distillation_loss": 0.7935612201690674,
      "epoch": 2.18,
      "learning_rate": 4.7479649342517226e-05,
      "loss": 19.2499,
      "step": 2580,
      "task_loss": 0.48973962664604187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17007255665630716,
      "compression/movement_sparsity/importance_threshold": -0.00538634934604813,
      "compression/movement_sparsity/linear_layer_sparsity": 0.056707108196653755,
      "compression/movement_sparsity/model_sparsity": 0.05475904457862896,
      "compression_loss": 18.336841583251953,
      "distillation_loss": 0.7533597946166992,
      "epoch": 2.18,
      "learning_rate": 4.747651847213526e-05,
      "loss": 18.9592,
      "step": 2581,
      "task_loss": 0.6496530771255493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17081822367669763,
      "compression/movement_sparsity/importance_threshold": -0.005381509859054582,
      "compression/movement_sparsity/linear_layer_sparsity": 0.057253497406064266,
      "compression/movement_sparsity/model_sparsity": 0.055286663637806405,
      "compression_loss": 18.4169979095459,
      "distillation_loss": 0.8017264604568481,
      "epoch": 2.18,
      "learning_rate": 4.747338760175329e-05,
      "loss": 19.2127,
      "step": 2582,
      "task_loss": 0.39560580253601074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17156344392237388,
      "compression/movement_sparsity/importance_threshold": -0.005376673271693658,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05787948043444417,
      "compression/movement_sparsity/model_sparsity": 0.05589114222341242,
      "compression_loss": 18.49711036682129,
      "distillation_loss": 0.6537675261497498,
      "epoch": 2.18,
      "learning_rate": 4.747025673137132e-05,
      "loss": 19.0345,
      "step": 2583,
      "task_loss": 0.848233699798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17230821752722114,
      "compression/movement_sparsity/importance_threshold": -0.005371839583096423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.058476249252116204,
      "compression/movement_sparsity/model_sparsity": 0.0564674101963218,
      "compression_loss": 18.577184677124023,
      "distillation_loss": 1.321580410003662,
      "epoch": 2.18,
      "learning_rate": 4.746712586098936e-05,
      "loss": 19.4039,
      "step": 2584,
      "task_loss": 0.9027097225189209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17305254462512398,
      "compression/movement_sparsity/importance_threshold": -0.005367008792393947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0590520553830844,
      "compression/movement_sparsity/model_sparsity": 0.05702343561530438,
      "compression_loss": 18.65719985961914,
      "distillation_loss": 0.4809798002243042,
      "epoch": 2.19,
      "learning_rate": 4.746399499060739e-05,
      "loss": 19.2038,
      "step": 2585,
      "task_loss": 0.7717567682266235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17379642534996842,
      "compression/movement_sparsity/importance_threshold": -0.005362180898717289,
      "compression/movement_sparsity/linear_layer_sparsity": 0.05973891128724538,
      "compression/movement_sparsity/model_sparsity": 0.05768669590614152,
      "compression_loss": 18.737165451049805,
      "distillation_loss": 0.7324113845825195,
      "epoch": 2.19,
      "learning_rate": 4.7460864120225424e-05,
      "loss": 19.3647,
      "step": 2586,
      "task_loss": 1.06319260597229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17453985983563913,
      "compression/movement_sparsity/importance_threshold": -0.005357355901197519,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06043342250702858,
      "compression/movement_sparsity/model_sparsity": 0.058357348528958755,
      "compression_loss": 18.817060470581055,
      "distillation_loss": 0.6199138760566711,
      "epoch": 2.19,
      "learning_rate": 4.745773324984346e-05,
      "loss": 19.3144,
      "step": 2587,
      "task_loss": 0.28767749667167664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17528284821602125,
      "compression/movement_sparsity/importance_threshold": -0.005352533798965704,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06095274385590569,
      "compression/movement_sparsity/model_sparsity": 0.05885882959188259,
      "compression_loss": 18.896942138671875,
      "distillation_loss": 0.5891473889350891,
      "epoch": 2.19,
      "learning_rate": 4.7454602379461494e-05,
      "loss": 19.52,
      "step": 2588,
      "task_loss": 1.4223262071609497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.176025390625,
      "compression/movement_sparsity/importance_threshold": -0.005347714591152908,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06134366576767982,
      "compression/movement_sparsity/model_sparsity": 0.059236322133370815,
      "compression_loss": 18.97675323486328,
      "distillation_loss": 0.6089892983436584,
      "epoch": 2.19,
      "learning_rate": 4.7451471509079526e-05,
      "loss": 19.5565,
      "step": 2589,
      "task_loss": 0.9465068578720093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17676748719646052,
      "compression/movement_sparsity/importance_threshold": -0.005342898276890198,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0618961601509199,
      "compression/movement_sparsity/model_sparsity": 0.05976983663487507,
      "compression_loss": 19.056522369384766,
      "distillation_loss": 0.8925899863243103,
      "epoch": 2.19,
      "learning_rate": 4.744834063869756e-05,
      "loss": 19.7229,
      "step": 2590,
      "task_loss": 1.4510037899017334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17750913806428792,
      "compression/movement_sparsity/importance_threshold": -0.005338084855308639,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06260128387989902,
      "compression/movement_sparsity/model_sparsity": 0.06045073719454945,
      "compression_loss": 19.136220932006836,
      "distillation_loss": 0.5736783742904663,
      "epoch": 2.19,
      "learning_rate": 4.7445209768315596e-05,
      "loss": 19.6297,
      "step": 2591,
      "task_loss": 1.009959101676941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17825034336236723,
      "compression/movement_sparsity/importance_threshold": -0.005333274325539299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0633094840441282,
      "compression/movement_sparsity/model_sparsity": 0.061134608504458815,
      "compression_loss": 19.215866088867188,
      "distillation_loss": 0.7164064049720764,
      "epoch": 2.19,
      "learning_rate": 4.744207889793363e-05,
      "loss": 19.7297,
      "step": 2592,
      "task_loss": 0.37899401783943176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17899110322458378,
      "compression/movement_sparsity/importance_threshold": -0.005328466686713243,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06392764481853896,
      "compression/movement_sparsity/model_sparsity": 0.061731533554583606,
      "compression_loss": 19.295448303222656,
      "distillation_loss": 0.5657089352607727,
      "epoch": 2.19,
      "learning_rate": 4.743894802755166e-05,
      "loss": 19.7436,
      "step": 2593,
      "task_loss": 0.3073692321777344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.17973141778482238,
      "compression/movement_sparsity/importance_threshold": -0.005323661937961539,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0646266872220238,
      "compression/movement_sparsity/model_sparsity": 0.06240656170100276,
      "compression_loss": 19.37498664855957,
      "distillation_loss": 0.48428961634635925,
      "epoch": 2.19,
      "learning_rate": 4.743581715716969e-05,
      "loss": 19.9469,
      "step": 2594,
      "task_loss": 0.42430898547172546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1804712871769687,
      "compression/movement_sparsity/importance_threshold": -0.005318860078415248,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06528604599561648,
      "compression/movement_sparsity/model_sparsity": 0.06304326947229769,
      "compression_loss": 19.454463958740234,
      "distillation_loss": 0.7414526343345642,
      "epoch": 2.19,
      "learning_rate": 4.743268628678773e-05,
      "loss": 20.0711,
      "step": 2595,
      "task_loss": 0.8540310263633728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18121071153490753,
      "compression/movement_sparsity/importance_threshold": -0.00531406110720544,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06591030001968919,
      "compression/movement_sparsity/model_sparsity": 0.06364607845021349,
      "compression_loss": 19.533884048461914,
      "distillation_loss": 0.54049152135849,
      "epoch": 2.19,
      "learning_rate": 4.742955541640576e-05,
      "loss": 20.164,
      "step": 2596,
      "task_loss": 1.4451738595962524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18194969099252412,
      "compression/movement_sparsity/importance_threshold": -0.00530926502346318,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06654680016392392,
      "compression/movement_sparsity/model_sparsity": 0.06426071285639029,
      "compression_loss": 19.61327362060547,
      "distillation_loss": 0.7271435260772705,
      "epoch": 2.2,
      "learning_rate": 4.7426424546023794e-05,
      "loss": 20.3323,
      "step": 2597,
      "task_loss": 0.30670493841171265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18268822568370358,
      "compression/movement_sparsity/importance_threshold": -0.0053044718263195335,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06712072227640564,
      "compression/movement_sparsity/model_sparsity": 0.06481491897871733,
      "compression_loss": 19.69264793395996,
      "distillation_loss": 1.0440298318862915,
      "epoch": 2.2,
      "learning_rate": 4.742329367564183e-05,
      "loss": 20.7942,
      "step": 2598,
      "task_loss": 1.1466645002365112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18342631574233104,
      "compression/movement_sparsity/importance_threshold": -0.005299681514905568,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0678001255757942,
      "compression/movement_sparsity/model_sparsity": 0.06547098268468288,
      "compression_loss": 19.77198028564453,
      "distillation_loss": 0.9339715242385864,
      "epoch": 2.2,
      "learning_rate": 4.7420162805259864e-05,
      "loss": 20.6992,
      "step": 2599,
      "task_loss": 1.2223396301269531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18416396130229173,
      "compression/movement_sparsity/importance_threshold": -0.005294894088352348,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06842457038654907,
      "compression/movement_sparsity/model_sparsity": 0.06607397589517139,
      "compression_loss": 19.851266860961914,
      "distillation_loss": 0.330619752407074,
      "epoch": 2.2,
      "learning_rate": 4.7417031934877896e-05,
      "loss": 20.3393,
      "step": 2600,
      "task_loss": 0.25710442662239075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18490116249747057,
      "compression/movement_sparsity/importance_threshold": -0.005290109545790941,
      "compression/movement_sparsity/linear_layer_sparsity": 0.069041383730017,
      "compression/movement_sparsity/model_sparsity": 0.06666959980275139,
      "compression_loss": 19.930498123168945,
      "distillation_loss": 0.4047538638114929,
      "epoch": 2.2,
      "learning_rate": 4.741390106449593e-05,
      "loss": 20.5087,
      "step": 2601,
      "task_loss": 1.6334208250045776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1856379194617529,
      "compression/movement_sparsity/importance_threshold": -0.005285327886352413,
      "compression/movement_sparsity/linear_layer_sparsity": 0.06963360943981978,
      "compression/movement_sparsity/model_sparsity": 0.06724148073752306,
      "compression_loss": 20.00967025756836,
      "distillation_loss": 0.916823148727417,
      "epoch": 2.2,
      "learning_rate": 4.7410770194113966e-05,
      "loss": 20.7423,
      "step": 2602,
      "task_loss": 0.6348384618759155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18637423232902384,
      "compression/movement_sparsity/importance_threshold": -0.005280549109167827,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07039695887936481,
      "compression/movement_sparsity/model_sparsity": 0.06797860677548218,
      "compression_loss": 20.088804244995117,
      "distillation_loss": 0.5889856815338135,
      "epoch": 2.2,
      "learning_rate": 4.7407639323732e-05,
      "loss": 20.7093,
      "step": 2603,
      "task_loss": 0.17347808182239532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1871101012331684,
      "compression/movement_sparsity/importance_threshold": -0.005275773213368254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07100443559957385,
      "compression/movement_sparsity/model_sparsity": 0.06856521480153506,
      "compression_loss": 20.167890548706055,
      "distillation_loss": 0.8831599950790405,
      "epoch": 2.2,
      "learning_rate": 4.740450845335003e-05,
      "loss": 20.8773,
      "step": 2604,
      "task_loss": 0.5865026712417603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1878455263080716,
      "compression/movement_sparsity/importance_threshold": -0.0052710001980847574,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07150812436468035,
      "compression/movement_sparsity/model_sparsity": 0.06905160030803226,
      "compression_loss": 20.246902465820312,
      "distillation_loss": 0.7560316920280457,
      "epoch": 2.2,
      "learning_rate": 4.740137758296807e-05,
      "loss": 20.8261,
      "step": 2605,
      "task_loss": 0.7945945262908936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18858050768761903,
      "compression/movement_sparsity/importance_threshold": -0.005266230062448403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07206674777008526,
      "compression/movement_sparsity/model_sparsity": 0.0695910332809349,
      "compression_loss": 20.32585906982422,
      "distillation_loss": 0.5205298662185669,
      "epoch": 2.2,
      "learning_rate": 4.73982467125861e-05,
      "loss": 20.8568,
      "step": 2606,
      "task_loss": 0.7792267799377441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.18931504550569556,
      "compression/movement_sparsity/importance_threshold": -0.0052614628055902566,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07254007760439084,
      "compression/movement_sparsity/model_sparsity": 0.0700481027792992,
      "compression_loss": 20.404787063598633,
      "distillation_loss": 0.6214619278907776,
      "epoch": 2.2,
      "learning_rate": 4.739511584220414e-05,
      "loss": 20.8781,
      "step": 2607,
      "task_loss": 0.4333525002002716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19004913989618644,
      "compression/movement_sparsity/importance_threshold": -0.005256698426641384,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07310826419223972,
      "compression/movement_sparsity/model_sparsity": 0.07059677040990907,
      "compression_loss": 20.483665466308594,
      "distillation_loss": 0.7767001986503601,
      "epoch": 2.2,
      "learning_rate": 4.739198497182217e-05,
      "loss": 21.2221,
      "step": 2608,
      "task_loss": 0.5853105783462524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19078279099297668,
      "compression/movement_sparsity/importance_threshold": -0.005251936924732852,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07383802325155453,
      "compression/movement_sparsity/model_sparsity": 0.07130146000053497,
      "compression_loss": 20.562488555908203,
      "distillation_loss": 0.9071619510650635,
      "epoch": 2.21,
      "learning_rate": 4.73888541014402e-05,
      "loss": 21.2737,
      "step": 2609,
      "task_loss": 1.2055329084396362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19151599892995141,
      "compression/movement_sparsity/importance_threshold": -0.005247178298995728,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07456152212286052,
      "compression/movement_sparsity/model_sparsity": 0.07200010445986872,
      "compression_loss": 20.641273498535156,
      "distillation_loss": 0.23543834686279297,
      "epoch": 2.21,
      "learning_rate": 4.738572323105824e-05,
      "loss": 21.0178,
      "step": 2610,
      "task_loss": 0.4128836691379547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19224876384099587,
      "compression/movement_sparsity/importance_threshold": -0.005242422548561076,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07509552212209737,
      "compression/movement_sparsity/model_sparsity": 0.07251575991635564,
      "compression_loss": 20.71998405456543,
      "distillation_loss": 0.464539498090744,
      "epoch": 2.21,
      "learning_rate": 4.738259236067627e-05,
      "loss": 21.4524,
      "step": 2611,
      "task_loss": 0.9183220863342285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19298108585999518,
      "compression/movement_sparsity/importance_threshold": -0.005237669672559963,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07557479019188561,
      "compression/movement_sparsity/model_sparsity": 0.07297856365354563,
      "compression_loss": 20.79865074157715,
      "distillation_loss": 0.5535117387771606,
      "epoch": 2.21,
      "learning_rate": 4.7379461490294304e-05,
      "loss": 21.3809,
      "step": 2612,
      "task_loss": 0.7829249501228333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19371296512083447,
      "compression/movement_sparsity/importance_threshold": -0.005232919670123454,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07622211748033371,
      "compression/movement_sparsity/model_sparsity": 0.07360365325822386,
      "compression_loss": 20.877254486083984,
      "distillation_loss": 0.31471019983291626,
      "epoch": 2.21,
      "learning_rate": 4.737633061991234e-05,
      "loss": 21.507,
      "step": 2613,
      "task_loss": 0.044003866612911224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19444440175739863,
      "compression/movement_sparsity/importance_threshold": -0.005228172540382618,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07689712076186464,
      "compression/movement_sparsity/model_sparsity": 0.07425546810048123,
      "compression_loss": 20.9558162689209,
      "distillation_loss": 0.48466625809669495,
      "epoch": 2.21,
      "learning_rate": 4.7373199749530374e-05,
      "loss": 21.5129,
      "step": 2614,
      "task_loss": 0.42754027247428894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19517539590357325,
      "compression/movement_sparsity/importance_threshold": -0.005223428282468518,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07758395281769036,
      "compression/movement_sparsity/model_sparsity": 0.07491870536224678,
      "compression_loss": 21.03431510925293,
      "distillation_loss": 0.3695862591266632,
      "epoch": 2.21,
      "learning_rate": 4.7370068879148406e-05,
      "loss": 21.6682,
      "step": 2615,
      "task_loss": 0.589580237865448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19590594769324332,
      "compression/movement_sparsity/importance_threshold": -0.005218686895512219,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07816394433149873,
      "compression/movement_sparsity/model_sparsity": 0.07547877238329324,
      "compression_loss": 21.112768173217773,
      "distillation_loss": 0.4787243604660034,
      "epoch": 2.21,
      "learning_rate": 4.736693800876644e-05,
      "loss": 21.851,
      "step": 2616,
      "task_loss": 0.6775349378585815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19663605726029387,
      "compression/movement_sparsity/importance_threshold": -0.00521394837864479,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07882336272592959,
      "compression/movement_sparsity/model_sparsity": 0.07611553772726715,
      "compression_loss": 21.191179275512695,
      "distillation_loss": 0.5062515139579773,
      "epoch": 2.21,
      "learning_rate": 4.7363807138384477e-05,
      "loss": 21.8698,
      "step": 2617,
      "task_loss": 1.243478536605835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19736572473861014,
      "compression/movement_sparsity/importance_threshold": -0.005209212730997296,
      "compression/movement_sparsity/linear_layer_sparsity": 0.07958503085783797,
      "compression/movement_sparsity/model_sparsity": 0.07685104021567923,
      "compression_loss": 21.26953125,
      "distillation_loss": 0.6589154601097107,
      "epoch": 2.21,
      "learning_rate": 4.736067626800251e-05,
      "loss": 21.9804,
      "step": 2618,
      "task_loss": 0.6725362539291382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19809495026207724,
      "compression/movement_sparsity/importance_threshold": -0.005204479951700803,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08031437257128554,
      "compression/movement_sparsity/model_sparsity": 0.07755532679755232,
      "compression_loss": 21.347835540771484,
      "distillation_loss": 0.8615413904190063,
      "epoch": 2.21,
      "learning_rate": 4.735754539762054e-05,
      "loss": 21.9524,
      "step": 2619,
      "task_loss": 0.7157600522041321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.1988237339645803,
      "compression/movement_sparsity/importance_threshold": -0.005199750039886377,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08097392213156039,
      "compression/movement_sparsity/model_sparsity": 0.07819221880141995,
      "compression_loss": 21.426076889038086,
      "distillation_loss": 1.1033248901367188,
      "epoch": 2.21,
      "learning_rate": 4.735441452723857e-05,
      "loss": 22.2174,
      "step": 2620,
      "task_loss": 1.1565371751785278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.19955207598000446,
      "compression/movement_sparsity/importance_threshold": -0.005195022994685083,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08160599840960221,
      "compression/movement_sparsity/model_sparsity": 0.07880258131481697,
      "compression_loss": 21.504289627075195,
      "distillation_loss": 0.900945782661438,
      "epoch": 2.22,
      "learning_rate": 4.735128365685661e-05,
      "loss": 22.1445,
      "step": 2621,
      "task_loss": 0.3069593608379364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20027997644223483,
      "compression/movement_sparsity/importance_threshold": -0.00519029881522799,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08229763590498518,
      "compression/movement_sparsity/model_sparsity": 0.07947045893450773,
      "compression_loss": 21.58245277404785,
      "distillation_loss": 0.46861734986305237,
      "epoch": 2.22,
      "learning_rate": 4.734815278647464e-05,
      "loss": 22.1234,
      "step": 2622,
      "task_loss": 0.7127574682235718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20100743548515654,
      "compression/movement_sparsity/importance_threshold": -0.005185577500646161,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08287766319129647,
      "compression/movement_sparsity/model_sparsity": 0.08003056049916157,
      "compression_loss": 21.660573959350586,
      "distillation_loss": 0.5023425221443176,
      "epoch": 2.22,
      "learning_rate": 4.7345021916092674e-05,
      "loss": 22.334,
      "step": 2623,
      "task_loss": 1.18805992603302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20173445324265482,
      "compression/movement_sparsity/importance_threshold": -0.005180859050070664,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0835799608925459,
      "compression/movement_sparsity/model_sparsity": 0.08070873211385264,
      "compression_loss": 21.7386474609375,
      "distillation_loss": 0.36884111166000366,
      "epoch": 2.22,
      "learning_rate": 4.734189104571071e-05,
      "loss": 22.4023,
      "step": 2624,
      "task_loss": 0.32678598165512085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20246102984861447,
      "compression/movement_sparsity/importance_threshold": -0.005176143462632565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08429122556785748,
      "compression/movement_sparsity/model_sparsity": 0.08139556265946121,
      "compression_loss": 21.816675186157227,
      "distillation_loss": 0.5315065979957581,
      "epoch": 2.22,
      "learning_rate": 4.7338760175328744e-05,
      "loss": 22.4444,
      "step": 2625,
      "task_loss": 0.5775920748710632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20318716543692117,
      "compression/movement_sparsity/importance_threshold": -0.005171430737462929,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08508952474274324,
      "compression/movement_sparsity/model_sparsity": 0.08216643780183412,
      "compression_loss": 21.894657135009766,
      "distillation_loss": 0.41181349754333496,
      "epoch": 2.22,
      "learning_rate": 4.7335629304946776e-05,
      "loss": 22.6579,
      "step": 2626,
      "task_loss": 0.3277665376663208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20391286014145993,
      "compression/movement_sparsity/importance_threshold": -0.005166720873692821,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08573363250592965,
      "compression/movement_sparsity/model_sparsity": 0.08278841848184784,
      "compression_loss": 21.97260093688965,
      "distillation_loss": 0.4927271008491516,
      "epoch": 2.22,
      "learning_rate": 4.733249843456481e-05,
      "loss": 22.6129,
      "step": 2627,
      "task_loss": 0.7031636238098145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20463811409611565,
      "compression/movement_sparsity/importance_threshold": -0.005162013870453308,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08625546985417792,
      "compression/movement_sparsity/model_sparsity": 0.08329232911182433,
      "compression_loss": 22.050525665283203,
      "distillation_loss": 0.6874780654907227,
      "epoch": 2.22,
      "learning_rate": 4.7329367564182846e-05,
      "loss": 22.5714,
      "step": 2628,
      "task_loss": 1.1699211597442627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20536292743477358,
      "compression/movement_sparsity/importance_threshold": -0.005157309726875458,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0869331799217622,
      "compression/movement_sparsity/model_sparsity": 0.08394675775370705,
      "compression_loss": 22.128366470336914,
      "distillation_loss": 0.47245094180107117,
      "epoch": 2.22,
      "learning_rate": 4.732623669380088e-05,
      "loss": 22.5769,
      "step": 2629,
      "task_loss": 0.7732880115509033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20608730029131894,
      "compression/movement_sparsity/importance_threshold": -0.005152608442090334,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08746126553385167,
      "compression/movement_sparsity/model_sparsity": 0.08445670200043988,
      "compression_loss": 22.206144332885742,
      "distillation_loss": 0.521500825881958,
      "epoch": 2.22,
      "learning_rate": 4.732310582341891e-05,
      "loss": 22.7048,
      "step": 2630,
      "task_loss": 0.24414920806884766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20681123279963676,
      "compression/movement_sparsity/importance_threshold": -0.005147910015229005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08815151982578887,
      "compression/movement_sparsity/model_sparsity": 0.08512324393397847,
      "compression_loss": 22.283864974975586,
      "distillation_loss": 0.5158487558364868,
      "epoch": 2.22,
      "learning_rate": 4.731997495303694e-05,
      "loss": 22.8049,
      "step": 2631,
      "task_loss": 0.5783953070640564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20753472509361226,
      "compression/movement_sparsity/importance_threshold": -0.005143214445422534,
      "compression/movement_sparsity/linear_layer_sparsity": 0.08888112387092441,
      "compression/movement_sparsity/model_sparsity": 0.08582778383563903,
      "compression_loss": 22.36152458190918,
      "distillation_loss": 0.7815191745758057,
      "epoch": 2.22,
      "learning_rate": 4.731684408265498e-05,
      "loss": 23.1092,
      "step": 2632,
      "task_loss": 1.3155665397644043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.20825777730713058,
      "compression/movement_sparsity/importance_threshold": -0.005138521731801989,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0896018921078418,
      "compression/movement_sparsity/model_sparsity": 0.08652379146627584,
      "compression_loss": 22.439125061035156,
      "distillation_loss": 0.4389807879924774,
      "epoch": 2.23,
      "learning_rate": 4.731371321227301e-05,
      "loss": 22.9286,
      "step": 2633,
      "task_loss": 0.3788175582885742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2089803895740765,
      "compression/movement_sparsity/importance_threshold": -0.005133831873498438,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09031942889532985,
      "compression/movement_sparsity/model_sparsity": 0.08721667865771233,
      "compression_loss": 22.51666831970215,
      "distillation_loss": 0.45241251587867737,
      "epoch": 2.23,
      "learning_rate": 4.7310582341891044e-05,
      "loss": 23.1542,
      "step": 2634,
      "task_loss": 0.39344698190689087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2097025620283357,
      "compression/movement_sparsity/importance_threshold": -0.005129144869642943,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09111009660292865,
      "compression/movement_sparsity/model_sparsity": 0.08798018449717675,
      "compression_loss": 22.594154357910156,
      "distillation_loss": 0.42139220237731934,
      "epoch": 2.23,
      "learning_rate": 4.730745147150908e-05,
      "loss": 23.2301,
      "step": 2635,
      "task_loss": 1.0200010538101196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2104242948037932,
      "compression/movement_sparsity/importance_threshold": -0.005124460719366571,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09192838068277212,
      "compression/movement_sparsity/model_sparsity": 0.08877035800154132,
      "compression_loss": 22.67159080505371,
      "distillation_loss": 0.5375618934631348,
      "epoch": 2.23,
      "learning_rate": 4.7304320601127114e-05,
      "loss": 23.4298,
      "step": 2636,
      "task_loss": 1.094788908958435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21114558803433403,
      "compression/movement_sparsity/importance_threshold": -0.005119779421800389,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09266711864031674,
      "compression/movement_sparsity/model_sparsity": 0.0894837180376205,
      "compression_loss": 22.748964309692383,
      "distillation_loss": 0.8708018064498901,
      "epoch": 2.23,
      "learning_rate": 4.7301189730745146e-05,
      "loss": 23.2834,
      "step": 2637,
      "task_loss": 0.7235084176063538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2118664418538433,
      "compression/movement_sparsity/importance_threshold": -0.005115100976075463,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09343049192819705,
      "compression/movement_sparsity/model_sparsity": 0.0902208671046512,
      "compression_loss": 22.82630157470703,
      "distillation_loss": 0.3416479825973511,
      "epoch": 2.23,
      "learning_rate": 4.7298058860363185e-05,
      "loss": 23.4102,
      "step": 2638,
      "task_loss": 0.1553429514169693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21258685639620623,
      "compression/movement_sparsity/importance_threshold": -0.005110425381322859,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09412953433168188,
      "compression/movement_sparsity/model_sparsity": 0.09089589525107036,
      "compression_loss": 22.903593063354492,
      "distillation_loss": 0.7303729057312012,
      "epoch": 2.23,
      "learning_rate": 4.7294927989981216e-05,
      "loss": 23.6605,
      "step": 2639,
      "task_loss": 0.3490006625652313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21330683179530796,
      "compression/movement_sparsity/importance_threshold": -0.0051057526366736425,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0948044302957041,
      "compression/movement_sparsity/model_sparsity": 0.09154760646250558,
      "compression_loss": 22.980825424194336,
      "distillation_loss": 0.5052585601806641,
      "epoch": 2.23,
      "learning_rate": 4.729179711959925e-05,
      "loss": 23.6157,
      "step": 2640,
      "task_loss": 0.6333514451980591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21402636818503362,
      "compression/movement_sparsity/importance_threshold": -0.005101082741258879,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09559488336828545,
      "compression/movement_sparsity/model_sparsity": 0.09231090504032569,
      "compression_loss": 23.058002471923828,
      "distillation_loss": 0.7902531027793884,
      "epoch": 2.23,
      "learning_rate": 4.728866624921729e-05,
      "loss": 23.7985,
      "step": 2641,
      "task_loss": 1.7616405487060547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21474546569926822,
      "compression/movement_sparsity/importance_threshold": -0.005096415694209637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09629112359237586,
      "compression/movement_sparsity/model_sparsity": 0.09298322727083314,
      "compression_loss": 23.135135650634766,
      "distillation_loss": 0.3821699917316437,
      "epoch": 2.23,
      "learning_rate": 4.728553537883532e-05,
      "loss": 23.6615,
      "step": 2642,
      "task_loss": 0.6751919984817505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2154641244718971,
      "compression/movement_sparsity/importance_threshold": -0.00509175149465698,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09701763927809372,
      "compression/movement_sparsity/model_sparsity": 0.09368478490772292,
      "compression_loss": 23.21223258972168,
      "distillation_loss": 0.29339277744293213,
      "epoch": 2.23,
      "learning_rate": 4.728240450845336e-05,
      "loss": 23.7101,
      "step": 2643,
      "task_loss": 0.8954893350601196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2161823446368053,
      "compression/movement_sparsity/importance_threshold": -0.005087090141731975,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09765565379161821,
      "compression/movement_sparsity/model_sparsity": 0.09430088165994562,
      "compression_loss": 23.289270401000977,
      "distillation_loss": 0.6558669805526733,
      "epoch": 2.23,
      "learning_rate": 4.727927363807139e-05,
      "loss": 24.1616,
      "step": 2644,
      "task_loss": 0.9075151681900024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2169001263278777,
      "compression/movement_sparsity/importance_threshold": -0.00508243163456569,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09826921183732154,
      "compression/movement_sparsity/model_sparsity": 0.09489336209925371,
      "compression_loss": 23.36625862121582,
      "distillation_loss": 0.6486536264419556,
      "epoch": 2.24,
      "learning_rate": 4.727614276768942e-05,
      "loss": 24.0378,
      "step": 2645,
      "task_loss": 0.7238809466362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21761746967899998,
      "compression/movement_sparsity/importance_threshold": -0.005077775972289188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.09900488528378375,
      "compression/movement_sparsity/model_sparsity": 0.0956037628996337,
      "compression_loss": 23.443214416503906,
      "distillation_loss": 0.38805127143859863,
      "epoch": 2.24,
      "learning_rate": 4.727301189730746e-05,
      "loss": 24.0104,
      "step": 2646,
      "task_loss": 0.34521588683128357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21833437482405704,
      "compression/movement_sparsity/importance_threshold": -0.005073123154033535,
      "compression/movement_sparsity/linear_layer_sparsity": 0.0997314009695016,
      "compression/movement_sparsity/model_sparsity": 0.09630532053652348,
      "compression_loss": 23.520103454589844,
      "distillation_loss": 0.33291494846343994,
      "epoch": 2.24,
      "learning_rate": 4.726988102692549e-05,
      "loss": 24.0241,
      "step": 2647,
      "task_loss": 0.8195376396179199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2190508418969339,
      "compression/movement_sparsity/importance_threshold": -0.0050684731789297985,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10055768616582873,
      "compression/movement_sparsity/model_sparsity": 0.09710322029440618,
      "compression_loss": 23.596914291381836,
      "distillation_loss": 0.4051327705383301,
      "epoch": 2.24,
      "learning_rate": 4.726675015654352e-05,
      "loss": 23.9677,
      "step": 2648,
      "task_loss": 0.4771091043949127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.21976687103151593,
      "compression/movement_sparsity/importance_threshold": -0.005063826046109044,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10125366405823115,
      "compression/movement_sparsity/model_sparsity": 0.09777528920512615,
      "compression_loss": 23.6737003326416,
      "distillation_loss": 0.35507333278656006,
      "epoch": 2.24,
      "learning_rate": 4.7263619286161555e-05,
      "loss": 24.3562,
      "step": 2649,
      "task_loss": 0.6983992457389832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.220482462361688,
      "compression/movement_sparsity/importance_threshold": -0.005059181754702339,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10209618997087833,
      "compression/movement_sparsity/model_sparsity": 0.09858887176076102,
      "compression_loss": 23.750442504882812,
      "distillation_loss": 0.8532113432884216,
      "epoch": 2.24,
      "learning_rate": 4.726048841577959e-05,
      "loss": 24.4177,
      "step": 2650,
      "task_loss": 0.49513962864875793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22119761602133547,
      "compression/movement_sparsity/importance_threshold": -0.005054540303840747,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10285001200048231,
      "compression/movement_sparsity/model_sparsity": 0.09931679768462029,
      "compression_loss": 23.827123641967773,
      "distillation_loss": 0.3679310083389282,
      "epoch": 2.24,
      "learning_rate": 4.7257357545397625e-05,
      "loss": 24.4987,
      "step": 2651,
      "task_loss": 0.6169549822807312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22191233214434336,
      "compression/movement_sparsity/importance_threshold": -0.005049901692655337,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10349130566010666,
      "compression/movement_sparsity/model_sparsity": 0.0999360609341865,
      "compression_loss": 23.903757095336914,
      "distillation_loss": 0.7356378436088562,
      "epoch": 2.24,
      "learning_rate": 4.725422667501566e-05,
      "loss": 24.6139,
      "step": 2652,
      "task_loss": 0.6439374685287476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2226266108645969,
      "compression/movement_sparsity/importance_threshold": -0.0050452659202771715,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10416616585162596,
      "compression/movement_sparsity/model_sparsity": 0.10058773760201432,
      "compression_loss": 23.98036003112793,
      "distillation_loss": 0.5498232841491699,
      "epoch": 2.24,
      "learning_rate": 4.725109580463369e-05,
      "loss": 24.5953,
      "step": 2653,
      "task_loss": 0.321719765663147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2233404523159811,
      "compression/movement_sparsity/importance_threshold": -0.0050406329858373195,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10491559978753995,
      "compression/movement_sparsity/model_sparsity": 0.10131142617670122,
      "compression_loss": 24.056884765625,
      "distillation_loss": 0.4804812967777252,
      "epoch": 2.24,
      "learning_rate": 4.724796493425173e-05,
      "loss": 24.6566,
      "step": 2654,
      "task_loss": 1.3845930099487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2240538566323813,
      "compression/movement_sparsity/importance_threshold": -0.005036002888466846,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10568504247674691,
      "compression/movement_sparsity/model_sparsity": 0.10205443614245134,
      "compression_loss": 24.13335609436035,
      "distillation_loss": 0.2904255986213684,
      "epoch": 2.24,
      "learning_rate": 4.724483406386976e-05,
      "loss": 24.6611,
      "step": 2655,
      "task_loss": 2.1085424423217773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2247668239476821,
      "compression/movement_sparsity/importance_threshold": -0.005031375627296818,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10645449709012153,
      "compression/movement_sparsity/model_sparsity": 0.10279745762273726,
      "compression_loss": 24.20977783203125,
      "distillation_loss": 0.5884491205215454,
      "epoch": 2.24,
      "learning_rate": 4.724170319348779e-05,
      "loss": 25.0663,
      "step": 2656,
      "task_loss": 1.0367165803909302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22547935439576938,
      "compression/movement_sparsity/importance_threshold": -0.005026751201458299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10736742328849083,
      "compression/movement_sparsity/model_sparsity": 0.1036790219977031,
      "compression_loss": 24.286161422729492,
      "distillation_loss": 0.7065024375915527,
      "epoch": 2.25,
      "learning_rate": 4.723857232310582e-05,
      "loss": 24.8922,
      "step": 2657,
      "task_loss": 1.2362682819366455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22619144811052805,
      "compression/movement_sparsity/importance_threshold": -0.005022129610082357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1081063758810529,
      "compression/movement_sparsity/model_sparsity": 0.1043925892954266,
      "compression_loss": 24.36249351501465,
      "distillation_loss": 0.5661596059799194,
      "epoch": 2.25,
      "learning_rate": 4.723544145272386e-05,
      "loss": 25.0935,
      "step": 2658,
      "task_loss": 1.0125246047973633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22690310522584312,
      "compression/movement_sparsity/importance_threshold": -0.005017510852300057,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10873221581942116,
      "compression/movement_sparsity/model_sparsity": 0.10499692970660307,
      "compression_loss": 24.438779830932617,
      "distillation_loss": 0.456632137298584,
      "epoch": 2.25,
      "learning_rate": 4.723231058234189e-05,
      "loss": 25.1371,
      "step": 2659,
      "task_loss": 1.001586675643921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2276143258755997,
      "compression/movement_sparsity/importance_threshold": -0.005012894927242466,
      "compression/movement_sparsity/linear_layer_sparsity": 0.10953504617800855,
      "compression/movement_sparsity/model_sparsity": 0.1057721803725779,
      "compression_loss": 24.51500701904297,
      "distillation_loss": 0.44456180930137634,
      "epoch": 2.25,
      "learning_rate": 4.7229179711959924e-05,
      "loss": 25.2269,
      "step": 2660,
      "task_loss": 0.2866824269294739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22832511019368307,
      "compression/movement_sparsity/importance_threshold": -0.005008281834040651,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11024932766773202,
      "compression/movement_sparsity/model_sparsity": 0.1064619240957425,
      "compression_loss": 24.59119415283203,
      "distillation_loss": 0.6540637016296387,
      "epoch": 2.25,
      "learning_rate": 4.722604884157796e-05,
      "loss": 25.1216,
      "step": 2661,
      "task_loss": 0.14688332378864288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2290354583139782,
      "compression/movement_sparsity/importance_threshold": -0.005003671571825675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11113156105860661,
      "compression/movement_sparsity/model_sparsity": 0.10731385005557317,
      "compression_loss": 24.667316436767578,
      "distillation_loss": 0.8222883343696594,
      "epoch": 2.25,
      "learning_rate": 4.7222917971195995e-05,
      "loss": 25.2521,
      "step": 2662,
      "task_loss": 1.1779440641403198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.22974537037037046,
      "compression/movement_sparsity/importance_threshold": -0.004999064139728606,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1118764041899808,
      "compression/movement_sparsity/model_sparsity": 0.10803310553397917,
      "compression_loss": 24.743410110473633,
      "distillation_loss": 0.6208392977714539,
      "epoch": 2.25,
      "learning_rate": 4.7219787100814027e-05,
      "loss": 25.4578,
      "step": 2663,
      "task_loss": 1.0132321119308472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23045484649674486,
      "compression/movement_sparsity/importance_threshold": -0.00499445953688051,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11258462820254525,
      "compression/movement_sparsity/model_sparsity": 0.10871699987296013,
      "compression_loss": 24.81946563720703,
      "distillation_loss": 0.5902575254440308,
      "epoch": 2.25,
      "learning_rate": 4.721665623043206e-05,
      "loss": 25.3823,
      "step": 2664,
      "task_loss": 0.9076876640319824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2311638868269862,
      "compression/movement_sparsity/importance_threshold": -0.004989857762412455,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11327146025837095,
      "compression/movement_sparsity/model_sparsity": 0.10938023713472568,
      "compression_loss": 24.89548110961914,
      "distillation_loss": 0.3179352879524231,
      "epoch": 2.25,
      "learning_rate": 4.72135253600501e-05,
      "loss": 25.4504,
      "step": 2665,
      "task_loss": 0.14397116005420685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23187249149498024,
      "compression/movement_sparsity/importance_threshold": -0.004985258815455503,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11383921757618494,
      "compression/movement_sparsity/model_sparsity": 0.10992849024204694,
      "compression_loss": 24.971446990966797,
      "distillation_loss": 0.8588826656341553,
      "epoch": 2.25,
      "learning_rate": 4.721039448966813e-05,
      "loss": 25.6283,
      "step": 2666,
      "task_loss": 1.2762912511825562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2325806606346119,
      "compression/movement_sparsity/importance_threshold": -0.004980662695140721,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1147489361734602,
      "compression/movement_sparsity/model_sparsity": 0.11080695720688405,
      "compression_loss": 25.047380447387695,
      "distillation_loss": 0.8713862299919128,
      "epoch": 2.25,
      "learning_rate": 4.720726361928616e-05,
      "loss": 25.8066,
      "step": 2667,
      "task_loss": 1.0305534601211548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23328839437976623,
      "compression/movement_sparsity/importance_threshold": -0.004976069400599178,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11538695068698468,
      "compression/movement_sparsity/model_sparsity": 0.11142305395910675,
      "compression_loss": 25.123260498046875,
      "distillation_loss": 0.8315489292144775,
      "epoch": 2.26,
      "learning_rate": 4.720413274890419e-05,
      "loss": 25.8843,
      "step": 2668,
      "task_loss": 0.8052258491516113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23399569286432842,
      "compression/movement_sparsity/importance_threshold": -0.0049714789309619365,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11618086176818045,
      "compression/movement_sparsity/model_sparsity": 0.11218969175230728,
      "compression_loss": 25.199073791503906,
      "distillation_loss": 0.7392635345458984,
      "epoch": 2.26,
      "learning_rate": 4.720100187852223e-05,
      "loss": 25.8108,
      "step": 2669,
      "task_loss": 0.6530494093894958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2347025562221836,
      "compression/movement_sparsity/importance_threshold": -0.004966891285360065,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11684177068356578,
      "compression/movement_sparsity/model_sparsity": 0.1128278964132555,
      "compression_loss": 25.27483558654785,
      "distillation_loss": 0.28167724609375,
      "epoch": 2.26,
      "learning_rate": 4.719787100814026e-05,
      "loss": 25.7685,
      "step": 2670,
      "task_loss": 0.2562342584133148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23540898458721693,
      "compression/movement_sparsity/importance_threshold": -0.004962306462924627,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11748302857068722,
      "compression/movement_sparsity/model_sparsity": 0.1134471251192143,
      "compression_loss": 25.3505802154541,
      "distillation_loss": 0.5110008716583252,
      "epoch": 2.26,
      "learning_rate": 4.7194740137758294e-05,
      "loss": 25.9117,
      "step": 2671,
      "task_loss": 0.4542040228843689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2361149780933135,
      "compression/movement_sparsity/importance_threshold": -0.004957724462786692,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11820652744199321,
      "compression/movement_sparsity/model_sparsity": 0.11414576957854806,
      "compression_loss": 25.4262638092041,
      "distillation_loss": 0.5463050603866577,
      "epoch": 2.26,
      "learning_rate": 4.719160926737633e-05,
      "loss": 25.9917,
      "step": 2672,
      "task_loss": 1.534857153892517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23682053687435844,
      "compression/movement_sparsity/importance_threshold": -0.004953145284077323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11900173825746128,
      "compression/movement_sparsity/model_sparsity": 0.1149136624561502,
      "compression_loss": 25.501888275146484,
      "distillation_loss": 0.7513213753700256,
      "epoch": 2.26,
      "learning_rate": 4.7188478396994365e-05,
      "loss": 26.098,
      "step": 2673,
      "task_loss": 0.8110142350196838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23752566106423678,
      "compression/movement_sparsity/importance_threshold": -0.004948568925927589,
      "compression/movement_sparsity/linear_layer_sparsity": 0.11964892245589775,
      "compression/movement_sparsity/model_sparsity": 0.1155386138863989,
      "compression_loss": 25.577468872070312,
      "distillation_loss": 1.0473848581314087,
      "epoch": 2.26,
      "learning_rate": 4.71853475266124e-05,
      "loss": 26.2776,
      "step": 2674,
      "task_loss": 0.7302505373954773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2382303507968342,
      "compression/movement_sparsity/importance_threshold": -0.004943995387468552,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12026574772353331,
      "compression/movement_sparsity/model_sparsity": 0.11613424930851471,
      "compression_loss": 25.65298843383789,
      "distillation_loss": 0.5484728217124939,
      "epoch": 2.26,
      "learning_rate": 4.7182216656230435e-05,
      "loss": 26.2101,
      "step": 2675,
      "task_loss": 0.9423106908798218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23893460620603502,
      "compression/movement_sparsity/importance_threshold": -0.004939424667831283,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12113724936353563,
      "compression/movement_sparsity/model_sparsity": 0.1169758121861303,
      "compression_loss": 25.72846794128418,
      "distillation_loss": 0.5987148880958557,
      "epoch": 2.26,
      "learning_rate": 4.7179085785848474e-05,
      "loss": 26.5761,
      "step": 2676,
      "task_loss": 0.67694091796875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.23963842742572505,
      "compression/movement_sparsity/importance_threshold": -0.0049348567661468435,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12194618489595258,
      "compression/movement_sparsity/model_sparsity": 0.11775695829443196,
      "compression_loss": 25.80389404296875,
      "distillation_loss": 0.37201178073883057,
      "epoch": 2.26,
      "learning_rate": 4.7175954915466505e-05,
      "loss": 26.2325,
      "step": 2677,
      "task_loss": 0.10757792741060257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2403418145897892,
      "compression/movement_sparsity/importance_threshold": -0.004930291681546301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12272310403826724,
      "compression/movement_sparsity/model_sparsity": 0.11850718787412526,
      "compression_loss": 25.879234313964844,
      "distillation_loss": 0.8169753551483154,
      "epoch": 2.26,
      "learning_rate": 4.717282404508454e-05,
      "loss": 26.4643,
      "step": 2678,
      "task_loss": 0.484881192445755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2410447678321126,
      "compression/movement_sparsity/importance_threshold": -0.004925729413160723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12348623884279483,
      "compression/movement_sparsity/model_sparsity": 0.11924410665044008,
      "compression_loss": 25.95453643798828,
      "distillation_loss": 0.3653205633163452,
      "epoch": 2.26,
      "learning_rate": 4.716969317470257e-05,
      "loss": 26.6112,
      "step": 2679,
      "task_loss": 0.7734857201576233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24174728728658035,
      "compression/movement_sparsity/importance_threshold": -0.004921169960121173,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12426460080939342,
      "compression/movement_sparsity/model_sparsity": 0.11999572948896452,
      "compression_loss": 26.029794692993164,
      "distillation_loss": 0.7885230779647827,
      "epoch": 2.27,
      "learning_rate": 4.716656230432061e-05,
      "loss": 26.7258,
      "step": 2680,
      "task_loss": 1.2691277265548706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2424493730870777,
      "compression/movement_sparsity/importance_threshold": -0.004916613321558719,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12511629640695257,
      "compression/movement_sparsity/model_sparsity": 0.1208181667226254,
      "compression_loss": 26.10498046875,
      "distillation_loss": 0.47384732961654663,
      "epoch": 2.27,
      "learning_rate": 4.716343143393864e-05,
      "loss": 26.6993,
      "step": 2681,
      "task_loss": 0.7312548756599426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24315102536748967,
      "compression/movement_sparsity/importance_threshold": -0.004912059496604428,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12587945505981543,
      "compression/movement_sparsity/model_sparsity": 0.1215551085280118,
      "compression_loss": 26.18015480041504,
      "distillation_loss": 0.7642576098442078,
      "epoch": 2.27,
      "learning_rate": 4.716030056355667e-05,
      "loss": 26.9036,
      "step": 2682,
      "task_loss": 1.0068151950836182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2438522442617015,
      "compression/movement_sparsity/importance_threshold": -0.004907508484389363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12664871888650786,
      "compression/movement_sparsity/model_sparsity": 0.122297945775725,
      "compression_loss": 26.255264282226562,
      "distillation_loss": 0.6757956743240356,
      "epoch": 2.27,
      "learning_rate": 4.715716969317471e-05,
      "loss": 26.7836,
      "step": 2683,
      "task_loss": 1.1640417575836182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24455302990359828,
      "compression/movement_sparsity/importance_threshold": -0.004902960284044592,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12739203572442467,
      "compression/movement_sparsity/model_sparsity": 0.1230157273935493,
      "compression_loss": 26.33033561706543,
      "distillation_loss": 1.3272367715835571,
      "epoch": 2.27,
      "learning_rate": 4.715403882279274e-05,
      "loss": 27.0489,
      "step": 2684,
      "task_loss": 1.1200578212738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24525338242706485,
      "compression/movement_sparsity/importance_threshold": -0.004898414894701183,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1281155465198983,
      "compression/movement_sparsity/model_sparsity": 0.12371438336741886,
      "compression_loss": 26.4053955078125,
      "distillation_loss": 0.5187952518463135,
      "epoch": 2.27,
      "learning_rate": 4.715090795241077e-05,
      "loss": 26.8766,
      "step": 2685,
      "task_loss": 1.5124976634979248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24595330196598697,
      "compression/movement_sparsity/importance_threshold": -0.004893872315490197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12894911738265094,
      "compression/movement_sparsity/model_sparsity": 0.12451931850667203,
      "compression_loss": 26.48036766052246,
      "distillation_loss": 0.9749976396560669,
      "epoch": 2.27,
      "learning_rate": 4.7147777082028805e-05,
      "loss": 27.141,
      "step": 2686,
      "task_loss": 0.8362419009208679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24665278865424944,
      "compression/movement_sparsity/importance_threshold": -0.004889332545542704,
      "compression/movement_sparsity/linear_layer_sparsity": 0.12967278319230383,
      "compression/movement_sparsity/model_sparsity": 0.12521812416950692,
      "compression_loss": 26.555299758911133,
      "distillation_loss": 0.6055502891540527,
      "epoch": 2.27,
      "learning_rate": 4.7144646211646844e-05,
      "loss": 27.2536,
      "step": 2687,
      "task_loss": 1.073548674583435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2473518426257375,
      "compression/movement_sparsity/importance_threshold": -0.004884795583989767,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13035656266121476,
      "compression/movement_sparsity/model_sparsity": 0.12587841371010905,
      "compression_loss": 26.63018035888672,
      "distillation_loss": 0.6765737533569336,
      "epoch": 2.27,
      "learning_rate": 4.7141515341264875e-05,
      "loss": 27.382,
      "step": 2688,
      "task_loss": 1.345982551574707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24805046401433617,
      "compression/movement_sparsity/importance_threshold": -0.004880261429962455,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13106497746046136,
      "compression/movement_sparsity/model_sparsity": 0.12656249228166272,
      "compression_loss": 26.70502471923828,
      "distillation_loss": 0.37891197204589844,
      "epoch": 2.27,
      "learning_rate": 4.713838447088291e-05,
      "loss": 27.222,
      "step": 2689,
      "task_loss": 0.19549186527729034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24874865295393067,
      "compression/movement_sparsity/importance_threshold": -0.004875730082591833,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13188639759639306,
      "compression/movement_sparsity/model_sparsity": 0.12735569410894126,
      "compression_loss": 26.779830932617188,
      "distillation_loss": 0.7147219777107239,
      "epoch": 2.27,
      "learning_rate": 4.713525360050094e-05,
      "loss": 27.3918,
      "step": 2690,
      "task_loss": 1.8517550230026245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.24944640957840603,
      "compression/movement_sparsity/importance_threshold": -0.004871201541008967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13265278769868524,
      "compression/movement_sparsity/model_sparsity": 0.128095756353528,
      "compression_loss": 26.854557037353516,
      "distillation_loss": 0.7447193264961243,
      "epoch": 2.27,
      "learning_rate": 4.713212273011898e-05,
      "loss": 27.5517,
      "step": 2691,
      "task_loss": 1.0474928617477417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2501437340216476,
      "compression/movement_sparsity/importance_threshold": -0.004866675804344922,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13336276456389218,
      "compression/movement_sparsity/model_sparsity": 0.12878134332927074,
      "compression_loss": 26.92926788330078,
      "distillation_loss": 0.4996473789215088,
      "epoch": 2.28,
      "learning_rate": 4.712899185973701e-05,
      "loss": 27.5575,
      "step": 2692,
      "task_loss": 0.5966014266014099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25084062641754024,
      "compression/movement_sparsity/importance_threshold": -0.0048621528717307655,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1341137128690959,
      "compression/movement_sparsity/model_sparsity": 0.12950649425000355,
      "compression_loss": 27.0039119720459,
      "distillation_loss": 0.5940051674842834,
      "epoch": 2.28,
      "learning_rate": 4.712586098935504e-05,
      "loss": 27.5952,
      "step": 2693,
      "task_loss": 0.37660127878189087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25153708689996934,
      "compression/movement_sparsity/importance_threshold": -0.0048576327422975634,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13483296673672354,
      "compression/movement_sparsity/model_sparsity": 0.13020103953459444,
      "compression_loss": 27.078500747680664,
      "distillation_loss": 0.7594926357269287,
      "epoch": 2.28,
      "learning_rate": 4.712273011897307e-05,
      "loss": 27.7741,
      "step": 2694,
      "task_loss": 1.1937370300292969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2522331156028199,
      "compression/movement_sparsity/importance_threshold": -0.004853115415176381,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13558547710788757,
      "compression/movement_sparsity/model_sparsity": 0.13092769885951633,
      "compression_loss": 27.153047561645508,
      "distillation_loss": 0.6717749834060669,
      "epoch": 2.28,
      "learning_rate": 4.711959924859111e-05,
      "loss": 27.871,
      "step": 2695,
      "task_loss": 0.5170519351959229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25292871265997685,
      "compression/movement_sparsity/importance_threshold": -0.004848600889498287,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13631204049027598,
      "compression/movement_sparsity/model_sparsity": 0.13162930255454927,
      "compression_loss": 27.22756576538086,
      "distillation_loss": 0.2541246712207794,
      "epoch": 2.28,
      "learning_rate": 4.711646837820914e-05,
      "loss": 27.7618,
      "step": 2696,
      "task_loss": 1.2049568891525269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25362387820532584,
      "compression/movement_sparsity/importance_threshold": -0.004844089164394343,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13708433305554793,
      "compression/movement_sparsity/model_sparsity": 0.1323750644943543,
      "compression_loss": 27.302026748657227,
      "distillation_loss": 0.7051365375518799,
      "epoch": 2.28,
      "learning_rate": 4.7113337507827175e-05,
      "loss": 28.0353,
      "step": 2697,
      "task_loss": 0.5899141430854797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2543186123727518,
      "compression/movement_sparsity/importance_threshold": -0.004839580238995617,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1379760700080283,
      "compression/movement_sparsity/model_sparsity": 0.13323616753921325,
      "compression_loss": 27.376441955566406,
      "distillation_loss": 0.45815545320510864,
      "epoch": 2.28,
      "learning_rate": 4.7110206637445213e-05,
      "loss": 28.0013,
      "step": 2698,
      "task_loss": 0.17882615327835083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2550129152961398,
      "compression/movement_sparsity/importance_threshold": -0.004835074112433176,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13866005218778904,
      "compression/movement_sparsity/model_sparsity": 0.1338966528269239,
      "compression_loss": 27.45081329345703,
      "distillation_loss": 1.0530192852020264,
      "epoch": 2.28,
      "learning_rate": 4.7107075767063245e-05,
      "loss": 28.2113,
      "step": 2699,
      "task_loss": 1.998399019241333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.255706787109375,
      "compression/movement_sparsity/importance_threshold": -0.004830570783838084,
      "compression/movement_sparsity/linear_layer_sparsity": 0.13944171714882278,
      "compression/movement_sparsity/model_sparsity": 0.13465146519186344,
      "compression_loss": 27.52513885498047,
      "distillation_loss": 0.49713635444641113,
      "epoch": 2.28,
      "learning_rate": 4.710394489668128e-05,
      "loss": 28.1921,
      "step": 2700,
      "task_loss": 1.3201836347579956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25640022794634254,
      "compression/movement_sparsity/importance_threshold": -0.004826070252341409,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14017451687088472,
      "compression/movement_sparsity/model_sparsity": 0.13535909098911694,
      "compression_loss": 27.599422454833984,
      "distillation_loss": 0.4871008098125458,
      "epoch": 2.28,
      "learning_rate": 4.710081402629931e-05,
      "loss": 28.074,
      "step": 2701,
      "task_loss": 0.35754257440567017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.25709323794092764,
      "compression/movement_sparsity/importance_threshold": -0.0048215725170742164,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14103076750048077,
      "compression/movement_sparsity/model_sparsity": 0.13618592677545133,
      "compression_loss": 27.67363739013672,
      "distillation_loss": 0.29010653495788574,
      "epoch": 2.28,
      "learning_rate": 4.709768315591735e-05,
      "loss": 28.0078,
      "step": 2702,
      "task_loss": 0.45912259817123413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2577858172270152,
      "compression/movement_sparsity/importance_threshold": -0.004817077577167573,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14183073605883556,
      "compression/movement_sparsity/model_sparsity": 0.13695841395283548,
      "compression_loss": 27.747814178466797,
      "distillation_loss": 0.5725622177124023,
      "epoch": 2.28,
      "learning_rate": 4.709455228553538e-05,
      "loss": 28.4403,
      "step": 2703,
      "task_loss": 0.7410875558853149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2584779659384907,
      "compression/movement_sparsity/importance_threshold": -0.004812585431752542,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14251798546052852,
      "compression/movement_sparsity/model_sparsity": 0.13762205422335383,
      "compression_loss": 27.821937561035156,
      "distillation_loss": 0.759935736656189,
      "epoch": 2.29,
      "learning_rate": 4.709142141515341e-05,
      "loss": 28.6182,
      "step": 2704,
      "task_loss": 1.484388828277588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2591696842092388,
      "compression/movement_sparsity/importance_threshold": -0.004808096079960194,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14323686967895943,
      "compression/movement_sparsity/model_sparsity": 0.1383162425573351,
      "compression_loss": 27.896034240722656,
      "distillation_loss": 0.6316521763801575,
      "epoch": 2.29,
      "learning_rate": 4.708829054477145e-05,
      "loss": 28.6065,
      "step": 2705,
      "task_loss": 0.6817003488540649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2598609721731452,
      "compression/movement_sparsity/importance_threshold": -0.004803609520921592,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1439008073329243,
      "compression/movement_sparsity/model_sparsity": 0.13895737191037513,
      "compression_loss": 27.970090866088867,
      "distillation_loss": 0.42404451966285706,
      "epoch": 2.29,
      "learning_rate": 4.708515967438948e-05,
      "loss": 28.4612,
      "step": 2706,
      "task_loss": 0.5528674721717834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.26055182996409476,
      "compression/movement_sparsity/importance_threshold": -0.004799125753767801,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14471128108296627,
      "compression/movement_sparsity/model_sparsity": 0.13974000339379428,
      "compression_loss": 28.044078826904297,
      "distillation_loss": 0.6900665760040283,
      "epoch": 2.29,
      "learning_rate": 4.708202880400751e-05,
      "loss": 28.7807,
      "step": 2707,
      "task_loss": 0.7807333469390869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.26124225771597265,
      "compression/movement_sparsity/importance_threshold": -0.00479464477762989,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14555366390560182,
      "compression/movement_sparsity/model_sparsity": 0.14055344777499962,
      "compression_loss": 28.118030548095703,
      "distillation_loss": 0.7345662117004395,
      "epoch": 2.29,
      "learning_rate": 4.707889793362555e-05,
      "loss": 28.767,
      "step": 2708,
      "task_loss": 0.7363647222518921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2619322555626641,
      "compression/movement_sparsity/importance_threshold": -0.004790166591638923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14624989220552456,
      "compression/movement_sparsity/model_sparsity": 0.14122575849097127,
      "compression_loss": 28.19194221496582,
      "distillation_loss": 0.42932015657424927,
      "epoch": 2.29,
      "learning_rate": 4.7075767063243583e-05,
      "loss": 28.7887,
      "step": 2709,
      "task_loss": 0.4497177004814148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2626218236380541,
      "compression/movement_sparsity/importance_threshold": -0.004785691194925967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14679056973863752,
      "compression/movement_sparsity/model_sparsity": 0.14174786208750312,
      "compression_loss": 28.26578712463379,
      "distillation_loss": 0.3798843324184418,
      "epoch": 2.29,
      "learning_rate": 4.707263619286162e-05,
      "loss": 28.7759,
      "step": 2710,
      "task_loss": 0.7166100144386292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2633109620760279,
      "compression/movement_sparsity/importance_threshold": -0.004781218586622086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14765464262220268,
      "compression/movement_sparsity/model_sparsity": 0.14258225140931874,
      "compression_loss": 28.33956527709961,
      "distillation_loss": 0.5922620892524719,
      "epoch": 2.29,
      "learning_rate": 4.7069505322479654e-05,
      "loss": 29.0221,
      "step": 2711,
      "task_loss": 1.0902985334396362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2639996710104705,
      "compression/movement_sparsity/importance_threshold": -0.00477674876585835,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14843306420963945,
      "compression/movement_sparsity/model_sparsity": 0.14333393182052215,
      "compression_loss": 28.413307189941406,
      "distillation_loss": 0.6019126176834106,
      "epoch": 2.29,
      "learning_rate": 4.7066374452097686e-05,
      "loss": 28.9435,
      "step": 2712,
      "task_loss": 0.7821654677391052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2646879505752672,
      "compression/movement_sparsity/importance_threshold": -0.004772281731765822,
      "compression/movement_sparsity/linear_layer_sparsity": 0.14919622286250234,
      "compression/movement_sparsity/model_sparsity": 0.14407087362590856,
      "compression_loss": 28.486982345581055,
      "distillation_loss": 0.573569655418396,
      "epoch": 2.29,
      "learning_rate": 4.7063243581715724e-05,
      "loss": 29.0846,
      "step": 2713,
      "task_loss": 0.26870492100715637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.265375800904303,
      "compression/movement_sparsity/importance_threshold": -0.004767817483475569,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1500267769108431,
      "compression/movement_sparsity/model_sparsity": 0.14487289558760572,
      "compression_loss": 28.560609817504883,
      "distillation_loss": 0.4899322986602783,
      "epoch": 2.29,
      "learning_rate": 4.7060112711333756e-05,
      "loss": 29.2497,
      "step": 2714,
      "task_loss": 0.6840153336524963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2660632221314633,
      "compression/movement_sparsity/importance_threshold": -0.004763356020118657,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15069683166280515,
      "compression/movement_sparsity/model_sparsity": 0.14551993189750834,
      "compression_loss": 28.634187698364258,
      "distillation_loss": 0.7508284449577332,
      "epoch": 2.29,
      "learning_rate": 4.705698184095179e-05,
      "loss": 29.3023,
      "step": 2715,
      "task_loss": 0.9499605298042297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2667502143906326,
      "compression/movement_sparsity/importance_threshold": -0.004758897340826153,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15141876846815083,
      "compression/movement_sparsity/model_sparsity": 0.14621706795265302,
      "compression_loss": 28.707719802856445,
      "distillation_loss": 0.8868777751922607,
      "epoch": 2.3,
      "learning_rate": 4.705385097056982e-05,
      "loss": 29.5007,
      "step": 2716,
      "task_loss": 1.3008278608322144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.26743677781569686,
      "compression/movement_sparsity/importance_threshold": -0.00475444144472912,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15214205270443937,
      "compression/movement_sparsity/model_sparsity": 0.14691550515034246,
      "compression_loss": 28.781211853027344,
      "distillation_loss": 0.469014972448349,
      "epoch": 2.3,
      "learning_rate": 4.705072010018786e-05,
      "loss": 29.308,
      "step": 2717,
      "task_loss": 0.5354006290435791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.26812291254054077,
      "compression/movement_sparsity/importance_threshold": -0.004749988330958627,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15289944006016648,
      "compression/movement_sparsity/model_sparsity": 0.14764687392040432,
      "compression_loss": 28.854673385620117,
      "distillation_loss": 0.7657325863838196,
      "epoch": 2.3,
      "learning_rate": 4.704758922980589e-05,
      "loss": 29.4644,
      "step": 2718,
      "task_loss": 0.43019720911979675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2688086186990496,
      "compression/movement_sparsity/importance_threshold": -0.004745537998645738,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15376377527541965,
      "compression/movement_sparsity/model_sparsity": 0.1484815165620074,
      "compression_loss": 28.928071975708008,
      "distillation_loss": 0.9471403956413269,
      "epoch": 2.3,
      "learning_rate": 4.704445835942392e-05,
      "loss": 29.6058,
      "step": 2719,
      "task_loss": 1.2764431238174438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.26949389642510846,
      "compression/movement_sparsity/importance_threshold": -0.004741090446921521,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15456262296201667,
      "compression/movement_sparsity/model_sparsity": 0.14925292137302687,
      "compression_loss": 29.001449584960938,
      "distillation_loss": 0.6095449924468994,
      "epoch": 2.3,
      "learning_rate": 4.704132748904196e-05,
      "loss": 29.6766,
      "step": 2720,
      "task_loss": 0.6696863770484924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2701787458526025,
      "compression/movement_sparsity/importance_threshold": -0.004736645674917042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15534105647362106,
      "compression/movement_sparsity/model_sparsity": 0.15000461329876608,
      "compression_loss": 29.074750900268555,
      "distillation_loss": 0.34912946820259094,
      "epoch": 2.3,
      "learning_rate": 4.703819661865999e-05,
      "loss": 29.5456,
      "step": 2721,
      "task_loss": 0.22652573883533478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2708631671154169,
      "compression/movement_sparsity/importance_threshold": -0.004732203681763364,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1561227572071577,
      "compression/movement_sparsity/model_sparsity": 0.150759460207313,
      "compression_loss": 29.147974014282227,
      "distillation_loss": 0.4300731420516968,
      "epoch": 2.3,
      "learning_rate": 4.7035065748278024e-05,
      "loss": 29.622,
      "step": 2722,
      "task_loss": 0.23775401711463928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27154716034743664,
      "compression/movement_sparsity/importance_threshold": -0.004727764466591556,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15702937552084764,
      "compression/movement_sparsity/model_sparsity": 0.15163493339284354,
      "compression_loss": 29.22113609313965,
      "distillation_loss": 0.7582014799118042,
      "epoch": 2.3,
      "learning_rate": 4.7031934877896055e-05,
      "loss": 30.1755,
      "step": 2723,
      "task_loss": 0.523601770401001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.272230725682547,
      "compression/movement_sparsity/importance_threshold": -0.004723328028532683,
      "compression/movement_sparsity/linear_layer_sparsity": 0.157728596786847,
      "compression/movement_sparsity/model_sparsity": 0.1523101342572996,
      "compression_loss": 29.294261932373047,
      "distillation_loss": 0.8197702169418335,
      "epoch": 2.3,
      "learning_rate": 4.7028804007514094e-05,
      "loss": 30.4348,
      "step": 2724,
      "task_loss": 0.596432626247406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27291386325463274,
      "compression/movement_sparsity/importance_threshold": -0.004718894366717814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15859249080789764,
      "compression/movement_sparsity/model_sparsity": 0.15314435086107828,
      "compression_loss": 29.367353439331055,
      "distillation_loss": 1.323852777481079,
      "epoch": 2.3,
      "learning_rate": 4.7025673137132126e-05,
      "loss": 30.2297,
      "step": 2725,
      "task_loss": 0.902712881565094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27359657319758,
      "compression/movement_sparsity/importance_threshold": -0.004714463480278008,
      "compression/movement_sparsity/linear_layer_sparsity": 0.15931901841778315,
      "compression/movement_sparsity/model_sparsity": 0.15384592001250386,
      "compression_loss": 29.4404354095459,
      "distillation_loss": 0.3990781903266907,
      "epoch": 2.3,
      "learning_rate": 4.702254226675016e-05,
      "loss": 29.9856,
      "step": 2726,
      "task_loss": 0.4680297076702118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27427885564527266,
      "compression/movement_sparsity/importance_threshold": -0.004710035368344339,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16021306865878487,
      "compression/movement_sparsity/model_sparsity": 0.15470925687730694,
      "compression_loss": 29.51342010498047,
      "distillation_loss": 0.5918540954589844,
      "epoch": 2.3,
      "learning_rate": 4.701941139636819e-05,
      "loss": 30.1544,
      "step": 2727,
      "task_loss": 0.49882668256759644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2749607107315968,
      "compression/movement_sparsity/importance_threshold": -0.004705610030047868,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16113174230595467,
      "compression/movement_sparsity/model_sparsity": 0.15559637125852574,
      "compression_loss": 29.586374282836914,
      "distillation_loss": 0.8039100170135498,
      "epoch": 2.31,
      "learning_rate": 4.701628052598623e-05,
      "loss": 30.3951,
      "step": 2728,
      "task_loss": 0.4539888799190521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27564213859043707,
      "compression/movement_sparsity/importance_threshold": -0.004701187464519662,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16199867698975245,
      "compression/movement_sparsity/model_sparsity": 0.15643352406893204,
      "compression_loss": 29.659273147583008,
      "distillation_loss": 0.3955090045928955,
      "epoch": 2.31,
      "learning_rate": 4.701314965560426e-05,
      "loss": 30.3149,
      "step": 2729,
      "task_loss": 0.6456724405288696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27632313935567887,
      "compression/movement_sparsity/importance_threshold": -0.004696767670890788,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1628095442373264,
      "compression/movement_sparsity/model_sparsity": 0.1572165355320324,
      "compression_loss": 29.73211669921875,
      "distillation_loss": 0.5394034385681152,
      "epoch": 2.31,
      "learning_rate": 4.701001878522229e-05,
      "loss": 30.4722,
      "step": 2730,
      "task_loss": 0.4876680076122284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2770037131612072,
      "compression/movement_sparsity/importance_threshold": -0.004692350648292312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16352864309077478,
      "compression/movement_sparsity/model_sparsity": 0.15791093112765797,
      "compression_loss": 29.804920196533203,
      "distillation_loss": 1.187461256980896,
      "epoch": 2.31,
      "learning_rate": 4.700688791484032e-05,
      "loss": 30.9546,
      "step": 2731,
      "task_loss": 1.184269905090332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2776838601409073,
      "compression/movement_sparsity/importance_threshold": -0.004687936395855298,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1642765268848961,
      "compression/movement_sparsity/model_sparsity": 0.1586331228126916,
      "compression_loss": 29.877683639526367,
      "distillation_loss": 0.8394446969032288,
      "epoch": 2.31,
      "learning_rate": 4.700375704445836e-05,
      "loss": 30.6821,
      "step": 2732,
      "task_loss": 0.520710825920105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27836358042866427,
      "compression/movement_sparsity/importance_threshold": -0.004683524912710814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16507325206965393,
      "compression/movement_sparsity/model_sparsity": 0.1594024780363396,
      "compression_loss": 29.95041275024414,
      "distillation_loss": 0.6270103454589844,
      "epoch": 2.31,
      "learning_rate": 4.7000626174076394e-05,
      "loss": 30.767,
      "step": 2733,
      "task_loss": 0.9088036417961121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.27904287415836315,
      "compression/movement_sparsity/importance_threshold": -0.004679116197989926,
      "compression/movement_sparsity/linear_layer_sparsity": 0.165703813978406,
      "compression/movement_sparsity/model_sparsity": 0.16001137820369074,
      "compression_loss": 30.023086547851562,
      "distillation_loss": 0.5488346815109253,
      "epoch": 2.31,
      "learning_rate": 4.6997495303694425e-05,
      "loss": 30.8171,
      "step": 2734,
      "task_loss": 0.5228575468063354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2797217414638892,
      "compression/movement_sparsity/importance_threshold": -0.0046747102508237,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16643190365425178,
      "compression/movement_sparsity/model_sparsity": 0.1607144557593054,
      "compression_loss": 30.09574317932129,
      "distillation_loss": 0.30320632457733154,
      "epoch": 2.31,
      "learning_rate": 4.6994364433312464e-05,
      "loss": 30.6396,
      "step": 2735,
      "task_loss": 0.7227944135665894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2804001824791271,
      "compression/movement_sparsity/importance_threshold": -0.004670307070343204,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1671797874483731,
      "compression/movement_sparsity/model_sparsity": 0.161436647444339,
      "compression_loss": 30.168363571166992,
      "distillation_loss": 0.7067972421646118,
      "epoch": 2.31,
      "learning_rate": 4.6991233562930496e-05,
      "loss": 30.8268,
      "step": 2736,
      "task_loss": 1.083277702331543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2810781973379629,
      "compression/movement_sparsity/importance_threshold": -0.004665906655679498,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16791547281900296,
      "compression/movement_sparsity/model_sparsity": 0.16214705975925478,
      "compression_loss": 30.240917205810547,
      "distillation_loss": 0.599014163017273,
      "epoch": 2.31,
      "learning_rate": 4.698810269254853e-05,
      "loss": 30.9492,
      "step": 2737,
      "task_loss": 0.8254029154777527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2817557861742811,
      "compression/movement_sparsity/importance_threshold": -0.0046615090059636535,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16859605661098748,
      "compression/movement_sparsity/model_sparsity": 0.162804263404264,
      "compression_loss": 30.31342887878418,
      "distillation_loss": 0.7647791504859924,
      "epoch": 2.31,
      "learning_rate": 4.698497182216656e-05,
      "loss": 31.0584,
      "step": 2738,
      "task_loss": 1.2149444818496704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28243294912196704,
      "compression/movement_sparsity/importance_threshold": -0.004657114120326735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.16929683994294714,
      "compression/movement_sparsity/model_sparsity": 0.16348097267290915,
      "compression_loss": 30.385908126831055,
      "distillation_loss": 0.7657783627510071,
      "epoch": 2.32,
      "learning_rate": 4.69818409517846e-05,
      "loss": 31.1449,
      "step": 2739,
      "task_loss": 1.025955319404602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28310968631490585,
      "compression/movement_sparsity/importance_threshold": -0.004652721997899807,
      "compression/movement_sparsity/linear_layer_sparsity": 0.170157681377083,
      "compression/movement_sparsity/model_sparsity": 0.16431224155552443,
      "compression_loss": 30.458330154418945,
      "distillation_loss": 1.0408014059066772,
      "epoch": 2.32,
      "learning_rate": 4.697871008140263e-05,
      "loss": 31.2471,
      "step": 2740,
      "task_loss": 1.416770100593567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28378599788698256,
      "compression/movement_sparsity/importance_threshold": -0.004648332637813938,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17087846153816802,
      "compression/movement_sparsity/model_sparsity": 0.16500826070069705,
      "compression_loss": 30.53070640563965,
      "distillation_loss": 0.8738031387329102,
      "epoch": 2.32,
      "learning_rate": 4.697557921102067e-05,
      "loss": 31.4823,
      "step": 2741,
      "task_loss": 1.1227607727050781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2844618839720825,
      "compression/movement_sparsity/importance_threshold": -0.004643946039200192,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17157032559273605,
      "compression/movement_sparsity/model_sparsity": 0.1656763570965679,
      "compression_loss": 30.603046417236328,
      "distillation_loss": 0.5981103777885437,
      "epoch": 2.32,
      "learning_rate": 4.69724483406387e-05,
      "loss": 31.1855,
      "step": 2742,
      "task_loss": 0.5233943462371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2851373447040906,
      "compression/movement_sparsity/importance_threshold": -0.004639562201189637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1722999296378716,
      "compression/movement_sparsity/model_sparsity": 0.16638089699822844,
      "compression_loss": 30.675294876098633,
      "distillation_loss": 0.6121476888656616,
      "epoch": 2.32,
      "learning_rate": 4.696931747025674e-05,
      "loss": 31.2467,
      "step": 2743,
      "task_loss": 2.0060226917266846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28581238021689204,
      "compression/movement_sparsity/importance_threshold": -0.004635181122913338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17317339876553386,
      "compression/movement_sparsity/model_sparsity": 0.16722435977425015,
      "compression_loss": 30.747495651245117,
      "distillation_loss": 0.6088132858276367,
      "epoch": 2.32,
      "learning_rate": 4.696618659987477e-05,
      "loss": 31.4186,
      "step": 2744,
      "task_loss": 0.4542213976383209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2864869906443719,
      "compression/movement_sparsity/importance_threshold": -0.004630802803502362,
      "compression/movement_sparsity/linear_layer_sparsity": 0.173927805079352,
      "compression/movement_sparsity/model_sparsity": 0.16795284991036336,
      "compression_loss": 30.819631576538086,
      "distillation_loss": 0.5590929985046387,
      "epoch": 2.32,
      "learning_rate": 4.69630557294928e-05,
      "loss": 31.3706,
      "step": 2745,
      "task_loss": 0.9159040451049805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2871611761204158,
      "compression/movement_sparsity/importance_threshold": -0.0046264272420877715,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17473218557973205,
      "compression/movement_sparsity/model_sparsity": 0.1687295974659915,
      "compression_loss": 30.891727447509766,
      "distillation_loss": 0.6650780439376831,
      "epoch": 2.32,
      "learning_rate": 4.695992485911084e-05,
      "loss": 31.5778,
      "step": 2746,
      "task_loss": 0.5093753337860107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28783493677890815,
      "compression/movement_sparsity/importance_threshold": -0.004622054437800638,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17565407875216352,
      "compression/movement_sparsity/model_sparsity": 0.16961982077187485,
      "compression_loss": 30.963783264160156,
      "distillation_loss": 0.6840406060218811,
      "epoch": 2.32,
      "learning_rate": 4.695679398872887e-05,
      "loss": 31.7772,
      "step": 2747,
      "task_loss": 0.7793703079223633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2885082727537346,
      "compression/movement_sparsity/importance_threshold": -0.004617684389772024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17655019187416626,
      "compression/movement_sparsity/model_sparsity": 0.17048514965137038,
      "compression_loss": 31.035776138305664,
      "distillation_loss": 0.7531603574752808,
      "epoch": 2.32,
      "learning_rate": 4.6953663118346904e-05,
      "loss": 31.6833,
      "step": 2748,
      "task_loss": 0.5740844011306763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28918118417878014,
      "compression/movement_sparsity/importance_threshold": -0.004613317097132996,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17733474248376788,
      "compression/movement_sparsity/model_sparsity": 0.17124274853397217,
      "compression_loss": 31.10773468017578,
      "distillation_loss": 1.2830471992492676,
      "epoch": 2.32,
      "learning_rate": 4.6950532247964936e-05,
      "loss": 32.0262,
      "step": 2749,
      "task_loss": 1.7059133052825928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.28985367118793004,
      "compression/movement_sparsity/importance_threshold": -0.004608952559014619,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1780523388920941,
      "compression/movement_sparsity/model_sparsity": 0.17193569329808764,
      "compression_loss": 31.179645538330078,
      "distillation_loss": 0.9924700856208801,
      "epoch": 2.32,
      "learning_rate": 4.6947401377582975e-05,
      "loss": 32.0814,
      "step": 2750,
      "task_loss": 1.3663740158081055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2905257339150692,
      "compression/movement_sparsity/importance_threshold": -0.004604590774547961,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1787696968170676,
      "compression/movement_sparsity/model_sparsity": 0.17262840777148722,
      "compression_loss": 31.251508712768555,
      "distillation_loss": 0.5187385678291321,
      "epoch": 2.33,
      "learning_rate": 4.6944270507201006e-05,
      "loss": 32.0518,
      "step": 2751,
      "task_loss": 0.5828070640563965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29119737249408295,
      "compression/movement_sparsity/importance_threshold": -0.004600231742864088,
      "compression/movement_sparsity/linear_layer_sparsity": 0.17949183633326313,
      "compression/movement_sparsity/model_sparsity": 0.1733257395737404,
      "compression_loss": 31.32333755493164,
      "distillation_loss": 0.9489725232124329,
      "epoch": 2.33,
      "learning_rate": 4.694113963681904e-05,
      "loss": 32.0973,
      "step": 2752,
      "task_loss": 0.9236429929733276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2918685870588563,
      "compression/movement_sparsity/importance_threshold": -0.004595875463094064,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1803530474165957,
      "compression/movement_sparsity/model_sparsity": 0.17415736540696533,
      "compression_loss": 31.395112991333008,
      "distillation_loss": 0.3054807782173157,
      "epoch": 2.33,
      "learning_rate": 4.693800876643707e-05,
      "loss": 32.0847,
      "step": 2753,
      "task_loss": 0.4341506063938141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29253937774327454,
      "compression/movement_sparsity/importance_threshold": -0.0045915219343689575,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18104753478804364,
      "compression/movement_sparsity/model_sparsity": 0.17482799500071097,
      "compression_loss": 31.46686553955078,
      "distillation_loss": 0.4498938322067261,
      "epoch": 2.33,
      "learning_rate": 4.693487789605511e-05,
      "loss": 32.1096,
      "step": 2754,
      "task_loss": 0.3062237501144409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29320974468122263,
      "compression/movement_sparsity/importance_threshold": -0.004587171155819834,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18177443204712584,
      "compression/movement_sparsity/model_sparsity": 0.17552992110274618,
      "compression_loss": 31.538545608520508,
      "distillation_loss": 0.8985080718994141,
      "epoch": 2.33,
      "learning_rate": 4.693174702567314e-05,
      "loss": 32.3468,
      "step": 2755,
      "task_loss": 1.0426867008209229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2938796880065856,
      "compression/movement_sparsity/importance_threshold": -0.00458282312657776,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18255919729174488,
      "compression/movement_sparsity/model_sparsity": 0.1762877272469923,
      "compression_loss": 31.610183715820312,
      "distillation_loss": 0.5811997652053833,
      "epoch": 2.33,
      "learning_rate": 4.692861615529117e-05,
      "loss": 32.4081,
      "step": 2756,
      "task_loss": 1.0220046043395996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.294549207853249,
      "compression/movement_sparsity/importance_threshold": -0.004578477845773799,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18337714749489456,
      "compression/movement_sparsity/model_sparsity": 0.1770775783443546,
      "compression_loss": 31.681785583496094,
      "distillation_loss": 0.7427621483802795,
      "epoch": 2.33,
      "learning_rate": 4.692548528490921e-05,
      "loss": 32.47,
      "step": 2757,
      "task_loss": 1.6808576583862305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29521830435509777,
      "compression/movement_sparsity/importance_threshold": -0.004574135312539019,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18420765384656476,
      "compression/movement_sparsity/model_sparsity": 0.17787955424790858,
      "compression_loss": 31.75334930419922,
      "distillation_loss": 0.5990930199623108,
      "epoch": 2.33,
      "learning_rate": 4.692235441452724e-05,
      "loss": 32.5783,
      "step": 2758,
      "task_loss": 0.8903379440307617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.295886977646017,
      "compression/movement_sparsity/importance_threshold": -0.004569795526004485,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1850246620404712,
      "compression/movement_sparsity/model_sparsity": 0.17866849569694312,
      "compression_loss": 31.82484245300293,
      "distillation_loss": 0.9743495583534241,
      "epoch": 2.33,
      "learning_rate": 4.6919223544145274e-05,
      "loss": 32.6205,
      "step": 2759,
      "task_loss": 1.5953030586242676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29655522785989197,
      "compression/movement_sparsity/importance_threshold": -0.004565458485301264,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18578648518655885,
      "compression/movement_sparsity/model_sparsity": 0.17940414787432055,
      "compression_loss": 31.896329879760742,
      "distillation_loss": 0.7787535190582275,
      "epoch": 2.33,
      "learning_rate": 4.6916092673763306e-05,
      "loss": 32.4714,
      "step": 2760,
      "task_loss": 1.5599355697631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29722305513060765,
      "compression/movement_sparsity/importance_threshold": -0.004561124189560422,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1865649306223309,
      "compression/movement_sparsity/model_sparsity": 0.18015585131459555,
      "compression_loss": 31.967737197875977,
      "distillation_loss": 0.8798046112060547,
      "epoch": 2.33,
      "learning_rate": 4.6912961803381344e-05,
      "loss": 32.7404,
      "step": 2761,
      "task_loss": 0.37186360359191895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.2978904595920493,
      "compression/movement_sparsity/importance_threshold": -0.004556792637913024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1872212129606735,
      "compression/movement_sparsity/model_sparsity": 0.18078958833565548,
      "compression_loss": 32.03910446166992,
      "distillation_loss": 0.7092850804328918,
      "epoch": 2.33,
      "learning_rate": 4.6909830932999376e-05,
      "loss": 32.6973,
      "step": 2762,
      "task_loss": 1.6282918453216553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29855744137810203,
      "compression/movement_sparsity/importance_threshold": -0.004552463829490138,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1880213484573752,
      "compression/movement_sparsity/model_sparsity": 0.18156223671654076,
      "compression_loss": 32.11042785644531,
      "distillation_loss": 0.7414035201072693,
      "epoch": 2.34,
      "learning_rate": 4.690670006261741e-05,
      "loss": 32.7268,
      "step": 2763,
      "task_loss": 0.5252096056938171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.299224000622651,
      "compression/movement_sparsity/importance_threshold": -0.004548137763422827,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1887589416948268,
      "compression/movement_sparsity/model_sparsity": 0.18227449135718368,
      "compression_loss": 32.18168640136719,
      "distillation_loss": 0.8627614974975586,
      "epoch": 2.34,
      "learning_rate": 4.690356919223544e-05,
      "loss": 32.8268,
      "step": 2764,
      "task_loss": 0.5220431089401245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.29989013745958093,
      "compression/movement_sparsity/importance_threshold": -0.0045438144388421624,
      "compression/movement_sparsity/linear_layer_sparsity": 0.18955451023532394,
      "compression/movement_sparsity/model_sparsity": 0.18304272967085963,
      "compression_loss": 32.252899169921875,
      "distillation_loss": 0.5500897169113159,
      "epoch": 2.34,
      "learning_rate": 4.690043832185348e-05,
      "loss": 32.8813,
      "step": 2765,
      "task_loss": 0.5437158942222595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.300555852022778,
      "compression/movement_sparsity/importance_threshold": -0.0045394938548792025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19042627420701425,
      "compression/movement_sparsity/model_sparsity": 0.18388454586826272,
      "compression_loss": 32.32405471801758,
      "distillation_loss": 0.6657775044441223,
      "epoch": 2.34,
      "learning_rate": 4.689730745147151e-05,
      "loss": 32.9995,
      "step": 2766,
      "task_loss": 0.6974325180053711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30122114444612613,
      "compression/movement_sparsity/importance_threshold": -0.004535176010665021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1912294980631336,
      "compression/movement_sparsity/model_sparsity": 0.18466017651391878,
      "compression_loss": 32.395145416259766,
      "distillation_loss": 0.638074517250061,
      "epoch": 2.34,
      "learning_rate": 4.689417658108954e-05,
      "loss": 33.25,
      "step": 2767,
      "task_loss": 1.324385166168213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3018860148635112,
      "compression/movement_sparsity/importance_threshold": -0.00453086090533068,
      "compression/movement_sparsity/linear_layer_sparsity": 0.1920876923320543,
      "compression/movement_sparsity/model_sparsity": 0.1854888891695877,
      "compression_loss": 32.466209411621094,
      "distillation_loss": 0.9462876915931702,
      "epoch": 2.34,
      "learning_rate": 4.6891045710707574e-05,
      "loss": 33.1206,
      "step": 2768,
      "task_loss": 0.12003374099731445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3025504634088183,
      "compression/movement_sparsity/importance_threshold": -0.004526548538007244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19289226361911652,
      "compression/movement_sparsity/model_sparsity": 0.18626582095778854,
      "compression_loss": 32.53721618652344,
      "distillation_loss": 0.7075235843658447,
      "epoch": 2.34,
      "learning_rate": 4.688791484032561e-05,
      "loss": 33.4506,
      "step": 2769,
      "task_loss": 0.6516581177711487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3032144902159324,
      "compression/movement_sparsity/importance_threshold": -0.004522238907825783,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19371071463730688,
      "compression/movement_sparsity/model_sparsity": 0.18705615566565423,
      "compression_loss": 32.608192443847656,
      "distillation_loss": 0.846467912197113,
      "epoch": 2.34,
      "learning_rate": 4.6884783969943644e-05,
      "loss": 33.4156,
      "step": 2770,
      "task_loss": 1.014008641242981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30387809541873867,
      "compression/movement_sparsity/importance_threshold": -0.004517932013917359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19464503279241493,
      "compression/movement_sparsity/model_sparsity": 0.18795837711783547,
      "compression_loss": 32.679107666015625,
      "distillation_loss": 0.6993773579597473,
      "epoch": 2.34,
      "learning_rate": 4.6881653099561676e-05,
      "loss": 33.4769,
      "step": 2771,
      "task_loss": 0.3808341920375824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3045412791511223,
      "compression/movement_sparsity/importance_threshold": -0.004513627855413042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19549691917665626,
      "compression/movement_sparsity/model_sparsity": 0.18878099858406905,
      "compression_loss": 32.74999237060547,
      "distillation_loss": 0.9787783622741699,
      "epoch": 2.34,
      "learning_rate": 4.6878522229179714e-05,
      "loss": 33.6346,
      "step": 2772,
      "task_loss": 0.5981093645095825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30520404154696845,
      "compression/movement_sparsity/importance_threshold": -0.0045093264314438955,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19621890367867248,
      "compression/movement_sparsity/model_sparsity": 0.1894781806973569,
      "compression_loss": 32.82085037231445,
      "distillation_loss": 0.4016333222389221,
      "epoch": 2.34,
      "learning_rate": 4.6875391358797746e-05,
      "loss": 33.4316,
      "step": 2773,
      "task_loss": 0.7964500188827515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3058663827401621,
      "compression/movement_sparsity/importance_threshold": -0.004505027741140987,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19692449245018942,
      "compression/movement_sparsity/model_sparsity": 0.19015953032392727,
      "compression_loss": 32.891666412353516,
      "distillation_loss": 0.8250312805175781,
      "epoch": 2.34,
      "learning_rate": 4.687226048841578e-05,
      "loss": 33.7039,
      "step": 2774,
      "task_loss": 0.4969243109226227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30652830286458854,
      "compression/movement_sparsity/importance_threshold": -0.004500731783635381,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19776092511317467,
      "compression/movement_sparsity/model_sparsity": 0.19096722895177112,
      "compression_loss": 32.96241760253906,
      "distillation_loss": 0.6218572854995728,
      "epoch": 2.35,
      "learning_rate": 4.6869129618033816e-05,
      "loss": 33.523,
      "step": 2775,
      "task_loss": 0.26783937215805054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3071898020541327,
      "compression/movement_sparsity/importance_threshold": -0.004496438558058146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19861585216016314,
      "compression/movement_sparsity/model_sparsity": 0.1917927866246323,
      "compression_loss": 33.03313064575195,
      "distillation_loss": 1.0333325862884521,
      "epoch": 2.35,
      "learning_rate": 4.686599874765185e-05,
      "loss": 33.7414,
      "step": 2776,
      "task_loss": 1.135291337966919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30785088044268005,
      "compression/movement_sparsity/importance_threshold": -0.0044921480635403445,
      "compression/movement_sparsity/linear_layer_sparsity": 0.19954249115131367,
      "compression/movement_sparsity/model_sparsity": 0.19268759271576189,
      "compression_loss": 33.10380172729492,
      "distillation_loss": 0.6956537961959839,
      "epoch": 2.35,
      "learning_rate": 4.686286787726989e-05,
      "loss": 33.7107,
      "step": 2777,
      "task_loss": 0.6610895991325378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3085115381641157,
      "compression/movement_sparsity/importance_threshold": -0.004487860299213045,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2004277652049354,
      "compression/movement_sparsity/model_sparsity": 0.19354245488222016,
      "compression_loss": 33.174400329589844,
      "distillation_loss": 0.5103231072425842,
      "epoch": 2.35,
      "learning_rate": 4.685973700688792e-05,
      "loss": 33.6524,
      "step": 2778,
      "task_loss": 0.21128392219543457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.30917177535232454,
      "compression/movement_sparsity/importance_threshold": -0.004483575264207312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20131951408158344,
      "compression/movement_sparsity/model_sparsity": 0.1944035694416149,
      "compression_loss": 33.24491500854492,
      "distillation_loss": 0.6218981742858887,
      "epoch": 2.35,
      "learning_rate": 4.685660613650595e-05,
      "loss": 33.9578,
      "step": 2779,
      "task_loss": 0.6117700934410095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3098315921411918,
      "compression/movement_sparsity/importance_threshold": -0.004479292957654214,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20212568320710886,
      "compression/movement_sparsity/model_sparsity": 0.19518204417761223,
      "compression_loss": 33.31541061401367,
      "distillation_loss": 0.5278154611587524,
      "epoch": 2.35,
      "learning_rate": 4.685347526612399e-05,
      "loss": 33.9655,
      "step": 2780,
      "task_loss": 0.5826143026351929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3104909886646028,
      "compression/movement_sparsity/importance_threshold": -0.004475013378684815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20294075968585829,
      "compression/movement_sparsity/model_sparsity": 0.19596912027184807,
      "compression_loss": 33.385841369628906,
      "distillation_loss": 0.4080013632774353,
      "epoch": 2.35,
      "learning_rate": 4.685034439574202e-05,
      "loss": 33.9353,
      "step": 2781,
      "task_loss": 1.4821614027023315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31114996505644243,
      "compression/movement_sparsity/importance_threshold": -0.004470736526430182,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20386588430771907,
      "compression/movement_sparsity/model_sparsity": 0.19686246401693172,
      "compression_loss": 33.456214904785156,
      "distillation_loss": 0.46527233719825745,
      "epoch": 2.35,
      "learning_rate": 4.684721352536005e-05,
      "loss": 34.1553,
      "step": 2782,
      "task_loss": 1.2185508012771606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.311808521450596,
      "compression/movement_sparsity/importance_threshold": -0.00446646240002138,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20467522526183565,
      "compression/movement_sparsity/model_sparsity": 0.19764400161945037,
      "compression_loss": 33.526573181152344,
      "distillation_loss": 1.2856477499008179,
      "epoch": 2.35,
      "learning_rate": 4.684408265497809e-05,
      "loss": 34.326,
      "step": 2783,
      "task_loss": 1.0989196300506592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31246665798094864,
      "compression/movement_sparsity/importance_threshold": -0.0044621909985894746,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20569827114832215,
      "compression/movement_sparsity/model_sparsity": 0.1986319027324788,
      "compression_loss": 33.59687042236328,
      "distillation_loss": 0.6959792375564575,
      "epoch": 2.35,
      "learning_rate": 4.684095178459612e-05,
      "loss": 34.185,
      "step": 2784,
      "task_loss": 0.8747627139091492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3131243747813851,
      "compression/movement_sparsity/importance_threshold": -0.004457922321265536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20658985308662325,
      "compression/movement_sparsity/model_sparsity": 0.19949285608837242,
      "compression_loss": 33.66714096069336,
      "distillation_loss": 0.7672760486602783,
      "epoch": 2.35,
      "learning_rate": 4.6837820914214155e-05,
      "loss": 34.5363,
      "step": 2785,
      "task_loss": 0.5969300270080566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3137816719857913,
      "compression/movement_sparsity/importance_threshold": -0.004453656367180624,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20742367435689626,
      "compression/movement_sparsity/model_sparsity": 0.20029803303287727,
      "compression_loss": 33.73733901977539,
      "distillation_loss": 0.9064205884933472,
      "epoch": 2.35,
      "learning_rate": 4.6834690043832186e-05,
      "loss": 34.467,
      "step": 2786,
      "task_loss": 1.3746144771575928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3144385497280515,
      "compression/movement_sparsity/importance_threshold": -0.00444939313546581,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2082836095542918,
      "compression/movement_sparsity/model_sparsity": 0.20112842681077217,
      "compression_loss": 33.80751037597656,
      "distillation_loss": 1.2024576663970947,
      "epoch": 2.36,
      "learning_rate": 4.6831559173450225e-05,
      "loss": 34.6611,
      "step": 2787,
      "task_loss": 1.168367624282837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3150950081420516,
      "compression/movement_sparsity/importance_threshold": -0.0044451326252521565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20913857237378317,
      "compression/movement_sparsity/model_sparsity": 0.20195401902724072,
      "compression_loss": 33.877628326416016,
      "distillation_loss": 0.608418881893158,
      "epoch": 2.36,
      "learning_rate": 4.682842830306826e-05,
      "loss": 34.6205,
      "step": 2788,
      "task_loss": 0.888451099395752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31575104736167636,
      "compression/movement_sparsity/importance_threshold": -0.0044408748356707314,
      "compression/movement_sparsity/linear_layer_sparsity": 0.20996006405472067,
      "compression/movement_sparsity/model_sparsity": 0.20274728994173402,
      "compression_loss": 33.947723388671875,
      "distillation_loss": 1.0934152603149414,
      "epoch": 2.36,
      "learning_rate": 4.682529743268629e-05,
      "loss": 34.7478,
      "step": 2789,
      "task_loss": 1.0978530645370483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31640666752081104,
      "compression/movement_sparsity/importance_threshold": -0.004436619765852599,
      "compression/movement_sparsity/linear_layer_sparsity": 0.210827177601033,
      "compression/movement_sparsity/model_sparsity": 0.20358461547017725,
      "compression_loss": 34.017784118652344,
      "distillation_loss": 0.40207523107528687,
      "epoch": 2.36,
      "learning_rate": 4.682216656230432e-05,
      "loss": 34.6597,
      "step": 2790,
      "task_loss": 0.6421834230422974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31706186875334064,
      "compression/movement_sparsity/importance_threshold": -0.004432367414928829,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21160716125443008,
      "compression/movement_sparsity/model_sparsity": 0.20433780428556975,
      "compression_loss": 34.087772369384766,
      "distillation_loss": 0.4820161759853363,
      "epoch": 2.36,
      "learning_rate": 4.681903569192236e-05,
      "loss": 34.6683,
      "step": 2791,
      "task_loss": 0.19914323091506958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3177166511931504,
      "compression/movement_sparsity/importance_threshold": -0.0044281177820304825,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2125231877363847,
      "compression/movement_sparsity/model_sparsity": 0.20522236243984215,
      "compression_loss": 34.15770721435547,
      "distillation_loss": 0.5720499157905579,
      "epoch": 2.36,
      "learning_rate": 4.681590482154039e-05,
      "loss": 34.7568,
      "step": 2792,
      "task_loss": 0.24341435730457306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31837101497412545,
      "compression/movement_sparsity/importance_threshold": -0.004423870866288629,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21339932787759738,
      "compression/movement_sparsity/model_sparsity": 0.20606840447188185,
      "compression_loss": 34.22758865356445,
      "distillation_loss": 0.9194385409355164,
      "epoch": 2.36,
      "learning_rate": 4.681277395115842e-05,
      "loss": 34.9481,
      "step": 2793,
      "task_loss": 1.1347148418426514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3190249602301509,
      "compression/movement_sparsity/importance_threshold": -0.004419626666834334,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21421785044079356,
      "compression/movement_sparsity/model_sparsity": 0.2068588082669623,
      "compression_loss": 34.29742431640625,
      "distillation_loss": 0.8019289374351501,
      "epoch": 2.36,
      "learning_rate": 4.680964308077646e-05,
      "loss": 35.0083,
      "step": 2794,
      "task_loss": 1.3380203247070312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.31967848709511204,
      "compression/movement_sparsity/importance_threshold": -0.0044153851827986625,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21505425925544353,
      "compression/movement_sparsity/model_sparsity": 0.20766648386573458,
      "compression_loss": 34.367218017578125,
      "distillation_loss": 0.45591774582862854,
      "epoch": 2.36,
      "learning_rate": 4.680651221039449e-05,
      "loss": 34.9082,
      "step": 2795,
      "task_loss": 0.09135734289884567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3203315957028935,
      "compression/movement_sparsity/importance_threshold": -0.004411146413312683,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21581175392867935,
      "compression/movement_sparsity/model_sparsity": 0.20839795626661856,
      "compression_loss": 34.43696212768555,
      "distillation_loss": 0.954008936882019,
      "epoch": 2.36,
      "learning_rate": 4.6803381340012525e-05,
      "loss": 35.1674,
      "step": 2796,
      "task_loss": 0.6402214169502258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3209842861873812,
      "compression/movement_sparsity/importance_threshold": -0.004406910357507458,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2167094291166424,
      "compression/movement_sparsity/model_sparsity": 0.2092647935503032,
      "compression_loss": 34.50669479370117,
      "distillation_loss": 0.5899990200996399,
      "epoch": 2.36,
      "learning_rate": 4.6800250469630556e-05,
      "loss": 35.1971,
      "step": 2797,
      "task_loss": 0.7693442106246948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.32163655868245977,
      "compression/movement_sparsity/importance_threshold": -0.004402677014514054,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2175462075804891,
      "compression/movement_sparsity/model_sparsity": 0.21007282609968508,
      "compression_loss": 34.57639694213867,
      "distillation_loss": 0.6711979508399963,
      "epoch": 2.36,
      "learning_rate": 4.6797119599248595e-05,
      "loss": 35.1043,
      "step": 2798,
      "task_loss": 0.2544258236885071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3222884133220144,
      "compression/movement_sparsity/importance_threshold": -0.004398446383463541,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21846962704637796,
      "compression/movement_sparsity/model_sparsity": 0.21096452326615012,
      "compression_loss": 34.64600372314453,
      "distillation_loss": 0.5910271406173706,
      "epoch": 2.37,
      "learning_rate": 4.679398872886663e-05,
      "loss": 35.1941,
      "step": 2799,
      "task_loss": 1.1743701696395874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.32293985023993044,
      "compression/movement_sparsity/importance_threshold": -0.00439421846348698,
      "compression/movement_sparsity/linear_layer_sparsity": 0.21949689408820755,
      "compression/movement_sparsity/model_sparsity": 0.21195650052484982,
      "compression_loss": 34.71552658081055,
      "distillation_loss": 0.819922924041748,
      "epoch": 2.37,
      "learning_rate": 4.679085785848466e-05,
      "loss": 35.4387,
      "step": 2800,
      "task_loss": 0.3998600244522095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.32359086957009287,
      "compression/movement_sparsity/importance_threshold": -0.004389993253715439,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22037016050501998,
      "compression/movement_sparsity/model_sparsity": 0.212799767553763,
      "compression_loss": 34.784976959228516,
      "distillation_loss": 0.35562777519226074,
      "epoch": 2.37,
      "learning_rate": 4.678772698810269e-05,
      "loss": 35.2764,
      "step": 2801,
      "task_loss": 1.1417474746704102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3242414714463868,
      "compression/movement_sparsity/importance_threshold": -0.004385770753279986,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22143532255159634,
      "compression/movement_sparsity/model_sparsity": 0.21382833800721776,
      "compression_loss": 34.854408264160156,
      "distillation_loss": 1.0053315162658691,
      "epoch": 2.37,
      "learning_rate": 4.678459611772073e-05,
      "loss": 35.5293,
      "step": 2802,
      "task_loss": 0.7591885328292847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3248916560026974,
      "compression/movement_sparsity/importance_threshold": -0.004381550961311685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22240319531443173,
      "compression/movement_sparsity/model_sparsity": 0.21476296136312484,
      "compression_loss": 34.92377471923828,
      "distillation_loss": 0.8699702024459839,
      "epoch": 2.37,
      "learning_rate": 4.678146524733876e-05,
      "loss": 35.6001,
      "step": 2803,
      "task_loss": 0.7717055082321167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3255414233729099,
      "compression/movement_sparsity/importance_threshold": -0.004377333876941602,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22351935702598666,
      "compression/movement_sparsity/model_sparsity": 0.21584077948617283,
      "compression_loss": 34.993125915527344,
      "distillation_loss": 0.5772320628166199,
      "epoch": 2.37,
      "learning_rate": 4.677833437695679e-05,
      "loss": 35.722,
      "step": 2804,
      "task_loss": 0.8272057175636292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3261907736909093,
      "compression/movement_sparsity/importance_threshold": -0.004373119499300805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2243514015952819,
      "compression/movement_sparsity/model_sparsity": 0.2166442407648443,
      "compression_loss": 35.062400817871094,
      "distillation_loss": 0.9692050218582153,
      "epoch": 2.37,
      "learning_rate": 4.6775203506574824e-05,
      "loss": 35.8433,
      "step": 2805,
      "task_loss": 1.8767869472503662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.32683970709058086,
      "compression/movement_sparsity/importance_threshold": -0.004368907827520357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22530465532859573,
      "compression/movement_sparsity/model_sparsity": 0.21756474729986727,
      "compression_loss": 35.13166046142578,
      "distillation_loss": 0.9171130657196045,
      "epoch": 2.37,
      "learning_rate": 4.677207263619286e-05,
      "loss": 35.9384,
      "step": 2806,
      "task_loss": 0.42592653632164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.32748822370580943,
      "compression/movement_sparsity/importance_threshold": -0.0043646988607313275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22622999458547396,
      "compression/movement_sparsity/model_sparsity": 0.21845829830659522,
      "compression_loss": 35.20086669921875,
      "distillation_loss": 0.5807700157165527,
      "epoch": 2.37,
      "learning_rate": 4.6768941765810894e-05,
      "loss": 35.8018,
      "step": 2807,
      "task_loss": 0.7594570517539978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3281363236704806,
      "compression/movement_sparsity/importance_threshold": -0.004360492598064779,
      "compression/movement_sparsity/linear_layer_sparsity": 0.227263927237012,
      "compression/movement_sparsity/model_sparsity": 0.21945671219080407,
      "compression_loss": 35.270023345947266,
      "distillation_loss": 0.6636044979095459,
      "epoch": 2.37,
      "learning_rate": 4.676581089542893e-05,
      "loss": 35.9512,
      "step": 2808,
      "task_loss": 1.0169124603271484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3287840071184793,
      "compression/movement_sparsity/importance_threshold": -0.00435628903865178,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22812169223589782,
      "compression/movement_sparsity/model_sparsity": 0.22028501032318434,
      "compression_loss": 35.339195251464844,
      "distillation_loss": 0.9646652936935425,
      "epoch": 2.37,
      "learning_rate": 4.6762680025046965e-05,
      "loss": 36.1959,
      "step": 2809,
      "task_loss": 0.7792971134185791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3294312741836908,
      "compression/movement_sparsity/importance_threshold": -0.004352088181623394,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2291586059293448,
      "compression/movement_sparsity/model_sparsity": 0.22128630284134182,
      "compression_loss": 35.40829849243164,
      "distillation_loss": 0.9661957025527954,
      "epoch": 2.38,
      "learning_rate": 4.6759549154664997e-05,
      "loss": 36.3452,
      "step": 2810,
      "task_loss": 0.8791704177856445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.330078125,
      "compression/movement_sparsity/importance_threshold": -0.00434789002611069,
      "compression/movement_sparsity/linear_layer_sparsity": 0.22992827517773687,
      "compression/movement_sparsity/model_sparsity": 0.22202953158327204,
      "compression_loss": 35.477359771728516,
      "distillation_loss": 0.45383894443511963,
      "epoch": 2.38,
      "learning_rate": 4.6756418284283035e-05,
      "loss": 36.2553,
      "step": 2811,
      "task_loss": 0.9472261071205139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3307245597012922,
      "compression/movement_sparsity/importance_threshold": -0.0043436945712447324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23080451071229063,
      "compression/movement_sparsity/model_sparsity": 0.2228756657315981,
      "compression_loss": 35.54640579223633,
      "distillation_loss": 1.051933765411377,
      "epoch": 2.38,
      "learning_rate": 4.675328741390107e-05,
      "loss": 36.3503,
      "step": 2812,
      "task_loss": 0.9278545379638672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33137057842145246,
      "compression/movement_sparsity/importance_threshold": -0.004339501816156588,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23150987292462247,
      "compression/movement_sparsity/model_sparsity": 0.22355679658198835,
      "compression_loss": 35.615379333496094,
      "distillation_loss": 0.41822201013565063,
      "epoch": 2.38,
      "learning_rate": 4.6750156543519105e-05,
      "loss": 36.1521,
      "step": 2813,
      "task_loss": 0.7499445080757141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33201618129436594,
      "compression/movement_sparsity/importance_threshold": -0.004335311759977322,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2322364840036814,
      "compression/movement_sparsity/model_sparsity": 0.22425844633516448,
      "compression_loss": 35.68429946899414,
      "distillation_loss": 0.420144259929657,
      "epoch": 2.38,
      "learning_rate": 4.674702567313714e-05,
      "loss": 36.3622,
      "step": 2814,
      "task_loss": 0.26806408166885376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3326613684539179,
      "compression/movement_sparsity/importance_threshold": -0.004331124401838001,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23313854728533445,
      "compression/movement_sparsity/model_sparsity": 0.2251295209680215,
      "compression_loss": 35.75319290161133,
      "distillation_loss": 1.0627728700637817,
      "epoch": 2.38,
      "learning_rate": 4.674389480275517e-05,
      "loss": 36.5908,
      "step": 2815,
      "task_loss": 1.0578289031982422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33330614003399306,
      "compression/movement_sparsity/importance_threshold": -0.004326939740869692,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23399674155425515,
      "compression/movement_sparsity/model_sparsity": 0.22595823362369039,
      "compression_loss": 35.82202911376953,
      "distillation_loss": 0.7408710718154907,
      "epoch": 2.38,
      "learning_rate": 4.67407639323732e-05,
      "loss": 36.7179,
      "step": 2816,
      "task_loss": 0.9701938033103943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33395049616847705,
      "compression/movement_sparsity/importance_threshold": -0.004322757776203461,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23480283913477476,
      "compression/movement_sparsity/model_sparsity": 0.22673663927247295,
      "compression_loss": 35.89083480834961,
      "distillation_loss": 0.8855273127555847,
      "epoch": 2.38,
      "learning_rate": 4.673763306199124e-05,
      "loss": 36.4909,
      "step": 2817,
      "task_loss": 0.5000036954879761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3345944369912549,
      "compression/movement_sparsity/importance_threshold": -0.00431857850697037,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2356551905615539,
      "compression/movement_sparsity/model_sparsity": 0.2275597098056025,
      "compression_loss": 35.95958709716797,
      "distillation_loss": 0.4469972848892212,
      "epoch": 2.38,
      "learning_rate": 4.673450219160927e-05,
      "loss": 36.5131,
      "step": 2818,
      "task_loss": 0.14825467765331268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33523796263621175,
      "compression/movement_sparsity/importance_threshold": -0.004314401932301489,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23644581057248215,
      "compression/movement_sparsity/model_sparsity": 0.22832316958692375,
      "compression_loss": 36.02830505371094,
      "distillation_loss": 0.32069677114486694,
      "epoch": 2.38,
      "learning_rate": 4.67313713212273e-05,
      "loss": 36.5906,
      "step": 2819,
      "task_loss": 0.27602848410606384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3358810732372326,
      "compression/movement_sparsity/importance_threshold": -0.004310228051327884,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23734653834735997,
      "compression/movement_sparsity/model_sparsity": 0.22919295459177177,
      "compression_loss": 36.096946716308594,
      "distillation_loss": 0.6055190563201904,
      "epoch": 2.38,
      "learning_rate": 4.672824045084534e-05,
      "loss": 37.0309,
      "step": 2820,
      "task_loss": 1.2245550155639648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3365237689282028,
      "compression/movement_sparsity/importance_threshold": -0.004306056863180619,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23813849386506344,
      "compression/movement_sparsity/model_sparsity": 0.229957704001102,
      "compression_loss": 36.16558837890625,
      "distillation_loss": 1.0037580728530884,
      "epoch": 2.38,
      "learning_rate": 4.672510958046337e-05,
      "loss": 36.9062,
      "step": 2821,
      "task_loss": 1.0853989124298096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33716604984300724,
      "compression/movement_sparsity/importance_threshold": -0.004301888366990761,
      "compression/movement_sparsity/linear_layer_sparsity": 0.23908503429199826,
      "compression/movement_sparsity/model_sparsity": 0.23087172785247265,
      "compression_loss": 36.23418045043945,
      "distillation_loss": 1.1358416080474854,
      "epoch": 2.39,
      "learning_rate": 4.6721978710081405e-05,
      "loss": 37.1708,
      "step": 2822,
      "task_loss": 0.7193024158477783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3378079161155312,
      "compression/movement_sparsity/importance_threshold": -0.004297722561889377,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2397595129101532,
      "compression/movement_sparsity/model_sparsity": 0.23152303605515503,
      "compression_loss": 36.302734375,
      "distillation_loss": 0.6037541627883911,
      "epoch": 2.39,
      "learning_rate": 4.671884783969944e-05,
      "loss": 37.0054,
      "step": 2823,
      "task_loss": 0.9604467153549194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33844936787965985,
      "compression/movement_sparsity/importance_threshold": -0.004293559447007532,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24057479209975244,
      "compression/movement_sparsity/model_sparsity": 0.2323103078964994,
      "compression_loss": 36.371219635009766,
      "distillation_loss": 0.8272299766540527,
      "epoch": 2.39,
      "learning_rate": 4.6715716969317475e-05,
      "loss": 37.1179,
      "step": 2824,
      "task_loss": 0.6271184086799622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.33909040526927825,
      "compression/movement_sparsity/importance_threshold": -0.004289399021476292,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2413139116306614,
      "compression/movement_sparsity/model_sparsity": 0.23302403639772398,
      "compression_loss": 36.439697265625,
      "distillation_loss": 0.45521846413612366,
      "epoch": 2.39,
      "learning_rate": 4.671258609893551e-05,
      "loss": 36.9652,
      "step": 2825,
      "task_loss": 0.5182157158851624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3397310284182715,
      "compression/movement_sparsity/importance_threshold": -0.004285241284426726,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24209581507504785,
      "compression/movement_sparsity/model_sparsity": 0.2337790790533794,
      "compression_loss": 36.50811004638672,
      "distillation_loss": 0.5483400821685791,
      "epoch": 2.39,
      "learning_rate": 4.670945522855354e-05,
      "loss": 37.2186,
      "step": 2826,
      "task_loss": 0.0644339844584465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34037123746052467,
      "compression/movement_sparsity/importance_threshold": -0.0042810862349898955,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2429704527711384,
      "compression/movement_sparsity/model_sparsity": 0.23462367025390898,
      "compression_loss": 36.57645034790039,
      "distillation_loss": 0.6850944757461548,
      "epoch": 2.39,
      "learning_rate": 4.670632435817157e-05,
      "loss": 37.3146,
      "step": 2827,
      "task_loss": 0.3326924741268158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34101103252992326,
      "compression/movement_sparsity/importance_threshold": -0.0042769338722968685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2438221602928652,
      "compression/movement_sparsity/model_sparsity": 0.23544611900210566,
      "compression_loss": 36.644775390625,
      "distillation_loss": 0.4832216799259186,
      "epoch": 2.39,
      "learning_rate": 4.670319348778961e-05,
      "loss": 37.2572,
      "step": 2828,
      "task_loss": 0.4763545095920563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3416504137603522,
      "compression/movement_sparsity/importance_threshold": -0.00427278419547871,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24460251359545898,
      "compression/movement_sparsity/model_sparsity": 0.23619966476810778,
      "compression_loss": 36.71302795410156,
      "distillation_loss": 1.4766987562179565,
      "epoch": 2.39,
      "learning_rate": 4.670006261740764e-05,
      "loss": 37.8993,
      "step": 2829,
      "task_loss": 2.3835268020629883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34228938128569664,
      "compression/movement_sparsity/importance_threshold": -0.004268637203666489,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24554920903657304,
      "compression/movement_sparsity/model_sparsity": 0.23711383830844376,
      "compression_loss": 36.78125,
      "distillation_loss": 0.9806388020515442,
      "epoch": 2.39,
      "learning_rate": 4.669693174702567e-05,
      "loss": 37.6856,
      "step": 2830,
      "task_loss": 0.8835890889167786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3429279352398418,
      "compression/movement_sparsity/importance_threshold": -0.004264492895991267,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24638884930065233,
      "compression/movement_sparsity/model_sparsity": 0.23792463434641636,
      "compression_loss": 36.849430084228516,
      "distillation_loss": 0.5653359889984131,
      "epoch": 2.39,
      "learning_rate": 4.669380087664371e-05,
      "loss": 37.4069,
      "step": 2831,
      "task_loss": 0.041991543024778366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34356607575667253,
      "compression/movement_sparsity/importance_threshold": -0.004260351271584114,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24714474613542498,
      "compression/movement_sparsity/model_sparsity": 0.2386545637995039,
      "compression_loss": 36.917537689208984,
      "distillation_loss": 0.5075536966323853,
      "epoch": 2.39,
      "learning_rate": 4.669067000626174e-05,
      "loss": 37.6353,
      "step": 2832,
      "task_loss": 0.522309422492981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34420380297007425,
      "compression/movement_sparsity/importance_threshold": -0.004256212329576094,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24796609472635084,
      "compression/movement_sparsity/model_sparsity": 0.23944769653956766,
      "compression_loss": 36.98560333251953,
      "distillation_loss": 0.6266186833381653,
      "epoch": 2.39,
      "learning_rate": 4.6687539135879775e-05,
      "loss": 37.6607,
      "step": 2833,
      "task_loss": 1.0996663570404053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34484111701393205,
      "compression/movement_sparsity/importance_threshold": -0.0042520760690982744,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24884527553031066,
      "compression/movement_sparsity/model_sparsity": 0.24029667477823494,
      "compression_loss": 37.053619384765625,
      "distillation_loss": 0.7030753493309021,
      "epoch": 2.4,
      "learning_rate": 4.668440826549781e-05,
      "loss": 37.6866,
      "step": 2834,
      "task_loss": 0.8611600995063782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3454780180221311,
      "compression/movement_sparsity/importance_threshold": -0.00424794248928172,
      "compression/movement_sparsity/linear_layer_sparsity": 0.24968933966058285,
      "compression/movement_sparsity/model_sparsity": 0.2411117427089873,
      "compression_loss": 37.121551513671875,
      "distillation_loss": 0.6225899457931519,
      "epoch": 2.4,
      "learning_rate": 4.6681277395115845e-05,
      "loss": 37.6735,
      "step": 2835,
      "task_loss": 0.6386725306510925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3461145061285561,
      "compression/movement_sparsity/importance_threshold": -0.004243811589257499,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25045539588618126,
      "compression/movement_sparsity/model_sparsity": 0.24185148254657177,
      "compression_loss": 37.189449310302734,
      "distillation_loss": 0.6571491956710815,
      "epoch": 2.4,
      "learning_rate": 4.667814652473388e-05,
      "loss": 37.8585,
      "step": 2836,
      "task_loss": 1.6863741874694824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34675058146709314,
      "compression/movement_sparsity/importance_threshold": -0.004239683368156673,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25131629694115526,
      "compression/movement_sparsity/model_sparsity": 0.24268280900186603,
      "compression_loss": 37.257301330566406,
      "distillation_loss": 0.5725002288818359,
      "epoch": 2.4,
      "learning_rate": 4.667501565435191e-05,
      "loss": 37.9629,
      "step": 2837,
      "task_loss": 0.739901602268219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34738624417162633,
      "compression/movement_sparsity/importance_threshold": -0.004235557825110313,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2524180661823738,
      "compression/movement_sparsity/model_sparsity": 0.24374672908021003,
      "compression_loss": 37.325111389160156,
      "distillation_loss": 0.8591113090515137,
      "epoch": 2.4,
      "learning_rate": 4.667188478396994e-05,
      "loss": 38.2245,
      "step": 2838,
      "task_loss": 0.7088752388954163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34802149437604146,
      "compression/movement_sparsity/importance_threshold": -0.004231434959249483,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2531936498179132,
      "compression/movement_sparsity/model_sparsity": 0.24449566903189432,
      "compression_loss": 37.39289855957031,
      "distillation_loss": 0.7340876460075378,
      "epoch": 2.4,
      "learning_rate": 4.666875391358798e-05,
      "loss": 38.2346,
      "step": 2839,
      "task_loss": 0.864829421043396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34865633221422343,
      "compression/movement_sparsity/importance_threshold": -0.004227314769705248,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2540610256959135,
      "compression/movement_sparsity/model_sparsity": 0.24533324788012503,
      "compression_loss": 37.46063232421875,
      "distillation_loss": 0.9722486734390259,
      "epoch": 2.4,
      "learning_rate": 4.666562304320601e-05,
      "loss": 38.2463,
      "step": 2840,
      "task_loss": 1.3590614795684814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3492907578200576,
      "compression/movement_sparsity/importance_threshold": -0.0042231972556086746,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25481540816139636,
      "compression/movement_sparsity/model_sparsity": 0.24606171498716664,
      "compression_loss": 37.528350830078125,
      "distillation_loss": 0.8004908561706543,
      "epoch": 2.4,
      "learning_rate": 4.666249217282404e-05,
      "loss": 38.2403,
      "step": 2841,
      "task_loss": 0.7707799673080444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.34992477132742883,
      "compression/movement_sparsity/importance_threshold": -0.004219082416090829,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25570123072672934,
      "compression/movement_sparsity/model_sparsity": 0.2469171068222715,
      "compression_loss": 37.59602737426758,
      "distillation_loss": 1.4305315017700195,
      "epoch": 2.4,
      "learning_rate": 4.665936130244208e-05,
      "loss": 38.514,
      "step": 2842,
      "task_loss": 0.8881051540374756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3505583728702224,
      "compression/movement_sparsity/importance_threshold": -0.004214970250282777,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25663383180169785,
      "compression/movement_sparsity/model_sparsity": 0.24781767018129833,
      "compression_loss": 37.663639068603516,
      "distillation_loss": 0.8491525650024414,
      "epoch": 2.4,
      "learning_rate": 4.665623043206011e-05,
      "loss": 38.4653,
      "step": 2843,
      "task_loss": 0.6041810512542725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3511915625823233,
      "compression/movement_sparsity/importance_threshold": -0.004210860757315587,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2575059058017467,
      "compression/movement_sparsity/model_sparsity": 0.24865978575663206,
      "compression_loss": 37.731239318847656,
      "distillation_loss": 0.4570489823818207,
      "epoch": 2.4,
      "learning_rate": 4.665309956167815e-05,
      "loss": 38.6108,
      "step": 2844,
      "task_loss": 0.423117458820343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.351824340597617,
      "compression/movement_sparsity/importance_threshold": -0.004206753936320322,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2583820101704565,
      "compression/movement_sparsity/model_sparsity": 0.24950579324506436,
      "compression_loss": 37.79874038696289,
      "distillation_loss": 0.85274338722229,
      "epoch": 2.4,
      "learning_rate": 4.6649968691296183e-05,
      "loss": 38.5337,
      "step": 2845,
      "task_loss": 0.5056070685386658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3524567070499883,
      "compression/movement_sparsity/importance_threshold": -0.0042026497864280496,
      "compression/movement_sparsity/linear_layer_sparsity": 0.25923371769218323,
      "compression/movement_sparsity/model_sparsity": 0.25032824199326104,
      "compression_loss": 37.86625289916992,
      "distillation_loss": 0.742142379283905,
      "epoch": 2.41,
      "learning_rate": 4.664683782091422e-05,
      "loss": 38.653,
      "step": 2846,
      "task_loss": 0.16927161812782288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35308866207332235,
      "compression/movement_sparsity/importance_threshold": -0.004198548306769837,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2601372595706231,
      "compression/movement_sparsity/model_sparsity": 0.25120074442855655,
      "compression_loss": 37.9337158203125,
      "distillation_loss": 0.651244044303894,
      "epoch": 2.41,
      "learning_rate": 4.6643706950532254e-05,
      "loss": 38.7141,
      "step": 2847,
      "task_loss": 0.5600191950798035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35372020580150454,
      "compression/movement_sparsity/importance_threshold": -0.004194449496476746,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26101548644117206,
      "compression/movement_sparsity/model_sparsity": 0.25204880150436026,
      "compression_loss": 38.00112533569336,
      "distillation_loss": 0.8997259140014648,
      "epoch": 2.41,
      "learning_rate": 4.6640576080150286e-05,
      "loss": 38.8972,
      "step": 2848,
      "task_loss": 0.5887425541877747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3543513383684199,
      "compression/movement_sparsity/importance_threshold": -0.004190353354679847,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26175142221932224,
      "compression/movement_sparsity/model_sparsity": 0.25275945562452773,
      "compression_loss": 38.0684814453125,
      "distillation_loss": 0.7795658111572266,
      "epoch": 2.41,
      "learning_rate": 4.663744520976832e-05,
      "loss": 38.9276,
      "step": 2849,
      "task_loss": 1.01128351688385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3549820599079536,
      "compression/movement_sparsity/importance_threshold": -0.004186259880510202,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26254668073146087,
      "compression/movement_sparsity/model_sparsity": 0.25352739456027307,
      "compression_loss": 38.13583755493164,
      "distillation_loss": 0.8401428461074829,
      "epoch": 2.41,
      "learning_rate": 4.6634314339386356e-05,
      "loss": 38.9228,
      "step": 2850,
      "task_loss": 0.8236297965049744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35561237055399075,
      "compression/movement_sparsity/importance_threshold": -0.0041821690730988815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2633468520006655,
      "compression/movement_sparsity/model_sparsity": 0.25430007748476574,
      "compression_loss": 38.20309829711914,
      "distillation_loss": 1.179113745689392,
      "epoch": 2.41,
      "learning_rate": 4.663118346900439e-05,
      "loss": 38.8837,
      "step": 2851,
      "task_loss": 0.7600310444831848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35624227044041656,
      "compression/movement_sparsity/importance_threshold": -0.004178080931576948,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26416518377717946,
      "compression/movement_sparsity/model_sparsity": 0.2550902970472735,
      "compression_loss": 38.27036666870117,
      "distillation_loss": 1.1879817247390747,
      "epoch": 2.41,
      "learning_rate": 4.662805259862242e-05,
      "loss": 39.0994,
      "step": 2852,
      "task_loss": 0.6705665588378906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35687175970111595,
      "compression/movement_sparsity/importance_threshold": -0.00417399545507547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2650281238648192,
      "compression/movement_sparsity/model_sparsity": 0.2559235924881886,
      "compression_loss": 38.337562561035156,
      "distillation_loss": 0.9156839847564697,
      "epoch": 2.41,
      "learning_rate": 4.662492172824045e-05,
      "loss": 39.209,
      "step": 2853,
      "task_loss": 0.7268403768539429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35750083846997427,
      "compression/movement_sparsity/importance_threshold": -0.004169912642725512,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26583273092438436,
      "compression/movement_sparsity/model_sparsity": 0.2567005588199968,
      "compression_loss": 38.40476989746094,
      "distillation_loss": 0.7204276323318481,
      "epoch": 2.41,
      "learning_rate": 4.662179085785849e-05,
      "loss": 39.1545,
      "step": 2854,
      "task_loss": 0.6732168197631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35812950688087664,
      "compression/movement_sparsity/importance_threshold": -0.00416583249365814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2665553116347824,
      "compression/movement_sparsity/model_sparsity": 0.2573983166600744,
      "compression_loss": 38.47188186645508,
      "distillation_loss": 0.793121337890625,
      "epoch": 2.41,
      "learning_rate": 4.661865998747652e-05,
      "loss": 39.3454,
      "step": 2855,
      "task_loss": 1.2277765274047852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.35875776506770773,
      "compression/movement_sparsity/importance_threshold": -0.004161755007004424,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2673980164099441,
      "compression/movement_sparsity/model_sparsity": 0.2582120719337462,
      "compression_loss": 38.5389518737793,
      "distillation_loss": 0.5183939933776855,
      "epoch": 2.41,
      "learning_rate": 4.6615529117094553e-05,
      "loss": 39.3446,
      "step": 2856,
      "task_loss": 0.17983664572238922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3593856131643538,
      "compression/movement_sparsity/importance_threshold": -0.004157680181895421,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26820275463535326,
      "compression/movement_sparsity/model_sparsity": 0.25898916492544816,
      "compression_loss": 38.605979919433594,
      "distillation_loss": 1.1016957759857178,
      "epoch": 2.41,
      "learning_rate": 4.661239824671259e-05,
      "loss": 39.4334,
      "step": 2857,
      "task_loss": 0.8517361879348755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36001305130469874,
      "compression/movement_sparsity/importance_threshold": -0.004153608017462207,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26896746343000877,
      "compression/movement_sparsity/model_sparsity": 0.25972760362048786,
      "compression_loss": 38.672969818115234,
      "distillation_loss": 0.542939305305481,
      "epoch": 2.42,
      "learning_rate": 4.6609267376330624e-05,
      "loss": 39.4956,
      "step": 2858,
      "task_loss": 0.9081098437309265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36064007962262845,
      "compression/movement_sparsity/importance_threshold": -0.004149538512835842,
      "compression/movement_sparsity/linear_layer_sparsity": 0.26974902107353377,
      "compression/movement_sparsity/model_sparsity": 0.2604823123546052,
      "compression_loss": 38.73987579345703,
      "distillation_loss": 0.6673402190208435,
      "epoch": 2.42,
      "learning_rate": 4.6606136505948656e-05,
      "loss": 39.6256,
      "step": 2859,
      "task_loss": 0.5219282507896423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36126669825202784,
      "compression/movement_sparsity/importance_threshold": -0.004145471667147394,
      "compression/movement_sparsity/linear_layer_sparsity": 0.27055557177242356,
      "compression/movement_sparsity/model_sparsity": 0.26126115555574797,
      "compression_loss": 38.806766510009766,
      "distillation_loss": 0.9192186594009399,
      "epoch": 2.42,
      "learning_rate": 4.660300563556669e-05,
      "loss": 39.6278,
      "step": 2860,
      "task_loss": 0.7315831184387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36189290732678214,
      "compression/movement_sparsity/importance_threshold": -0.0041414074795279275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.271282492879841,
      "compression/movement_sparsity/model_sparsity": 0.2619631046868548,
      "compression_loss": 38.873634338378906,
      "distillation_loss": 1.2364275455474854,
      "epoch": 2.42,
      "learning_rate": 4.6599874765184726e-05,
      "loss": 39.917,
      "step": 2861,
      "task_loss": 1.8810677528381348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3625187069807764,
      "compression/movement_sparsity/importance_threshold": -0.004137345949108511,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2722156901631913,
      "compression/movement_sparsity/model_sparsity": 0.2628642437726713,
      "compression_loss": 38.9404296875,
      "distillation_loss": 1.0317611694335938,
      "epoch": 2.42,
      "learning_rate": 4.659674389480276e-05,
      "loss": 39.9435,
      "step": 2862,
      "task_loss": 1.2118535041809082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36314409734789577,
      "compression/movement_sparsity/importance_threshold": -0.00413328707502021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2729521625288851,
      "compression/movement_sparsity/model_sparsity": 0.26357541604694956,
      "compression_loss": 39.007225036621094,
      "distillation_loss": 0.6381598114967346,
      "epoch": 2.42,
      "learning_rate": 4.659361302442079e-05,
      "loss": 39.7733,
      "step": 2863,
      "task_loss": 0.5040556192398071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36376907856202545,
      "compression/movement_sparsity/importance_threshold": -0.004129230856394089,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2736884918045673,
      "compression/movement_sparsity/model_sparsity": 0.26428645014679825,
      "compression_loss": 39.07393264770508,
      "distillation_loss": 0.5515130758285522,
      "epoch": 2.42,
      "learning_rate": 4.659048215403882e-05,
      "loss": 39.6584,
      "step": 2864,
      "task_loss": 0.15428057312965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36439365075705055,
      "compression/movement_sparsity/importance_threshold": -0.004125177292361214,
      "compression/movement_sparsity/linear_layer_sparsity": 0.27456634902591953,
      "compression/movement_sparsity/model_sparsity": 0.26513415027199233,
      "compression_loss": 39.14055633544922,
      "distillation_loss": 0.6442832350730896,
      "epoch": 2.42,
      "learning_rate": 4.658735128365686e-05,
      "loss": 39.8977,
      "step": 2865,
      "task_loss": 0.5284631252288818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36501781406685607,
      "compression/movement_sparsity/importance_threshold": -0.004121126382052654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2754894465392822,
      "compression/movement_sparsity/model_sparsity": 0.2660255365459909,
      "compression_loss": 39.2071647644043,
      "distillation_loss": 0.7689279317855835,
      "epoch": 2.42,
      "learning_rate": 4.658422041327489e-05,
      "loss": 39.9215,
      "step": 2866,
      "task_loss": 1.6232861280441284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36564156862532715,
      "compression/movement_sparsity/importance_threshold": -0.004117078124599473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2762450929665345,
      "compression/movement_sparsity/model_sparsity": 0.26675522419382675,
      "compression_loss": 39.273681640625,
      "distillation_loss": 0.21237990260124207,
      "epoch": 2.42,
      "learning_rate": 4.658108954289292e-05,
      "loss": 39.9412,
      "step": 2867,
      "task_loss": 0.06179613992571831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36626491456634935,
      "compression/movement_sparsity/importance_threshold": -0.004113032519132736,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2771154975831143,
      "compression/movement_sparsity/model_sparsity": 0.26759572773414925,
      "compression_loss": 39.340171813964844,
      "distillation_loss": 0.8785097599029541,
      "epoch": 2.42,
      "learning_rate": 4.657795867251096e-05,
      "loss": 40.143,
      "step": 2868,
      "task_loss": 0.35905545949935913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36688785202380747,
      "compression/movement_sparsity/importance_threshold": -0.00410898956478351,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2781108913248532,
      "compression/movement_sparsity/model_sparsity": 0.26855692663867015,
      "compression_loss": 39.40658950805664,
      "distillation_loss": 0.6887563467025757,
      "epoch": 2.42,
      "learning_rate": 4.6574827802128994e-05,
      "loss": 40.206,
      "step": 2869,
      "task_loss": 0.4455450475215912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3675103811315866,
      "compression/movement_sparsity/importance_threshold": -0.004104949260682861,
      "compression/movement_sparsity/linear_layer_sparsity": 0.27897536963011804,
      "compression/movement_sparsity/model_sparsity": 0.26939170745470276,
      "compression_loss": 39.472991943359375,
      "distillation_loss": 0.6854485273361206,
      "epoch": 2.43,
      "learning_rate": 4.6571696931747025e-05,
      "loss": 40.2766,
      "step": 2870,
      "task_loss": 0.3987427353858948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3681325020235722,
      "compression/movement_sparsity/importance_threshold": -0.004100911605961856,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2798457623225302,
      "compression/movement_sparsity/model_sparsity": 0.2702321994804895,
      "compression_loss": 39.539344787597656,
      "distillation_loss": 0.8364598751068115,
      "epoch": 2.43,
      "learning_rate": 4.656856606136506e-05,
      "loss": 40.6591,
      "step": 2871,
      "task_loss": 0.3235260844230652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.368754214833649,
      "compression/movement_sparsity/importance_threshold": -0.0040968765997515585,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28072531277568674,
      "compression/movement_sparsity/model_sparsity": 0.2710815346697664,
      "compression_loss": 39.605628967285156,
      "distillation_loss": 0.7317798733711243,
      "epoch": 2.43,
      "learning_rate": 4.6565435190983096e-05,
      "loss": 40.3236,
      "step": 2872,
      "task_loss": 0.5763554573059082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.36937551969570237,
      "compression/movement_sparsity/importance_threshold": -0.004092844241183038,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2814827478280844,
      "compression/movement_sparsity/model_sparsity": 0.2718129494979714,
      "compression_loss": 39.67190933227539,
      "distillation_loss": 0.6446233987808228,
      "epoch": 2.43,
      "learning_rate": 4.656230432060113e-05,
      "loss": 40.3812,
      "step": 2873,
      "task_loss": 0.3211532235145569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3699964167436175,
      "compression/movement_sparsity/importance_threshold": -0.004088814529387358,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2823440066080875,
      "compression/movement_sparsity/model_sparsity": 0.27264462138933954,
      "compression_loss": 39.73811721801758,
      "distillation_loss": 0.6134083271026611,
      "epoch": 2.43,
      "learning_rate": 4.655917345021916e-05,
      "loss": 40.4381,
      "step": 2874,
      "task_loss": 0.6651320457458496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3706169061112794,
      "compression/movement_sparsity/importance_threshold": -0.004084787463495585,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2832735789444765,
      "compression/movement_sparsity/model_sparsity": 0.2735422600562745,
      "compression_loss": 39.80424499511719,
      "distillation_loss": 1.0629452466964722,
      "epoch": 2.43,
      "learning_rate": 4.65560425798372e-05,
      "loss": 40.7133,
      "step": 2875,
      "task_loss": 1.7438074350357056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.371236987932573,
      "compression/movement_sparsity/importance_threshold": -0.004080763042638788,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2841550134161195,
      "compression/movement_sparsity/model_sparsity": 0.274393414542207,
      "compression_loss": 39.870384216308594,
      "distillation_loss": 1.0434119701385498,
      "epoch": 2.43,
      "learning_rate": 4.655291170945523e-05,
      "loss": 40.7595,
      "step": 2876,
      "task_loss": 1.18073308467865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37185666234138415,
      "compression/movement_sparsity/importance_threshold": -0.004076741265948026,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28501499631018556,
      "compression/movement_sparsity/model_sparsity": 0.27522385437824504,
      "compression_loss": 39.93647766113281,
      "distillation_loss": 1.1186249256134033,
      "epoch": 2.43,
      "learning_rate": 4.654978083907326e-05,
      "loss": 40.7084,
      "step": 2877,
      "task_loss": 0.698478639125824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37247592947159713,
      "compression/movement_sparsity/importance_threshold": -0.004072722132554373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28585144089733844,
      "compression/movement_sparsity/model_sparsity": 0.2760315645206247,
      "compression_loss": 40.00252151489258,
      "distillation_loss": 0.7777044773101807,
      "epoch": 2.43,
      "learning_rate": 4.65466499686913e-05,
      "loss": 40.771,
      "step": 2878,
      "task_loss": 0.6971895694732666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3730947894570976,
      "compression/movement_sparsity/importance_threshold": -0.00406870564158889,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28660719464209944,
      "compression/movement_sparsity/model_sparsity": 0.27676135579928274,
      "compression_loss": 40.06852340698242,
      "distillation_loss": 0.9045848250389099,
      "epoch": 2.43,
      "learning_rate": 4.654351909830933e-05,
      "loss": 40.7685,
      "step": 2879,
      "task_loss": 0.4576095938682556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37371324243177073,
      "compression/movement_sparsity/importance_threshold": -0.004064691792182645,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28753692199266767,
      "compression/movement_sparsity/model_sparsity": 0.27765914415518306,
      "compression_loss": 40.13444900512695,
      "distillation_loss": 1.1698685884475708,
      "epoch": 2.43,
      "learning_rate": 4.654038822792737e-05,
      "loss": 40.9807,
      "step": 2880,
      "task_loss": 0.7804399132728577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3743312885295015,
      "compression/movement_sparsity/importance_threshold": -0.004060680583466703,
      "compression/movement_sparsity/linear_layer_sparsity": 0.28831608287849786,
      "compression/movement_sparsity/model_sparsity": 0.27841153846760575,
      "compression_loss": 40.2003059387207,
      "distillation_loss": 0.5959482789039612,
      "epoch": 2.44,
      "learning_rate": 4.65372573575454e-05,
      "loss": 40.8497,
      "step": 2881,
      "task_loss": 0.23670023679733276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.374948927884175,
      "compression/movement_sparsity/importance_threshold": -0.004056672014572131,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2892685019200772,
      "compression/movement_sparsity/model_sparsity": 0.2793312389851231,
      "compression_loss": 40.26615905761719,
      "distillation_loss": 1.637770414352417,
      "epoch": 2.44,
      "learning_rate": 4.6534126487163434e-05,
      "loss": 41.1578,
      "step": 2882,
      "task_loss": 1.3308818340301514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3755661606296764,
      "compression/movement_sparsity/importance_threshold": -0.004052666084629995,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2900410568170371,
      "compression/movement_sparsity/model_sparsity": 0.2800772542447156,
      "compression_loss": 40.331947326660156,
      "distillation_loss": 0.5301905274391174,
      "epoch": 2.44,
      "learning_rate": 4.653099561678147e-05,
      "loss": 41.0565,
      "step": 2883,
      "task_loss": 0.35828590393066406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37618298689989105,
      "compression/movement_sparsity/importance_threshold": -0.004048662792771359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2908367088267077,
      "compression/movement_sparsity/model_sparsity": 0.28084557316014214,
      "compression_loss": 40.39767837524414,
      "distillation_loss": 0.6095954179763794,
      "epoch": 2.44,
      "learning_rate": 4.6527864746399504e-05,
      "loss": 40.9782,
      "step": 2884,
      "task_loss": 0.22338418662548065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37679940682870383,
      "compression/movement_sparsity/importance_threshold": -0.004044662138127292,
      "compression/movement_sparsity/linear_layer_sparsity": 0.29176351475620516,
      "compression/movement_sparsity/model_sparsity": 0.2817405404547728,
      "compression_loss": 40.46339416503906,
      "distillation_loss": 1.1423096656799316,
      "epoch": 2.44,
      "learning_rate": 4.6524733876017536e-05,
      "loss": 41.3661,
      "step": 2885,
      "task_loss": 1.4694613218307495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3774154205499999,
      "compression/movement_sparsity/importance_threshold": -0.00404066411982886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2927893747462537,
      "compression/movement_sparsity/model_sparsity": 0.28273115899824874,
      "compression_loss": 40.529052734375,
      "distillation_loss": 0.8341879844665527,
      "epoch": 2.44,
      "learning_rate": 4.652160300563557e-05,
      "loss": 41.6401,
      "step": 2886,
      "task_loss": 1.1159257888793945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3780310281976643,
      "compression/movement_sparsity/importance_threshold": -0.004036668737007127,
      "compression/movement_sparsity/linear_layer_sparsity": 0.29372080725279387,
      "compression/movement_sparsity/model_sparsity": 0.2836305939327677,
      "compression_loss": 40.59469223022461,
      "distillation_loss": 0.25385504961013794,
      "epoch": 2.44,
      "learning_rate": 4.6518472135253606e-05,
      "loss": 41.2741,
      "step": 2887,
      "task_loss": 0.2923908829689026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3786462299055826,
      "compression/movement_sparsity/importance_threshold": -0.00403267598879316,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2945209427494956,
      "compression/movement_sparsity/model_sparsity": 0.284403242313653,
      "compression_loss": 40.66029357910156,
      "distillation_loss": 1.0036131143569946,
      "epoch": 2.44,
      "learning_rate": 4.651534126487164e-05,
      "loss": 41.5371,
      "step": 2888,
      "task_loss": 0.8333678245544434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.37926102580763965,
      "compression/movement_sparsity/importance_threshold": -0.004028685874318023,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2954278233948735,
      "compression/movement_sparsity/model_sparsity": 0.28527896881897097,
      "compression_loss": 40.72584533691406,
      "distillation_loss": 0.6177372932434082,
      "epoch": 2.44,
      "learning_rate": 4.651221039448967e-05,
      "loss": 41.5322,
      "step": 2889,
      "task_loss": 0.8472769856452942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3798754160377207,
      "compression/movement_sparsity/importance_threshold": -0.004024698392712785,
      "compression/movement_sparsity/linear_layer_sparsity": 0.296301447536715,
      "compression/movement_sparsity/model_sparsity": 0.286122581283958,
      "compression_loss": 40.79136657714844,
      "distillation_loss": 0.4667612314224243,
      "epoch": 2.44,
      "learning_rate": 4.65090795241077e-05,
      "loss": 41.693,
      "step": 2890,
      "task_loss": 0.52254319190979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3804894007297107,
      "compression/movement_sparsity/importance_threshold": -0.004020713543108512,
      "compression/movement_sparsity/linear_layer_sparsity": 0.29715943909478587,
      "compression/movement_sparsity/model_sparsity": 0.2869510981925184,
      "compression_loss": 40.856842041015625,
      "distillation_loss": 0.6757433414459229,
      "epoch": 2.44,
      "learning_rate": 4.650594865372574e-05,
      "loss": 41.6772,
      "step": 2891,
      "task_loss": 0.2354496568441391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.381102980017495,
      "compression/movement_sparsity/importance_threshold": -0.0040167313246362675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.29789081984089916,
      "compression/movement_sparsity/model_sparsity": 0.2876573537600124,
      "compression_loss": 40.92229080200195,
      "distillation_loss": 0.5831711292266846,
      "epoch": 2.44,
      "learning_rate": 4.650281778334377e-05,
      "loss": 41.8361,
      "step": 2892,
      "task_loss": 0.2888459265232086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3817161540349585,
      "compression/movement_sparsity/importance_threshold": -0.00401275173642712,
      "compression/movement_sparsity/linear_layer_sparsity": 0.2987747941602486,
      "compression/movement_sparsity/model_sparsity": 0.28851096084206906,
      "compression_loss": 40.987693786621094,
      "distillation_loss": 0.5599726438522339,
      "epoch": 2.45,
      "learning_rate": 4.6499686912961804e-05,
      "loss": 41.7619,
      "step": 2893,
      "task_loss": 0.5428087115287781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.38232892291598664,
      "compression/movement_sparsity/importance_threshold": -0.004008774777612134,
      "compression/movement_sparsity/linear_layer_sparsity": 0.29967263628655855,
      "compression/movement_sparsity/model_sparsity": 0.2893779593292548,
      "compression_loss": 41.05303192138672,
      "distillation_loss": 0.6351958513259888,
      "epoch": 2.45,
      "learning_rate": 4.649655604257984e-05,
      "loss": 41.676,
      "step": 2894,
      "task_loss": 1.06733238697052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3829412867944644,
      "compression/movement_sparsity/importance_threshold": -0.004004800447322376,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3005325237872835,
      "compression/movement_sparsity/model_sparsity": 0.2902083070490065,
      "compression_loss": 41.11833190917969,
      "distillation_loss": 1.173446774482727,
      "epoch": 2.45,
      "learning_rate": 4.6493425172197874e-05,
      "loss": 41.9153,
      "step": 2895,
      "task_loss": 0.44803524017333984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.38355324580427663,
      "compression/movement_sparsity/importance_threshold": -0.004000828744688914,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3014793623184092,
      "compression/movement_sparsity/model_sparsity": 0.29112261876377205,
      "compression_loss": 41.18359375,
      "distillation_loss": 0.7239701747894287,
      "epoch": 2.45,
      "learning_rate": 4.6490294301815906e-05,
      "loss": 42.1057,
      "step": 2896,
      "task_loss": 0.4284662902355194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3841648000793093,
      "compression/movement_sparsity/importance_threshold": -0.0039968596688428094,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3024134658384998,
      "compression/movement_sparsity/model_sparsity": 0.29202463295430897,
      "compression_loss": 41.248756408691406,
      "distillation_loss": 0.702984094619751,
      "epoch": 2.45,
      "learning_rate": 4.648716343143394e-05,
      "loss": 42.1409,
      "step": 2897,
      "task_loss": 1.0311353206634521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3847759497534464,
      "compression/movement_sparsity/importance_threshold": -0.003992893218915134,
      "compression/movement_sparsity/linear_layer_sparsity": 0.30326291969254343,
      "compression/movement_sparsity/model_sparsity": 0.29284490545524045,
      "compression_loss": 41.313968658447266,
      "distillation_loss": 0.8392283916473389,
      "epoch": 2.45,
      "learning_rate": 4.6484032561051976e-05,
      "loss": 42.1862,
      "step": 2898,
      "task_loss": 0.767379105091095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3853866949605741,
      "compression/movement_sparsity/importance_threshold": -0.003988929394036949,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3040476133921567,
      "compression/movement_sparsity/model_sparsity": 0.2936026425122718,
      "compression_loss": 41.37907028198242,
      "distillation_loss": 1.2725660800933838,
      "epoch": 2.45,
      "learning_rate": 4.648090169067001e-05,
      "loss": 42.359,
      "step": 2899,
      "task_loss": 0.3382527828216553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.385997035834577,
      "compression/movement_sparsity/importance_threshold": -0.003984968193339324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.30498456678831226,
      "compression/movement_sparsity/model_sparsity": 0.29450740867686365,
      "compression_loss": 41.44411849975586,
      "distillation_loss": 1.0480101108551025,
      "epoch": 2.45,
      "learning_rate": 4.647777082028804e-05,
      "loss": 42.5172,
      "step": 2900,
      "task_loss": 1.4711451530456543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3866069725093405,
      "compression/movement_sparsity/importance_threshold": -0.003981009615953321,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3059421966911484,
      "compression/movement_sparsity/model_sparsity": 0.2954321410465232,
      "compression_loss": 41.50917053222656,
      "distillation_loss": 0.6651859283447266,
      "epoch": 2.45,
      "learning_rate": 4.647463994990607e-05,
      "loss": 42.4328,
      "step": 2901,
      "task_loss": 0.9531567096710205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3872165051187495,
      "compression/movement_sparsity/importance_threshold": -0.00397705366101001,
      "compression/movement_sparsity/linear_layer_sparsity": 0.30678335132451745,
      "compression/movement_sparsity/model_sparsity": 0.2962443994305417,
      "compression_loss": 41.57416534423828,
      "distillation_loss": 1.171783685684204,
      "epoch": 2.45,
      "learning_rate": 4.647150907952411e-05,
      "loss": 42.4145,
      "step": 2902,
      "task_loss": 0.9167967438697815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.38782563379668933,
      "compression/movement_sparsity/importance_threshold": -0.003973100327640455,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3077512717840234,
      "compression/movement_sparsity/model_sparsity": 0.297179068844592,
      "compression_loss": 41.63910675048828,
      "distillation_loss": 0.795266330242157,
      "epoch": 2.45,
      "learning_rate": 4.646837820914214e-05,
      "loss": 42.6264,
      "step": 2903,
      "task_loss": 0.8102775812149048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.388434358677045,
      "compression/movement_sparsity/importance_threshold": -0.003969149614975721,
      "compression/movement_sparsity/linear_layer_sparsity": 0.30864001577042716,
      "compression/movement_sparsity/model_sparsity": 0.2980372817409665,
      "compression_loss": 41.70398712158203,
      "distillation_loss": 1.0853543281555176,
      "epoch": 2.45,
      "learning_rate": 4.6465247338760174e-05,
      "loss": 42.7023,
      "step": 2904,
      "task_loss": 1.7034764289855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3890426798937018,
      "compression/movement_sparsity/importance_threshold": -0.003965201522146878,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3096413238993135,
      "compression/movement_sparsity/model_sparsity": 0.29900419185524146,
      "compression_loss": 41.768836975097656,
      "distillation_loss": 0.7250006198883057,
      "epoch": 2.46,
      "learning_rate": 4.646211646837821e-05,
      "loss": 42.3868,
      "step": 2905,
      "task_loss": 1.0855621099472046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.38965059758054466,
      "compression/movement_sparsity/importance_threshold": -0.003961256048284989,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3105017718359174,
      "compression/movement_sparsity/model_sparsity": 0.29983508075817555,
      "compression_loss": 41.83367919921875,
      "distillation_loss": 0.7918041944503784,
      "epoch": 2.46,
      "learning_rate": 4.6458985597996244e-05,
      "loss": 42.7318,
      "step": 2906,
      "task_loss": 0.3014744222164154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39025811187145865,
      "compression/movement_sparsity/importance_threshold": -0.003957313192521121,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31125503342964245,
      "compression/movement_sparsity/model_sparsity": 0.30056246549885246,
      "compression_loss": 41.89848709106445,
      "distillation_loss": 1.182638168334961,
      "epoch": 2.46,
      "learning_rate": 4.6455854727614276e-05,
      "loss": 43.364,
      "step": 2907,
      "task_loss": 1.2968885898590088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3908652229003293,
      "compression/movement_sparsity/importance_threshold": -0.003953372953986338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31199124346364826,
      "compression/movement_sparsity/model_sparsity": 0.30127338445334323,
      "compression_loss": 41.96324157714844,
      "distillation_loss": 0.6459425091743469,
      "epoch": 2.46,
      "learning_rate": 4.645272385723231e-05,
      "loss": 42.9923,
      "step": 2908,
      "task_loss": 1.2578368186950684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3914719308010416,
      "compression/movement_sparsity/importance_threshold": -0.003949435331811709,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31293485054534464,
      "compression/movement_sparsity/model_sparsity": 0.3021845757289084,
      "compression_loss": 42.02803421020508,
      "distillation_loss": 1.1089534759521484,
      "epoch": 2.46,
      "learning_rate": 4.6449592986850346e-05,
      "loss": 43.0783,
      "step": 2909,
      "task_loss": 1.5430448055267334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39207823570748057,
      "compression/movement_sparsity/importance_threshold": -0.003945500325128299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31373329281024204,
      "compression/movement_sparsity/model_sparsity": 0.30295558904571085,
      "compression_loss": 42.09272384643555,
      "distillation_loss": 1.2307748794555664,
      "epoch": 2.46,
      "learning_rate": 4.644646211646838e-05,
      "loss": 43.1943,
      "step": 2910,
      "task_loss": 1.0075352191925049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3926841377535315,
      "compression/movement_sparsity/importance_threshold": -0.003941567933067172,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31449025089593424,
      "compression/movement_sparsity/model_sparsity": 0.3036865432924841,
      "compression_loss": 42.15739440917969,
      "distillation_loss": 1.1939666271209717,
      "epoch": 2.46,
      "learning_rate": 4.6443331246086417e-05,
      "loss": 43.1837,
      "step": 2911,
      "task_loss": 1.069510579109192
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3932896370730794,
      "compression/movement_sparsity/importance_threshold": -0.0039376381547593965,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31525554397480393,
      "compression/movement_sparsity/model_sparsity": 0.30442554619977774,
      "compression_loss": 42.222023010253906,
      "distillation_loss": 0.45554298162460327,
      "epoch": 2.46,
      "learning_rate": 4.644020037570445e-05,
      "loss": 43.282,
      "step": 2912,
      "task_loss": 0.21734756231307983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3938947338000094,
      "compression/movement_sparsity/importance_threshold": -0.003933710989336038,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31599447271903075,
      "compression/movement_sparsity/model_sparsity": 0.30513909046842963,
      "compression_loss": 42.28664779663086,
      "distillation_loss": 1.2905585765838623,
      "epoch": 2.46,
      "learning_rate": 4.643706950532249e-05,
      "loss": 43.2745,
      "step": 2913,
      "task_loss": 0.46929341554641724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3944994280682067,
      "compression/movement_sparsity/importance_threshold": -0.003929786435928163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31671168755399265,
      "compression/movement_sparsity/model_sparsity": 0.30583166676739965,
      "compression_loss": 42.35117721557617,
      "distillation_loss": 0.6128755211830139,
      "epoch": 2.46,
      "learning_rate": 4.643393863494052e-05,
      "loss": 43.4111,
      "step": 2914,
      "task_loss": 0.7843023538589478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3951037200115566,
      "compression/movement_sparsity/importance_threshold": -0.003925864493666836,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3175697148845664,
      "compression/movement_sparsity/model_sparsity": 0.30666021821956746,
      "compression_loss": 42.41565704345703,
      "distillation_loss": 0.6931375861167908,
      "epoch": 2.46,
      "learning_rate": 4.643080776455855e-05,
      "loss": 43.177,
      "step": 2915,
      "task_loss": 0.6785308122634888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3957076097639439,
      "compression/movement_sparsity/importance_threshold": -0.003921945161683125,
      "compression/movement_sparsity/linear_layer_sparsity": 0.31832735264781387,
      "compression/movement_sparsity/model_sparsity": 0.307391828794881,
      "compression_loss": 42.4801139831543,
      "distillation_loss": 0.9215804934501648,
      "epoch": 2.46,
      "learning_rate": 4.642767689417659e-05,
      "loss": 43.575,
      "step": 2916,
      "task_loss": 2.18851375579834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39631109745925397,
      "compression/movement_sparsity/importance_threshold": -0.003918028439108094,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3191698904846287,
      "compression/movement_sparsity/model_sparsity": 0.30820542286505165,
      "compression_loss": 42.5445442199707,
      "distillation_loss": 0.6391297578811646,
      "epoch": 2.47,
      "learning_rate": 4.642454602379462e-05,
      "loss": 43.5501,
      "step": 2917,
      "task_loss": 0.7497884035110474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39691418323137173,
      "compression/movement_sparsity/importance_threshold": -0.003914114325072812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3198048524112384,
      "compression/movement_sparsity/model_sparsity": 0.30881857189611095,
      "compression_loss": 42.60887908935547,
      "distillation_loss": 1.3246917724609375,
      "epoch": 2.47,
      "learning_rate": 4.642141515341265e-05,
      "loss": 43.6203,
      "step": 2918,
      "task_loss": 0.418562114238739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39751686721418267,
      "compression/movement_sparsity/importance_threshold": -0.003910202818708342,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3205441865771648,
      "compression/movement_sparsity/model_sparsity": 0.3095325076589798,
      "compression_loss": 42.6732177734375,
      "distillation_loss": 1.0891743898391724,
      "epoch": 2.47,
      "learning_rate": 4.6418284283030684e-05,
      "loss": 43.8306,
      "step": 2919,
      "task_loss": 0.5415326952934265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.3981191495415718,
      "compression/movement_sparsity/importance_threshold": -0.003906293919145751,
      "compression/movement_sparsity/linear_layer_sparsity": 0.32129719776336957,
      "compression/movement_sparsity/model_sparsity": 0.3102596505944051,
      "compression_loss": 42.73749542236328,
      "distillation_loss": 1.188812494277954,
      "epoch": 2.47,
      "learning_rate": 4.641515341264872e-05,
      "loss": 43.5605,
      "step": 2920,
      "task_loss": 0.28355827927589417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39872103034742423,
      "compression/movement_sparsity/importance_threshold": -0.0039023876255161044,
      "compression/movement_sparsity/linear_layer_sparsity": 0.32225288402688107,
      "compression/movement_sparsity/model_sparsity": 0.31118250609473014,
      "compression_loss": 42.80171203613281,
      "distillation_loss": 0.5417231917381287,
      "epoch": 2.47,
      "learning_rate": 4.6412022542266755e-05,
      "loss": 43.7118,
      "step": 2921,
      "task_loss": 0.6326702833175659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.399322509765625,
      "compression/movement_sparsity/importance_threshold": -0.00389848393695047,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3231616129182426,
      "compression/movement_sparsity/model_sparsity": 0.3120600173530963,
      "compression_loss": 42.865882873535156,
      "distillation_loss": 1.4310270547866821,
      "epoch": 2.47,
      "learning_rate": 4.6408891671884786e-05,
      "loss": 44.0238,
      "step": 2922,
      "task_loss": 1.1885594129562378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.39992358793005933,
      "compression/movement_sparsity/importance_threshold": -0.0038945828525799127,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3239664226886575,
      "compression/movement_sparsity/model_sparsity": 0.31283717943201306,
      "compression_loss": 42.93000793457031,
      "distillation_loss": 0.8684248328208923,
      "epoch": 2.47,
      "learning_rate": 4.640576080150282e-05,
      "loss": 43.7433,
      "step": 2923,
      "task_loss": 0.7998301982879639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40052426497461247,
      "compression/movement_sparsity/importance_threshold": -0.003890684371535498,
      "compression/movement_sparsity/linear_layer_sparsity": 0.32469450044033565,
      "compression/movement_sparsity/model_sparsity": 0.3135402454730919,
      "compression_loss": 42.99408721923828,
      "distillation_loss": 0.83378005027771,
      "epoch": 2.47,
      "learning_rate": 4.640262993112086e-05,
      "loss": 43.7778,
      "step": 2924,
      "task_loss": 1.6361151933670044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4011245410331694,
      "compression/movement_sparsity/importance_threshold": -0.003886788492948293,
      "compression/movement_sparsity/linear_layer_sparsity": 0.325454630354619,
      "compression/movement_sparsity/model_sparsity": 0.3142742625863865,
      "compression_loss": 43.05809783935547,
      "distillation_loss": 0.976805567741394,
      "epoch": 2.47,
      "learning_rate": 4.639949906073889e-05,
      "loss": 43.9218,
      "step": 2925,
      "task_loss": 0.4539892077445984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4017244162396153,
      "compression/movement_sparsity/importance_threshold": -0.0038828952159493633,
      "compression/movement_sparsity/linear_layer_sparsity": 0.32635516734281467,
      "compression/movement_sparsity/model_sparsity": 0.31514386335866185,
      "compression_loss": 43.12208557128906,
      "distillation_loss": 0.8063911199569702,
      "epoch": 2.47,
      "learning_rate": 4.639636819035692e-05,
      "loss": 43.9198,
      "step": 2926,
      "task_loss": 1.1421538591384888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40232389072783514,
      "compression/movement_sparsity/importance_threshold": -0.0038790045396697764,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3271673581729962,
      "compression/movement_sparsity/model_sparsity": 0.31592815293523535,
      "compression_loss": 43.18598175048828,
      "distillation_loss": 1.0425676107406616,
      "epoch": 2.47,
      "learning_rate": 4.639323731997495e-05,
      "loss": 44.0352,
      "step": 2927,
      "task_loss": 1.0535584688186646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4029229646317144,
      "compression/movement_sparsity/importance_threshold": -0.003875116463240596,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3281826891230223,
      "compression/movement_sparsity/model_sparsity": 0.3169086041436047,
      "compression_loss": 43.249847412109375,
      "distillation_loss": 0.8331427574157715,
      "epoch": 2.47,
      "learning_rate": 4.639010644959299e-05,
      "loss": 44.0631,
      "step": 2928,
      "task_loss": 0.5636480450630188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4035216380851381,
      "compression/movement_sparsity/importance_threshold": -0.003871230985792889,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3289308352488316,
      "compression/movement_sparsity/model_sparsity": 0.3176310491484258,
      "compression_loss": 43.313655853271484,
      "distillation_loss": 0.6925618648529053,
      "epoch": 2.48,
      "learning_rate": 4.638697557921102e-05,
      "loss": 44.3196,
      "step": 2929,
      "task_loss": 0.7738455533981323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4041199112219914,
      "compression/movement_sparsity/importance_threshold": -0.003867348106457721,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3299261812939,
      "compression/movement_sparsity/model_sparsity": 0.31859220199480354,
      "compression_loss": 43.37746810913086,
      "distillation_loss": 0.34990906715393066,
      "epoch": 2.48,
      "learning_rate": 4.6383844708829054e-05,
      "loss": 44.0114,
      "step": 2930,
      "task_loss": 0.8012046813964844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40471778417615933,
      "compression/movement_sparsity/importance_threshold": -0.0038634678243661593,
      "compression/movement_sparsity/linear_layer_sparsity": 0.33078704657637115,
      "compression/movement_sparsity/model_sparsity": 0.3194234939064904,
      "compression_loss": 43.44115447998047,
      "distillation_loss": 0.9563947319984436,
      "epoch": 2.48,
      "learning_rate": 4.638071383844709e-05,
      "loss": 44.4659,
      "step": 2931,
      "task_loss": 0.6120999455451965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40531525708152716,
      "compression/movement_sparsity/importance_threshold": -0.0038595901386492683,
      "compression/movement_sparsity/linear_layer_sparsity": 0.33169105349734884,
      "compression/movement_sparsity/model_sparsity": 0.3202964454086819,
      "compression_loss": 43.50485610961914,
      "distillation_loss": 0.7025855779647827,
      "epoch": 2.48,
      "learning_rate": 4.6377582968065125e-05,
      "loss": 44.4283,
      "step": 2932,
      "task_loss": 1.3807244300842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4059123300719799,
      "compression/movement_sparsity/importance_threshold": -0.0038557150484381155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3326149022332726,
      "compression/movement_sparsity/model_sparsity": 0.3211885570984355,
      "compression_loss": 43.568511962890625,
      "distillation_loss": 0.6479580402374268,
      "epoch": 2.48,
      "learning_rate": 4.6374452097683156e-05,
      "loss": 44.3871,
      "step": 2933,
      "task_loss": 0.6041141152381897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4065090032814027,
      "compression/movement_sparsity/importance_threshold": -0.003851842552863767,
      "compression/movement_sparsity/linear_layer_sparsity": 0.33337214649898805,
      "compression/movement_sparsity/model_sparsity": 0.32191978769406787,
      "compression_loss": 43.63206481933594,
      "distillation_loss": 1.1242129802703857,
      "epoch": 2.48,
      "learning_rate": 4.637132122730119e-05,
      "loss": 44.7485,
      "step": 2934,
      "task_loss": 0.6753441095352173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4071052768436808,
      "compression/movement_sparsity/importance_threshold": -0.003847972651057288,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3342026886231612,
      "compression/movement_sparsity/model_sparsity": 0.3227217981412292,
      "compression_loss": 43.69563293457031,
      "distillation_loss": 0.6448209285736084,
      "epoch": 2.48,
      "learning_rate": 4.636819035691923e-05,
      "loss": 44.4336,
      "step": 2935,
      "task_loss": 0.06907905638217926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4077011508926993,
      "compression/movement_sparsity/importance_threshold": -0.0038441053421497443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3351139812105644,
      "compression/movement_sparsity/model_sparsity": 0.3236017850247912,
      "compression_loss": 43.7591438293457,
      "distillation_loss": 0.8677753210067749,
      "epoch": 2.48,
      "learning_rate": 4.636505948653726e-05,
      "loss": 44.5361,
      "step": 2936,
      "task_loss": 0.6613269448280334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40829662556234336,
      "compression/movement_sparsity/importance_threshold": -0.0038402406252722025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3359567456065643,
      "compression/movement_sparsity/model_sparsity": 0.32441559787114194,
      "compression_loss": 43.822532653808594,
      "distillation_loss": 0.9101265072822571,
      "epoch": 2.48,
      "learning_rate": 4.636192861615529e-05,
      "loss": 44.8325,
      "step": 2937,
      "task_loss": 0.4901188313961029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40889170098649785,
      "compression/movement_sparsity/importance_threshold": -0.00383637849955573,
      "compression/movement_sparsity/linear_layer_sparsity": 0.33683933672246796,
      "compression/movement_sparsity/model_sparsity": 0.3252678692670465,
      "compression_loss": 43.88595962524414,
      "distillation_loss": 0.7091403603553772,
      "epoch": 2.48,
      "learning_rate": 4.635879774577332e-05,
      "loss": 44.7436,
      "step": 2938,
      "task_loss": 0.1619638353586197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.40948637729904847,
      "compression/movement_sparsity/importance_threshold": -0.0038325189641313898,
      "compression/movement_sparsity/linear_layer_sparsity": 0.33783306108073785,
      "compression/movement_sparsity/model_sparsity": 0.3262274561365561,
      "compression_loss": 43.949317932128906,
      "distillation_loss": 1.4223999977111816,
      "epoch": 2.48,
      "learning_rate": 4.635566687539136e-05,
      "loss": 45.2192,
      "step": 2939,
      "task_loss": 1.7590564489364624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4100806546338799,
      "compression/movement_sparsity/importance_threshold": -0.0038286620181302504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3386267575269162,
      "compression/movement_sparsity/model_sparsity": 0.32699388666811235,
      "compression_loss": 44.01266860961914,
      "distillation_loss": 1.1578500270843506,
      "epoch": 2.48,
      "learning_rate": 4.635253600500939e-05,
      "loss": 45.2843,
      "step": 2940,
      "task_loss": 1.1017003059387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41067453312487745,
      "compression/movement_sparsity/importance_threshold": -0.0038248076606833764,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3394116897098821,
      "compression/movement_sparsity/model_sparsity": 0.3277518540158596,
      "compression_loss": 44.07598876953125,
      "distillation_loss": 0.5856345295906067,
      "epoch": 2.49,
      "learning_rate": 4.6349405134627424e-05,
      "loss": 45.0868,
      "step": 2941,
      "task_loss": 0.9561784863471985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4112680129059263,
      "compression/movement_sparsity/importance_threshold": -0.003820955890921834,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3403250809507892,
      "compression/movement_sparsity/model_sparsity": 0.32863386745772144,
      "compression_loss": 44.13926315307617,
      "distillation_loss": 1.029386281967163,
      "epoch": 2.49,
      "learning_rate": 4.634627426424546e-05,
      "loss": 45.0443,
      "step": 2942,
      "task_loss": 1.0583741664886475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41186109411091154,
      "compression/movement_sparsity/importance_threshold": -0.0038171067079766897,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3410792845537576,
      "compression/movement_sparsity/model_sparsity": 0.3293621618467261,
      "compression_loss": 44.20250701904297,
      "distillation_loss": 1.4305604696273804,
      "epoch": 2.49,
      "learning_rate": 4.6343143393863495e-05,
      "loss": 45.2288,
      "step": 2943,
      "task_loss": 0.9303393363952637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4124537768737182,
      "compression/movement_sparsity/importance_threshold": -0.0038132601109790104,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3419096597395838,
      "compression/movement_sparsity/model_sparsity": 0.33016401109038634,
      "compression_loss": 44.26570129394531,
      "distillation_loss": 0.6474943161010742,
      "epoch": 2.49,
      "learning_rate": 4.6340012523481526e-05,
      "loss": 45.0706,
      "step": 2944,
      "task_loss": 0.895974338054657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41304606132823163,
      "compression/movement_sparsity/importance_threshold": -0.0038094160990598605,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34281045905946744,
      "compression/movement_sparsity/model_sparsity": 0.33103386518244915,
      "compression_loss": 44.328819274902344,
      "distillation_loss": 0.9988981485366821,
      "epoch": 2.49,
      "learning_rate": 4.6336881653099565e-05,
      "loss": 45.2618,
      "step": 2945,
      "task_loss": 1.0241179466247559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4136379476083367,
      "compression/movement_sparsity/importance_threshold": -0.0038055746713503073,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3435861023158451,
      "compression/movement_sparsity/model_sparsity": 0.33178286270681245,
      "compression_loss": 44.391929626464844,
      "distillation_loss": 0.5825836658477783,
      "epoch": 2.49,
      "learning_rate": 4.63337507827176e-05,
      "loss": 45.4396,
      "step": 2946,
      "task_loss": 0.8771296739578247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4142294358479186,
      "compression/movement_sparsity/importance_threshold": -0.0038017358269814175,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34435385177324773,
      "compression/movement_sparsity/model_sparsity": 0.3325242376084797,
      "compression_loss": 44.454986572265625,
      "distillation_loss": 0.6715049147605896,
      "epoch": 2.49,
      "learning_rate": 4.6330619912335635e-05,
      "loss": 45.2895,
      "step": 2947,
      "task_loss": 0.868720531463623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41482052618086307,
      "compression/movement_sparsity/importance_threshold": -0.003797899565084253,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34518305839064567,
      "compression/movement_sparsity/model_sparsity": 0.3333249584276321,
      "compression_loss": 44.51802062988281,
      "distillation_loss": 0.6880049705505371,
      "epoch": 2.49,
      "learning_rate": 4.632748904195367e-05,
      "loss": 45.6004,
      "step": 2948,
      "task_loss": 0.5791944265365601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41541121874105424,
      "compression/movement_sparsity/importance_threshold": -0.0037940658847898856,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3459559233159641,
      "compression/movement_sparsity/model_sparsity": 0.33407127306515527,
      "compression_loss": 44.58099365234375,
      "distillation_loss": 1.0281972885131836,
      "epoch": 2.49,
      "learning_rate": 4.63243581715717e-05,
      "loss": 45.6725,
      "step": 2949,
      "task_loss": 1.3690557479858398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41600151366237803,
      "compression/movement_sparsity/importance_threshold": -0.003790234785229377,
      "compression/movement_sparsity/linear_layer_sparsity": 0.346692228743311,
      "compression/movement_sparsity/model_sparsity": 0.33478228413593236,
      "compression_loss": 44.64393615722656,
      "distillation_loss": 1.6550638675689697,
      "epoch": 2.49,
      "learning_rate": 4.632122730118974e-05,
      "loss": 45.652,
      "step": 2950,
      "task_loss": 1.2117295265197754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41659141107871933,
      "compression/movement_sparsity/importance_threshold": -0.003786406265533795,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34759622374012106,
      "compression/movement_sparsity/model_sparsity": 0.3356552241235881,
      "compression_loss": 44.706844329833984,
      "distillation_loss": 1.1600335836410522,
      "epoch": 2.49,
      "learning_rate": 4.631809643080777e-05,
      "loss": 45.832,
      "step": 2951,
      "task_loss": 1.038508653640747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41718091112396327,
      "compression/movement_sparsity/importance_threshold": -0.0037825803248342053,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34844976758366375,
      "compression/movement_sparsity/model_sparsity": 0.3364794461102971,
      "compression_loss": 44.76972579956055,
      "distillation_loss": 1.4116768836975098,
      "epoch": 2.5,
      "learning_rate": 4.63149655604258e-05,
      "loss": 46.0153,
      "step": 2952,
      "task_loss": 1.126796841621399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.417770013931995,
      "compression/movement_sparsity/importance_threshold": -0.0037787569622616743,
      "compression/movement_sparsity/linear_layer_sparsity": 0.34926806358767487,
      "compression/movement_sparsity/model_sparsity": 0.3372696311291975,
      "compression_loss": 44.832557678222656,
      "distillation_loss": 0.917719841003418,
      "epoch": 2.5,
      "learning_rate": 4.631183469004384e-05,
      "loss": 45.8072,
      "step": 2953,
      "task_loss": 0.3113005757331848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41835871963669957,
      "compression/movement_sparsity/importance_threshold": -0.003774936176947268,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35004646132677636,
      "compression/movement_sparsity/model_sparsity": 0.3380212885113293,
      "compression_loss": 44.895347595214844,
      "distillation_loss": 0.6710514426231384,
      "epoch": 2.5,
      "learning_rate": 4.630870381966187e-05,
      "loss": 45.7014,
      "step": 2954,
      "task_loss": 0.3705901503562927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4189470283719622,
      "compression/movement_sparsity/importance_threshold": -0.0037711179680220523,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35073657252870194,
      "compression/movement_sparsity/model_sparsity": 0.3386876922704384,
      "compression_loss": 44.958045959472656,
      "distillation_loss": 0.883277416229248,
      "epoch": 2.5,
      "learning_rate": 4.63055729492799e-05,
      "loss": 45.8374,
      "step": 2955,
      "task_loss": 2.5270943641662598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.41953494027166816,
      "compression/movement_sparsity/importance_threshold": -0.0037673023346170924,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35152099197245956,
      "compression/movement_sparsity/model_sparsity": 0.33944516449314643,
      "compression_loss": 45.020751953125,
      "distillation_loss": 1.385446310043335,
      "epoch": 2.5,
      "learning_rate": 4.6302442078897935e-05,
      "loss": 46.2633,
      "step": 2956,
      "task_loss": 0.6488084197044373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4201224554697024,
      "compression/movement_sparsity/importance_threshold": -0.003763489275863456,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3522433580478401,
      "compression/movement_sparsity/model_sparsity": 0.3401427150715797,
      "compression_loss": 45.08336639404297,
      "distillation_loss": 1.93520188331604,
      "epoch": 2.5,
      "learning_rate": 4.629931120851597e-05,
      "loss": 46.5351,
      "step": 2957,
      "task_loss": 2.136819839477539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4207095740999499,
      "compression/movement_sparsity/importance_threshold": -0.003759678790892209,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35298519628897007,
      "compression/movement_sparsity/model_sparsity": 0.3408590688869655,
      "compression_loss": 45.145973205566406,
      "distillation_loss": 0.8209676742553711,
      "epoch": 2.5,
      "learning_rate": 4.6296180338134005e-05,
      "loss": 45.8936,
      "step": 2958,
      "task_loss": 0.639210045337677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42129629629629617,
      "compression/movement_sparsity/importance_threshold": -0.0037558708788344164,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35368428638912547,
      "compression/movement_sparsity/model_sparsity": 0.3415341430915278,
      "compression_loss": 45.20850372314453,
      "distillation_loss": 0.7936142683029175,
      "epoch": 2.5,
      "learning_rate": 4.629304946775204e-05,
      "loss": 46.1939,
      "step": 2959,
      "task_loss": 1.103090763092041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4218826221926263,
      "compression/movement_sparsity/importance_threshold": -0.0037520655388211437,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35444783853952033,
      "compression/movement_sparsity/model_sparsity": 0.34227146487659543,
      "compression_loss": 45.270973205566406,
      "distillation_loss": 0.5660673379898071,
      "epoch": 2.5,
      "learning_rate": 4.628991859737007e-05,
      "loss": 46.2823,
      "step": 2960,
      "task_loss": 0.42161619663238525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4224685519228254,
      "compression/movement_sparsity/importance_threshold": -0.0037482627699834572,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3553242052399181,
      "compression/movement_sparsity/model_sparsity": 0.3431177256848152,
      "compression_loss": 45.333404541015625,
      "distillation_loss": 1.181326150894165,
      "epoch": 2.5,
      "learning_rate": 4.628678772698811e-05,
      "loss": 46.3755,
      "step": 2961,
      "task_loss": 1.352212905883789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4230540856207784,
      "compression/movement_sparsity/importance_threshold": -0.0037444625714524245,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3561853090057419,
      "compression/movement_sparsity/model_sparsity": 0.343949247887218,
      "compression_loss": 45.39580535888672,
      "distillation_loss": 0.8366272449493408,
      "epoch": 2.5,
      "learning_rate": 4.628365685660614e-05,
      "loss": 46.2074,
      "step": 2962,
      "task_loss": 0.8022566437721252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42363922342037075,
      "compression/movement_sparsity/importance_threshold": -0.00374066494235911,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3570297904818814,
      "compression/movement_sparsity/model_sparsity": 0.34476471882672316,
      "compression_loss": 45.4581413269043,
      "distillation_loss": 0.5549689531326294,
      "epoch": 2.5,
      "learning_rate": 4.628052598622417e-05,
      "loss": 46.3479,
      "step": 2963,
      "task_loss": 0.5890858769416809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42422396545548735,
      "compression/movement_sparsity/importance_threshold": -0.0037368698818345805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35768646631775597,
      "compression/movement_sparsity/model_sparsity": 0.34539883582746433,
      "compression_loss": 45.520450592041016,
      "distillation_loss": 1.1147891283035278,
      "epoch": 2.51,
      "learning_rate": 4.62773951158422e-05,
      "loss": 46.5234,
      "step": 2964,
      "task_loss": 0.7623768448829651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42480831186001333,
      "compression/movement_sparsity/importance_threshold": -0.003733077389009903,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3586158836399657,
      "compression/movement_sparsity/model_sparsity": 0.346296324805434,
      "compression_loss": 45.582733154296875,
      "distillation_loss": 0.6492785811424255,
      "epoch": 2.51,
      "learning_rate": 4.627426424546024e-05,
      "loss": 46.663,
      "step": 2965,
      "task_loss": 0.17176377773284912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42539226276783404,
      "compression/movement_sparsity/importance_threshold": -0.0037292874630161415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.35959925782072766,
      "compression/movement_sparsity/model_sparsity": 0.347245917057874,
      "compression_loss": 45.64497375488281,
      "distillation_loss": 0.9244823455810547,
      "epoch": 2.51,
      "learning_rate": 4.627113337507827e-05,
      "loss": 46.6565,
      "step": 2966,
      "task_loss": 1.0466699600219727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4259758183128345,
      "compression/movement_sparsity/importance_threshold": -0.003725500102984363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.36052754234701195,
      "compression/movement_sparsity/model_sparsity": 0.3481423121549432,
      "compression_loss": 45.70710754394531,
      "distillation_loss": 0.901154637336731,
      "epoch": 2.51,
      "learning_rate": 4.6268002504696305e-05,
      "loss": 46.8646,
      "step": 2967,
      "task_loss": 1.107824444770813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4265589786288996,
      "compression/movement_sparsity/importance_threshold": -0.0037217153080456354,
      "compression/movement_sparsity/linear_layer_sparsity": 0.36144850543436785,
      "compression/movement_sparsity/model_sparsity": 0.34903163732703457,
      "compression_loss": 45.769264221191406,
      "distillation_loss": 0.9288235902786255,
      "epoch": 2.51,
      "learning_rate": 4.626487163431434e-05,
      "loss": 46.9507,
      "step": 2968,
      "task_loss": 1.3967339992523193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.427141743849915,
      "compression/movement_sparsity/importance_threshold": -0.003717933077331021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3622585976110455,
      "compression/movement_sparsity/model_sparsity": 0.34981390034530824,
      "compression_loss": 45.831363677978516,
      "distillation_loss": 0.766335666179657,
      "epoch": 2.51,
      "learning_rate": 4.6261740763932375e-05,
      "loss": 46.9817,
      "step": 2969,
      "task_loss": 0.6858511567115784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4277241141097655,
      "compression/movement_sparsity/importance_threshold": -0.003714153409971588,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3631852604505313,
      "compression/movement_sparsity/model_sparsity": 0.3507087294655094,
      "compression_loss": 45.893409729003906,
      "distillation_loss": 1.1016695499420166,
      "epoch": 2.51,
      "learning_rate": 4.625860989355041e-05,
      "loss": 46.9162,
      "step": 2970,
      "task_loss": 0.9459066987037659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4283060895423363,
      "compression/movement_sparsity/importance_threshold": -0.0037103763050984027,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3639856702030886,
      "compression/movement_sparsity/model_sparsity": 0.35148164268071797,
      "compression_loss": 45.955421447753906,
      "distillation_loss": 0.5982421636581421,
      "epoch": 2.51,
      "learning_rate": 4.625547902316844e-05,
      "loss": 46.7965,
      "step": 2971,
      "task_loss": 0.45809364318847656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.42888767028151265,
      "compression/movement_sparsity/importance_threshold": -0.00370660176184253,
      "compression/movement_sparsity/linear_layer_sparsity": 0.36493514397526183,
      "compression/movement_sparsity/model_sparsity": 0.35239849910789406,
      "compression_loss": 46.01740646362305,
      "distillation_loss": 1.3665356636047363,
      "epoch": 2.51,
      "learning_rate": 4.625234815278648e-05,
      "loss": 47.3068,
      "step": 2972,
      "task_loss": 0.8063247203826904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4294688564611795,
      "compression/movement_sparsity/importance_threshold": -0.003702829779335037,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3656145472746504,
      "compression/movement_sparsity/model_sparsity": 0.3530545628138596,
      "compression_loss": 46.079322814941406,
      "distillation_loss": 0.9290417432785034,
      "epoch": 2.51,
      "learning_rate": 4.624921728240451e-05,
      "loss": 47.3795,
      "step": 2973,
      "task_loss": 0.7172600030899048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4300496482152222,
      "compression/movement_sparsity/importance_threshold": -0.0036990603567069887,
      "compression/movement_sparsity/linear_layer_sparsity": 0.36640386755130633,
      "compression/movement_sparsity/model_sparsity": 0.35381676751077923,
      "compression_loss": 46.141231536865234,
      "distillation_loss": 1.3607105016708374,
      "epoch": 2.51,
      "learning_rate": 4.624608641202254e-05,
      "loss": 47.1453,
      "step": 2974,
      "task_loss": 0.9460224509239197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4306300456775256,
      "compression/movement_sparsity/importance_threshold": -0.0036952934930894526,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3671693394926906,
      "compression/movement_sparsity/model_sparsity": 0.3545559431361098,
      "compression_loss": 46.203094482421875,
      "distillation_loss": 1.722400188446045,
      "epoch": 2.51,
      "learning_rate": 4.624295554164057e-05,
      "loss": 47.3999,
      "step": 2975,
      "task_loss": 1.8885767459869385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4312100489819751,
      "compression/movement_sparsity/importance_threshold": -0.0036915291876134936,
      "compression/movement_sparsity/linear_layer_sparsity": 0.367955762196611,
      "compression/movement_sparsity/model_sparsity": 0.35531534980083135,
      "compression_loss": 46.264930725097656,
      "distillation_loss": 1.2326338291168213,
      "epoch": 2.52,
      "learning_rate": 4.623982467125861e-05,
      "loss": 47.4629,
      "step": 2976,
      "task_loss": 0.939583957195282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43178965826245586,
      "compression/movement_sparsity/importance_threshold": -0.0036877674394101773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.368589472085619,
      "compression/movement_sparsity/model_sparsity": 0.3559272898056322,
      "compression_loss": 46.32670974731445,
      "distillation_loss": 0.8266104459762573,
      "epoch": 2.52,
      "learning_rate": 4.623669380087664e-05,
      "loss": 47.3876,
      "step": 2977,
      "task_loss": 0.268105685710907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4323688736528526,
      "compression/movement_sparsity/importance_threshold": -0.0036840082476105726,
      "compression/movement_sparsity/linear_layer_sparsity": 0.36932414390199975,
      "compression/movement_sparsity/model_sparsity": 0.35663672338500546,
      "compression_loss": 46.38847351074219,
      "distillation_loss": 2.0449156761169434,
      "epoch": 2.52,
      "learning_rate": 4.623356293049468e-05,
      "loss": 47.6451,
      "step": 2978,
      "task_loss": 1.3121364116668701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.432947695287051,
      "compression/movement_sparsity/importance_threshold": -0.003680251611345742,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3700689751092063,
      "compression/movement_sparsity/model_sparsity": 0.35735596734887565,
      "compression_loss": 46.450172424316406,
      "distillation_loss": 1.146535873413086,
      "epoch": 2.52,
      "learning_rate": 4.623043206011271e-05,
      "loss": 47.6191,
      "step": 2979,
      "task_loss": 0.8306382298469543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43352612329893603,
      "compression/movement_sparsity/importance_threshold": -0.003676497529746753,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3708207819544798,
      "compression/movement_sparsity/model_sparsity": 0.35808194731618564,
      "compression_loss": 46.51185607910156,
      "distillation_loss": 1.1742773056030273,
      "epoch": 2.52,
      "learning_rate": 4.622730118973075e-05,
      "loss": 47.424,
      "step": 2980,
      "task_loss": 0.8094872236251831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43410415782239276,
      "compression/movement_sparsity/importance_threshold": -0.003672746001944671,
      "compression/movement_sparsity/linear_layer_sparsity": 0.371566936744294,
      "compression/movement_sparsity/model_sparsity": 0.35880246939352906,
      "compression_loss": 46.573482513427734,
      "distillation_loss": 1.0738784074783325,
      "epoch": 2.52,
      "learning_rate": 4.6224170319348784e-05,
      "loss": 47.9315,
      "step": 2981,
      "task_loss": 0.6557512879371643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4346817989913063,
      "compression/movement_sparsity/importance_threshold": -0.0036689970270705635,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37244937284601837,
      "compression/movement_sparsity/model_sparsity": 0.35965459110046827,
      "compression_loss": 46.63504409790039,
      "distillation_loss": 1.2947839498519897,
      "epoch": 2.52,
      "learning_rate": 4.6221039448966815e-05,
      "loss": 47.7694,
      "step": 2982,
      "task_loss": 0.49067604541778564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43525904693956197,
      "compression/movement_sparsity/importance_threshold": -0.0036652506042554947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3731950983657976,
      "compression/movement_sparsity/model_sparsity": 0.36037469865452304,
      "compression_loss": 46.69660186767578,
      "distillation_loss": 0.6079787015914917,
      "epoch": 2.52,
      "learning_rate": 4.6217908578584854e-05,
      "loss": 47.8819,
      "step": 2983,
      "task_loss": 1.0253175497055054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4358359018010447,
      "compression/movement_sparsity/importance_threshold": -0.003661506732630532,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37398305928734304,
      "compression/movement_sparsity/model_sparsity": 0.3611355906943621,
      "compression_loss": 46.75809097290039,
      "distillation_loss": 0.8896089196205139,
      "epoch": 2.52,
      "learning_rate": 4.6214777708202886e-05,
      "loss": 47.9421,
      "step": 2984,
      "task_loss": 0.45257365703582764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43641236370963965,
      "compression/movement_sparsity/importance_threshold": -0.0036577654113267417,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37482256838557837,
      "compression/movement_sparsity/model_sparsity": 0.36194626007244096,
      "compression_loss": 46.819557189941406,
      "distillation_loss": 0.8575799465179443,
      "epoch": 2.52,
      "learning_rate": 4.621164683782092e-05,
      "loss": 47.8699,
      "step": 2985,
      "task_loss": 0.37607815861701965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43698843279923205,
      "compression/movement_sparsity/importance_threshold": -0.003654026639475189,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37542577625377377,
      "compression/movement_sparsity/model_sparsity": 0.36252874589467937,
      "compression_loss": 46.880977630615234,
      "distillation_loss": 0.9719109535217285,
      "epoch": 2.52,
      "learning_rate": 4.620851596743895e-05,
      "loss": 47.7689,
      "step": 2986,
      "task_loss": 1.199438214302063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43756410920370714,
      "compression/movement_sparsity/importance_threshold": -0.003650290416206939,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37615865944500915,
      "compression/movement_sparsity/model_sparsity": 0.36323645229368345,
      "compression_loss": 46.942325592041016,
      "distillation_loss": 1.1867564916610718,
      "epoch": 2.52,
      "learning_rate": 4.620538509705699e-05,
      "loss": 48.2498,
      "step": 2987,
      "task_loss": 0.6405383348464966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4381393930569496,
      "compression/movement_sparsity/importance_threshold": -0.0036465567406530615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3768227878856562,
      "compression/movement_sparsity/model_sparsity": 0.3638777658792962,
      "compression_loss": 47.003631591796875,
      "distillation_loss": 1.8391717672348022,
      "epoch": 2.53,
      "learning_rate": 4.620225422667502e-05,
      "loss": 48.5128,
      "step": 2988,
      "task_loss": 1.7843725681304932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4387142844928451,
      "compression/movement_sparsity/importance_threshold": -0.0036428256119446184,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3775359723519572,
      "compression/movement_sparsity/model_sparsity": 0.36456645026516765,
      "compression_loss": 47.06492614746094,
      "distillation_loss": 1.1227415800094604,
      "epoch": 2.53,
      "learning_rate": 4.619912335629305e-05,
      "loss": 48.2419,
      "step": 2989,
      "task_loss": 0.4399822950363159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4392887836452787,
      "compression/movement_sparsity/importance_threshold": -0.0036390970292126765,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3782659579704571,
      "compression/movement_sparsity/model_sparsity": 0.3652713586319737,
      "compression_loss": 47.12617874145508,
      "distillation_loss": 1.0227115154266357,
      "epoch": 2.53,
      "learning_rate": 4.619599248591109e-05,
      "loss": 48.1945,
      "step": 2990,
      "task_loss": 0.7862231731414795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.43986289064813533,
      "compression/movement_sparsity/importance_threshold": -0.0036353709915883034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37904305597528626,
      "compression/movement_sparsity/model_sparsity": 0.3660217609297039,
      "compression_loss": 47.18732833862305,
      "distillation_loss": 1.0007266998291016,
      "epoch": 2.53,
      "learning_rate": 4.619286161552912e-05,
      "loss": 48.1629,
      "step": 2991,
      "task_loss": 0.8205500245094299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4404366056353003,
      "compression/movement_sparsity/importance_threshold": -0.003631647498202564,
      "compression/movement_sparsity/linear_layer_sparsity": 0.37991939882734876,
      "compression/movement_sparsity/model_sparsity": 0.36686799870885206,
      "compression_loss": 47.248443603515625,
      "distillation_loss": 0.7449820041656494,
      "epoch": 2.53,
      "learning_rate": 4.6189730745147153e-05,
      "loss": 48.4599,
      "step": 2992,
      "task_loss": 1.4738025665283203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4410099287406586,
      "compression/movement_sparsity/importance_threshold": -0.0036279265481865245,
      "compression/movement_sparsity/linear_layer_sparsity": 0.38055619707577437,
      "compression/movement_sparsity/model_sparsity": 0.3674829209784237,
      "compression_loss": 47.30953598022461,
      "distillation_loss": 1.039381504058838,
      "epoch": 2.53,
      "learning_rate": 4.6186599874765185e-05,
      "loss": 48.6303,
      "step": 2993,
      "task_loss": 0.8654632568359375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.44158286009809544,
      "compression/movement_sparsity/importance_threshold": -0.003624208140671252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3813774025766886,
      "compression/movement_sparsity/model_sparsity": 0.368275915544058,
      "compression_loss": 47.370582580566406,
      "distillation_loss": 1.7378082275390625,
      "epoch": 2.53,
      "learning_rate": 4.6183469004383224e-05,
      "loss": 48.4121,
      "step": 2994,
      "task_loss": 0.8818203210830688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.442155399841496,
      "compression/movement_sparsity/importance_threshold": -0.003620492274787811,
      "compression/movement_sparsity/linear_layer_sparsity": 0.38221160542032595,
      "compression/movement_sparsity/model_sparsity": 0.36908146095370825,
      "compression_loss": 47.43159484863281,
      "distillation_loss": 2.188715934753418,
      "epoch": 2.53,
      "learning_rate": 4.6180338134001256e-05,
      "loss": 48.6925,
      "step": 2995,
      "task_loss": 2.0982675552368164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.44272754810474546,
      "compression/movement_sparsity/importance_threshold": -0.0036167789496672677,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3829935088647124,
      "compression/movement_sparsity/model_sparsity": 0.36983650360936365,
      "compression_loss": 47.492549896240234,
      "distillation_loss": 0.7178877592086792,
      "epoch": 2.53,
      "learning_rate": 4.617720726361929e-05,
      "loss": 48.7175,
      "step": 2996,
      "task_loss": 1.1483616828918457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4432993050217289,
      "compression/movement_sparsity/importance_threshold": -0.0036130681644406886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.38379329856055266,
      "compression/movement_sparsity/model_sparsity": 0.3706088180687109,
      "compression_loss": 47.553489685058594,
      "distillation_loss": 2.2231712341308594,
      "epoch": 2.53,
      "learning_rate": 4.617407639323732e-05,
      "loss": 48.6895,
      "step": 2997,
      "task_loss": 1.0918434858322144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.44387067072633113,
      "compression/movement_sparsity/importance_threshold": -0.003609359918239142,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3845433644773513,
      "compression/movement_sparsity/model_sparsity": 0.3713331169137949,
      "compression_loss": 47.614383697509766,
      "distillation_loss": 1.2537977695465088,
      "epoch": 2.53,
      "learning_rate": 4.617094552285536e-05,
      "loss": 48.8379,
      "step": 2998,
      "task_loss": 1.1942179203033447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4444416453524378,
      "compression/movement_sparsity/importance_threshold": -0.0036056542101936904,
      "compression/movement_sparsity/linear_layer_sparsity": 0.38536836186357376,
      "compression/movement_sparsity/model_sparsity": 0.3721297731018118,
      "compression_loss": 47.67518997192383,
      "distillation_loss": 1.9196422100067139,
      "epoch": 2.53,
      "learning_rate": 4.616781465247339e-05,
      "loss": 49.0529,
      "step": 2999,
      "task_loss": 0.9124406576156616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.445012229033934,
      "compression/movement_sparsity/importance_threshold": -0.0036019510394354,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3861825678780858,
      "compression/movement_sparsity/model_sparsity": 0.3729160086349346,
      "compression_loss": 47.73597717285156,
      "distillation_loss": 1.357574224472046,
      "epoch": 2.54,
      "learning_rate": 4.616468378209142e-05,
      "loss": 49.0606,
      "step": 3000,
      "task_loss": 1.1198880672454834
    },
    {
      "epoch": 2.54,
      "eval_accuracy": 0.8525940594059406,
      "eval_loss": 48.499977111816406,
      "eval_runtime": 209.0446,
      "eval_samples_per_second": 120.788,
      "eval_steps_per_second": 0.947,
      "step": 3000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.44558242190470465,
      "compression/movement_sparsity/importance_threshold": -0.003598250405095339,
      "compression/movement_sparsity/linear_layer_sparsity": 0.38693547174678183,
      "compression/movement_sparsity/model_sparsity": 0.37364304793953773,
      "compression_loss": 47.79674530029297,
      "distillation_loss": 0.7883907556533813,
      "epoch": 2.54,
      "learning_rate": 4.616155291170945e-05,
      "loss": 48.8798,
      "step": 3001,
      "task_loss": 0.34267064929008484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.446152224098635,
      "compression/movement_sparsity/importance_threshold": -0.0035945523063045724,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3875951047762301,
      "compression/movement_sparsity/model_sparsity": 0.3742800205451559,
      "compression_loss": 47.85750198364258,
      "distillation_loss": 1.596421718597412,
      "epoch": 2.54,
      "learning_rate": 4.615842204132749e-05,
      "loss": 49.1227,
      "step": 3002,
      "task_loss": 2.00067138671875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4467216357496101,
      "compression/movement_sparsity/importance_threshold": -0.0035908567421941667,
      "compression/movement_sparsity/linear_layer_sparsity": 0.388418253916469,
      "compression/movement_sparsity/model_sparsity": 0.37507489198012467,
      "compression_loss": 47.918174743652344,
      "distillation_loss": 1.035849690437317,
      "epoch": 2.54,
      "learning_rate": 4.6155291170945523e-05,
      "loss": 49.249,
      "step": 3003,
      "task_loss": 1.3060356378555298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.44729065699151516,
      "compression/movement_sparsity/importance_threshold": -0.003587163711895187,
      "compression/movement_sparsity/linear_layer_sparsity": 0.389169357235852,
      "compression/movement_sparsity/model_sparsity": 0.3758001925898228,
      "compression_loss": 47.97883605957031,
      "distillation_loss": 1.1889724731445312,
      "epoch": 2.54,
      "learning_rate": 4.6152160300563555e-05,
      "loss": 49.2524,
      "step": 3004,
      "task_loss": 1.1960442066192627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4478592879582354,
      "compression/movement_sparsity/importance_threshold": -0.0035834732145387,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3898109013029967,
      "compression/movement_sparsity/model_sparsity": 0.37641969764464067,
      "compression_loss": 48.039459228515625,
      "distillation_loss": 0.6096097230911255,
      "epoch": 2.54,
      "learning_rate": 4.6149029430181594e-05,
      "loss": 49.0032,
      "step": 3005,
      "task_loss": 1.6016497611999512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4484275287836559,
      "compression/movement_sparsity/importance_threshold": -0.003579785249255771,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3906277664068915,
      "compression/movement_sparsity/model_sparsity": 0.3772085009192457,
      "compression_loss": 48.10003662109375,
      "distillation_loss": 1.0870728492736816,
      "epoch": 2.54,
      "learning_rate": 4.6145898559799626e-05,
      "loss": 49.424,
      "step": 3006,
      "task_loss": 1.130446434020996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4489953796016617,
      "compression/movement_sparsity/importance_threshold": -0.003576099815177467,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3914810359945786,
      "compression/movement_sparsity/model_sparsity": 0.37803245807163144,
      "compression_loss": 48.160552978515625,
      "distillation_loss": 1.0132704973220825,
      "epoch": 2.54,
      "learning_rate": 4.614276768941766e-05,
      "loss": 49.3147,
      "step": 3007,
      "task_loss": 0.5061923861503601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4495628405461377,
      "compression/movement_sparsity/importance_threshold": -0.0035724169114348557,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3922309826697009,
      "compression/movement_sparsity/model_sparsity": 0.3787566417713575,
      "compression_loss": 48.221012115478516,
      "distillation_loss": 0.9048013091087341,
      "epoch": 2.54,
      "learning_rate": 4.613963681903569e-05,
      "loss": 49.4093,
      "step": 3008,
      "task_loss": 1.7405918836593628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4501299117509697,
      "compression/movement_sparsity/importance_threshold": -0.003568736537158999,
      "compression/movement_sparsity/linear_layer_sparsity": 0.39305180659725086,
      "compression/movement_sparsity/model_sparsity": 0.3795492678718463,
      "compression_loss": 48.28147506713867,
      "distillation_loss": 1.1665695905685425,
      "epoch": 2.54,
      "learning_rate": 4.613650594865373e-05,
      "loss": 49.5099,
      "step": 3009,
      "task_loss": 0.8124213814735413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45069659335004253,
      "compression/movement_sparsity/importance_threshold": -0.003565058691480965,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3937940502600804,
      "compression/movement_sparsity/model_sparsity": 0.3802660131814491,
      "compression_loss": 48.34183120727539,
      "distillation_loss": 1.4951739311218262,
      "epoch": 2.54,
      "learning_rate": 4.613337507827176e-05,
      "loss": 49.3971,
      "step": 3010,
      "task_loss": 1.2046178579330444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45126288547724125,
      "compression/movement_sparsity/importance_threshold": -0.00356138337353182,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3945490050856098,
      "compression/movement_sparsity/model_sparsity": 0.38099503298620885,
      "compression_loss": 48.402183532714844,
      "distillation_loss": 0.9649286270141602,
      "epoch": 2.54,
      "learning_rate": 4.613024420788979e-05,
      "loss": 49.5819,
      "step": 3011,
      "task_loss": 0.7643091082572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4518287882664511,
      "compression/movement_sparsity/importance_threshold": -0.0035577105824426297,
      "compression/movement_sparsity/linear_layer_sparsity": 0.39536312763094833,
      "compression/movement_sparsity/model_sparsity": 0.38178118791758114,
      "compression_loss": 48.46248245239258,
      "distillation_loss": 0.853033185005188,
      "epoch": 2.55,
      "learning_rate": 4.612711333750783e-05,
      "loss": 49.299,
      "step": 3012,
      "task_loss": 0.7242262363433838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45239430185155705,
      "compression/movement_sparsity/importance_threshold": -0.003554040317344461,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3961419546400847,
      "compression/movement_sparsity/model_sparsity": 0.38253325982300157,
      "compression_loss": 48.52271270751953,
      "distillation_loss": 1.8731712102890015,
      "epoch": 2.55,
      "learning_rate": 4.612398246712586e-05,
      "loss": 50.0661,
      "step": 3013,
      "task_loss": 0.9525712132453918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4529594263664445,
      "compression/movement_sparsity/importance_threshold": -0.0035503725773683784,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3969815472074935,
      "compression/movement_sparsity/model_sparsity": 0.38334400980283095,
      "compression_loss": 48.58292770385742,
      "distillation_loss": 1.4801769256591797,
      "epoch": 2.55,
      "learning_rate": 4.61208515967439e-05,
      "loss": 49.9521,
      "step": 3014,
      "task_loss": 0.7349382638931274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45352416194499834,
      "compression/movement_sparsity/importance_threshold": -0.0035467073616454493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.397761745495908,
      "compression/movement_sparsity/model_sparsity": 0.3840974058798678,
      "compression_loss": 48.64308166503906,
      "distillation_loss": 1.116469383239746,
      "epoch": 2.55,
      "learning_rate": 4.611772072636193e-05,
      "loss": 49.7579,
      "step": 3015,
      "task_loss": 0.717325747013092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45408850872110396,
      "compression/movement_sparsity/importance_threshold": -0.0035430446693067385,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3987355684183937,
      "compression/movement_sparsity/model_sparsity": 0.3850377749891363,
      "compression_loss": 48.703208923339844,
      "distillation_loss": 1.763638973236084,
      "epoch": 2.55,
      "learning_rate": 4.611458985597997e-05,
      "loss": 50.3364,
      "step": 3016,
      "task_loss": 1.7873024940490723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45465246682864624,
      "compression/movement_sparsity/importance_threshold": -0.0035393844994833132,
      "compression/movement_sparsity/linear_layer_sparsity": 0.3993987429256298,
      "compression/movement_sparsity/model_sparsity": 0.3856781674118855,
      "compression_loss": 48.76327896118164,
      "distillation_loss": 0.8483915328979492,
      "epoch": 2.55,
      "learning_rate": 4.6111458985598e-05,
      "loss": 49.8685,
      "step": 3017,
      "task_loss": 1.2063602209091187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4552160364015102,
      "compression/movement_sparsity/importance_threshold": -0.0035357268513062407,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4001612457492727,
      "compression/movement_sparsity/model_sparsity": 0.3864144759178032,
      "compression_loss": 48.82331085205078,
      "distillation_loss": 0.9016829133033752,
      "epoch": 2.55,
      "learning_rate": 4.6108328115216034e-05,
      "loss": 49.6509,
      "step": 3018,
      "task_loss": 0.6806535124778748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45577921757358153,
      "compression/movement_sparsity/importance_threshold": -0.0035320717239065835,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40080402992985154,
      "compression/movement_sparsity/model_sparsity": 0.3870351784843437,
      "compression_loss": 48.883296966552734,
      "distillation_loss": 1.1798243522644043,
      "epoch": 2.55,
      "learning_rate": 4.6105197244834066e-05,
      "loss": 49.9414,
      "step": 3019,
      "task_loss": 1.6550252437591553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.456342010478745,
      "compression/movement_sparsity/importance_threshold": -0.00352841911641541,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40146988737480577,
      "compression/movement_sparsity/model_sparsity": 0.3876781616776467,
      "compression_loss": 48.943241119384766,
      "distillation_loss": 0.891191840171814,
      "epoch": 2.55,
      "learning_rate": 4.6102066374452104e-05,
      "loss": 50.035,
      "step": 3020,
      "task_loss": 0.6705802083015442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4569044152508859,
      "compression/movement_sparsity/importance_threshold": -0.003524769027963785,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4021666761106074,
      "compression/movement_sparsity/model_sparsity": 0.3883510135768007,
      "compression_loss": 49.00313186645508,
      "distillation_loss": 0.8527969717979431,
      "epoch": 2.55,
      "learning_rate": 4.6098935504070136e-05,
      "loss": 50.2651,
      "step": 3021,
      "task_loss": 0.5501022338867188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45746643202388926,
      "compression/movement_sparsity/importance_threshold": -0.0035211214576827752,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40300992939748037,
      "compression/movement_sparsity/model_sparsity": 0.389165298519119,
      "compression_loss": 49.0629768371582,
      "distillation_loss": 0.9312759637832642,
      "epoch": 2.55,
      "learning_rate": 4.609580463368817e-05,
      "loss": 50.2049,
      "step": 3022,
      "task_loss": 1.307228446006775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45802806093164017,
      "compression/movement_sparsity/importance_threshold": -0.0035174764047034477,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40395800804204024,
      "compression/movement_sparsity/model_sparsity": 0.39008080774560716,
      "compression_loss": 49.12279510498047,
      "distillation_loss": 1.3395168781280518,
      "epoch": 2.56,
      "learning_rate": 4.60926737633062e-05,
      "loss": 50.182,
      "step": 3023,
      "task_loss": 0.6248884797096252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.45858930210802396,
      "compression/movement_sparsity/importance_threshold": -0.0035138338681568663,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40470968372146976,
      "compression/movement_sparsity/model_sparsity": 0.3908066610530234,
      "compression_loss": 49.182525634765625,
      "distillation_loss": 0.828244686126709,
      "epoch": 2.56,
      "learning_rate": 4.608954289292424e-05,
      "loss": 50.1524,
      "step": 3024,
      "task_loss": 0.3207714855670929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4591501556869255,
      "compression/movement_sparsity/importance_threshold": -0.0035101938471740995,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4055934553299694,
      "compression/movement_sparsity/model_sparsity": 0.3916600723879716,
      "compression_loss": 49.24222946166992,
      "distillation_loss": 1.1087942123413086,
      "epoch": 2.56,
      "learning_rate": 4.608641202254227e-05,
      "loss": 50.1614,
      "step": 3025,
      "task_loss": 1.1194664239883423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4597106218022302,
      "compression/movement_sparsity/importance_threshold": -0.0035065563408862113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4064942069531825,
      "compression/movement_sparsity/model_sparsity": 0.3925298804218912,
      "compression_loss": 49.30186462402344,
      "distillation_loss": 1.2210177183151245,
      "epoch": 2.56,
      "learning_rate": 4.60832811521603e-05,
      "loss": 50.6592,
      "step": 3026,
      "task_loss": 1.4186598062515259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46027070058782316,
      "compression/movement_sparsity/importance_threshold": -0.003502921348424268,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4073105950903718,
      "compression/movement_sparsity/model_sparsity": 0.3933182231150644,
      "compression_loss": 49.36148452758789,
      "distillation_loss": 1.0785707235336304,
      "epoch": 2.56,
      "learning_rate": 4.608015028177834e-05,
      "loss": 50.4967,
      "step": 3027,
      "task_loss": 0.4889340102672577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46083039217758914,
      "compression/movement_sparsity/importance_threshold": -0.0034992888689193385,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40812124770292835,
      "compression/movement_sparsity/model_sparsity": 0.3941010273165205,
      "compression_loss": 49.42107391357422,
      "distillation_loss": 1.4543458223342896,
      "epoch": 2.56,
      "learning_rate": 4.607701941139637e-05,
      "loss": 50.8867,
      "step": 3028,
      "task_loss": 0.844824492931366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46138969670541374,
      "compression/movement_sparsity/importance_threshold": -0.0034956589015024855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.40883104570562073,
      "compression/movement_sparsity/model_sparsity": 0.3947864415742263,
      "compression_loss": 49.48062515258789,
      "distillation_loss": 0.9841254949569702,
      "epoch": 2.56,
      "learning_rate": 4.6073888541014404e-05,
      "loss": 50.7115,
      "step": 3029,
      "task_loss": 0.6173140406608582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4619486143051821,
      "compression/movement_sparsity/importance_threshold": -0.003492031445304775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4098034377279901,
      "compression/movement_sparsity/model_sparsity": 0.39572542893919954,
      "compression_loss": 49.54011535644531,
      "distillation_loss": 1.3596410751342773,
      "epoch": 2.56,
      "learning_rate": 4.6070757670632436e-05,
      "loss": 50.9316,
      "step": 3030,
      "task_loss": 0.6872830986976624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46250714511077906,
      "compression/movement_sparsity/importance_threshold": -0.003488406499457275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4105334352706576,
      "compression/movement_sparsity/model_sparsity": 0.39643034882054135,
      "compression_loss": 49.599609375,
      "distillation_loss": 1.5262451171875,
      "epoch": 2.56,
      "learning_rate": 4.6067626800250474e-05,
      "loss": 50.5298,
      "step": 3031,
      "task_loss": 1.6148536205291748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46306528925609003,
      "compression/movement_sparsity/importance_threshold": -0.00348478406309105,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41133404773406473,
      "compression/movement_sparsity/model_sparsity": 0.3972034577828584,
      "compression_loss": 49.659019470214844,
      "distillation_loss": 1.2843658924102783,
      "epoch": 2.56,
      "learning_rate": 4.6064495929868506e-05,
      "loss": 50.8546,
      "step": 3032,
      "task_loss": 1.0581368207931519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.463623046875,
      "compression/movement_sparsity/importance_threshold": -0.003481164135337167,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4122279429608872,
      "compression/movement_sparsity/model_sparsity": 0.39806664495869615,
      "compression_loss": 49.71843338012695,
      "distillation_loss": 0.647236168384552,
      "epoch": 2.56,
      "learning_rate": 4.606136505948654e-05,
      "loss": 50.7379,
      "step": 3033,
      "task_loss": 1.5364799499511719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4641804181013941,
      "compression/movement_sparsity/importance_threshold": -0.0034775467153266917,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41298405443067726,
      "compression/movement_sparsity/model_sparsity": 0.39879678167342797,
      "compression_loss": 49.77777099609375,
      "distillation_loss": 1.3885314464569092,
      "epoch": 2.56,
      "learning_rate": 4.605823418910457e-05,
      "loss": 51.0689,
      "step": 3034,
      "task_loss": 1.4492218494415283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46473740306915756,
      "compression/movement_sparsity/importance_threshold": -0.00347393180219069,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4137628337431431,
      "compression/movement_sparsity/model_sparsity": 0.39954880752070526,
      "compression_loss": 49.83711242675781,
      "distillation_loss": 0.9964950680732727,
      "epoch": 2.57,
      "learning_rate": 4.605510331872261e-05,
      "loss": 50.9323,
      "step": 3035,
      "task_loss": 1.0271660089492798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4652940019121755,
      "compression/movement_sparsity/importance_threshold": -0.0034703193950602284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4146746629180899,
      "compression/movement_sparsity/model_sparsity": 0.400429312558378,
      "compression_loss": 49.89639663696289,
      "distillation_loss": 1.2218633890151978,
      "epoch": 2.57,
      "learning_rate": 4.605197244834064e-05,
      "loss": 50.9048,
      "step": 3036,
      "task_loss": 1.7682394981384277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46585021476433297,
      "compression/movement_sparsity/importance_threshold": -0.0034667094930663726,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41537374109407765,
      "compression/movement_sparsity/model_sparsity": 0.40110437524840453,
      "compression_loss": 49.95565414428711,
      "distillation_loss": 0.8477005362510681,
      "epoch": 2.57,
      "learning_rate": 4.604884157795867e-05,
      "loss": 51.1667,
      "step": 3037,
      "task_loss": 1.0512068271636963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4664060417595153,
      "compression/movement_sparsity/importance_threshold": -0.003463102095340188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41626082762118005,
      "compression/movement_sparsity/model_sparsity": 0.4019609876243036,
      "compression_loss": 50.01482391357422,
      "distillation_loss": 0.6165015697479248,
      "epoch": 2.57,
      "learning_rate": 4.6045710707576704e-05,
      "loss": 51.074,
      "step": 3038,
      "task_loss": 0.5026558041572571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4669614830316071,
      "compression/movement_sparsity/importance_threshold": -0.003459497201012744,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4171298728826494,
      "compression/movement_sparsity/model_sparsity": 0.4028001785075455,
      "compression_loss": 50.07398986816406,
      "distillation_loss": 2.2888708114624023,
      "epoch": 2.57,
      "learning_rate": 4.604257983719474e-05,
      "loss": 51.6146,
      "step": 3039,
      "task_loss": 1.57419753074646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4675165387144943,
      "compression/movement_sparsity/importance_threshold": -0.0034558948092151013,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41786951707693437,
      "compression/movement_sparsity/model_sparsity": 0.40351441364834506,
      "compression_loss": 50.13309097290039,
      "distillation_loss": 1.2059483528137207,
      "epoch": 2.57,
      "learning_rate": 4.6039448966812774e-05,
      "loss": 51.4796,
      "step": 3040,
      "task_loss": 1.3771718740463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.46807120894206156,
      "compression/movement_sparsity/importance_threshold": -0.0034522949190783294,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4186502638770601,
      "compression/movement_sparsity/model_sparsity": 0.40426833939402845,
      "compression_loss": 50.192161560058594,
      "distillation_loss": 2.4123082160949707,
      "epoch": 2.57,
      "learning_rate": 4.6036318096430806e-05,
      "loss": 51.5858,
      "step": 3041,
      "task_loss": 1.4918067455291748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4686254938481941,
      "compression/movement_sparsity/importance_threshold": -0.0034486975297334937,
      "compression/movement_sparsity/linear_layer_sparsity": 0.41942926974871103,
      "compression/movement_sparsity/model_sparsity": 0.4050205840174858,
      "compression_loss": 50.25119400024414,
      "distillation_loss": 2.0995240211486816,
      "epoch": 2.57,
      "learning_rate": 4.6033187226048844e-05,
      "loss": 51.8054,
      "step": 3042,
      "task_loss": 1.4542911052703857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4691793935667772,
      "compression/movement_sparsity/importance_threshold": -0.0034451026403116594,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42019261918825607,
      "compression/movement_sparsity/model_sparsity": 0.4057577100554449,
      "compression_loss": 50.3101806640625,
      "distillation_loss": 1.601941704750061,
      "epoch": 2.57,
      "learning_rate": 4.6030056355666876e-05,
      "loss": 51.5382,
      "step": 3043,
      "task_loss": 1.5692179203033447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4697329082316958,
      "compression/movement_sparsity/importance_threshold": -0.0034415102499438938,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42101253687906565,
      "compression/movement_sparsity/model_sparsity": 0.4065494610512133,
      "compression_loss": 50.36914825439453,
      "distillation_loss": 1.8784395456314087,
      "epoch": 2.57,
      "learning_rate": 4.602692548528491e-05,
      "loss": 51.8507,
      "step": 3044,
      "task_loss": 1.3912781476974487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4702860379768351,
      "compression/movement_sparsity/importance_threshold": -0.003437920357761262,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4216344179937788,
      "compression/movement_sparsity/model_sparsity": 0.40714997863650604,
      "compression_loss": 50.42805862426758,
      "distillation_loss": 1.7280023097991943,
      "epoch": 2.57,
      "learning_rate": 4.6023794614902946e-05,
      "loss": 51.8758,
      "step": 3045,
      "task_loss": 1.6088672876358032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4708387829360803,
      "compression/movement_sparsity/importance_threshold": -0.0034343329628948307,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4223656556498805,
      "compression/movement_sparsity/model_sparsity": 0.40785609602957046,
      "compression_loss": 50.486915588378906,
      "distillation_loss": 1.004605770111084,
      "epoch": 2.57,
      "learning_rate": 4.602066374452098e-05,
      "loss": 51.4036,
      "step": 3046,
      "task_loss": 0.9863617420196533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47139114324331644,
      "compression/movement_sparsity/importance_threshold": -0.0034307480644756656,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4232799650516956,
      "compression/movement_sparsity/model_sparsity": 0.4087389960906884,
      "compression_loss": 50.54570388793945,
      "distillation_loss": 1.3414889574050903,
      "epoch": 2.58,
      "learning_rate": 4.601753287413902e-05,
      "loss": 51.473,
      "step": 3047,
      "task_loss": 1.3801639080047607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4719431190324288,
      "compression/movement_sparsity/importance_threshold": -0.0034271656616348327,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4240613319085384,
      "compression/movement_sparsity/model_sparsity": 0.4094935205922331,
      "compression_loss": 50.604454040527344,
      "distillation_loss": 1.2663168907165527,
      "epoch": 2.58,
      "learning_rate": 4.601440200375705e-05,
      "loss": 51.5074,
      "step": 3048,
      "task_loss": 1.840630054473877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4724947104373022,
      "compression/movement_sparsity/importance_threshold": -0.0034235857535033997,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42489534396549355,
      "compression/movement_sparsity/model_sparsity": 0.4102988817693107,
      "compression_loss": 50.66312026977539,
      "distillation_loss": 1.275709867477417,
      "epoch": 2.58,
      "learning_rate": 4.601127113337508e-05,
      "loss": 51.8713,
      "step": 3049,
      "task_loss": 1.185864806175232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47304591759182224,
      "compression/movement_sparsity/importance_threshold": -0.0034200083392124294,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42575223850014193,
      "compression/movement_sparsity/model_sparsity": 0.41112633934057796,
      "compression_loss": 50.7217903137207,
      "distillation_loss": 1.132809042930603,
      "epoch": 2.58,
      "learning_rate": 4.600814026299312e-05,
      "loss": 52.0783,
      "step": 3050,
      "task_loss": 1.5769896507263184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4735967406298738,
      "compression/movement_sparsity/importance_threshold": -0.00341643341789299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.426576496587971,
      "compression/movement_sparsity/model_sparsity": 0.4119222816273756,
      "compression_loss": 50.78036880493164,
      "distillation_loss": 1.7412362098693848,
      "epoch": 2.58,
      "learning_rate": 4.600500939261115e-05,
      "loss": 52.0238,
      "step": 3051,
      "task_loss": 1.0740635395050049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47414717968534215,
      "compression/movement_sparsity/importance_threshold": -0.0034128609886761464,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42737924347738493,
      "compression/movement_sparsity/model_sparsity": 0.4126974516915999,
      "compression_loss": 50.838958740234375,
      "distillation_loss": 1.6543631553649902,
      "epoch": 2.58,
      "learning_rate": 4.600187852222918e-05,
      "loss": 52.0996,
      "step": 3052,
      "task_loss": 1.3523019552230835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47469723489211224,
      "compression/movement_sparsity/importance_threshold": -0.003409291050692966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4283323183481842,
      "compression/movement_sparsity/model_sparsity": 0.4136177855085859,
      "compression_loss": 50.89751434326172,
      "distillation_loss": 0.8148986101150513,
      "epoch": 2.58,
      "learning_rate": 4.599874765184722e-05,
      "loss": 51.9025,
      "step": 3053,
      "task_loss": 0.4207479953765869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4752469063840694,
      "compression/movement_sparsity/importance_threshold": -0.0034057236030745133,
      "compression/movement_sparsity/linear_layer_sparsity": 0.42932759284824673,
      "compression/movement_sparsity/model_sparsity": 0.4145788692677489,
      "compression_loss": 50.955997467041016,
      "distillation_loss": 1.5914688110351562,
      "epoch": 2.58,
      "learning_rate": 4.599561678146525e-05,
      "loss": 52.3315,
      "step": 3054,
      "task_loss": 1.6181625127792358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4757961942950987,
      "compression/movement_sparsity/importance_threshold": -0.003402158644951856,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43020112159674717,
      "compression/movement_sparsity/model_sparsity": 0.41542238961644956,
      "compression_loss": 51.01445388793945,
      "distillation_loss": 1.6381553411483765,
      "epoch": 2.58,
      "learning_rate": 4.5992485911083284e-05,
      "loss": 52.6231,
      "step": 3055,
      "task_loss": 1.3733323812484741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47634509875908515,
      "compression/movement_sparsity/importance_threshold": -0.0033985961754560592,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4309766694597837,
      "compression/movement_sparsity/model_sparsity": 0.4161712950245265,
      "compression_loss": 51.072879791259766,
      "distillation_loss": 1.2611162662506104,
      "epoch": 2.58,
      "learning_rate": 4.5989355040701316e-05,
      "loss": 52.2681,
      "step": 3056,
      "task_loss": 1.1299914121627808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4768936199099141,
      "compression/movement_sparsity/importance_threshold": -0.0033950361937181888,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4318261590863302,
      "compression/movement_sparsity/model_sparsity": 0.4169916020690654,
      "compression_loss": 51.13126754760742,
      "distillation_loss": 1.1304724216461182,
      "epoch": 2.58,
      "learning_rate": 4.5986224170319355e-05,
      "loss": 52.3906,
      "step": 3057,
      "task_loss": 0.7407874464988708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4774417578814706,
      "compression/movement_sparsity/importance_threshold": -0.003391478698869311,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43262461327539525,
      "compression/movement_sparsity/model_sparsity": 0.4177626269004036,
      "compression_loss": 51.189613342285156,
      "distillation_loss": 1.6101806163787842,
      "epoch": 2.58,
      "learning_rate": 4.5983093299937387e-05,
      "loss": 52.6213,
      "step": 3058,
      "task_loss": 1.5085195302963257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47798951280763957,
      "compression/movement_sparsity/importance_threshold": -0.003387923690040493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43337295018788674,
      "compression/movement_sparsity/model_sparsity": 0.4184852561377974,
      "compression_loss": 51.24794006347656,
      "distillation_loss": 1.0015469789505005,
      "epoch": 2.59,
      "learning_rate": 4.597996242955542e-05,
      "loss": 52.5263,
      "step": 3059,
      "task_loss": 0.8378332853317261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4785368848223065,
      "compression/movement_sparsity/importance_threshold": -0.0033843711663627996,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4341944895654948,
      "compression/movement_sparsity/model_sparsity": 0.41927857311043387,
      "compression_loss": 51.306175231933594,
      "distillation_loss": 0.6478455662727356,
      "epoch": 2.59,
      "learning_rate": 4.597683155917345e-05,
      "loss": 52.6246,
      "step": 3060,
      "task_loss": 1.133970022201538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4790838740593565,
      "compression/movement_sparsity/importance_threshold": -0.003380821126967296,
      "compression/movement_sparsity/linear_layer_sparsity": 0.434921386824577,
      "compression/movement_sparsity/model_sparsity": 0.4199804992124691,
      "compression_loss": 51.364410400390625,
      "distillation_loss": 1.1770353317260742,
      "epoch": 2.59,
      "learning_rate": 4.597370068879149e-05,
      "loss": 52.2459,
      "step": 3061,
      "task_loss": 0.5332392454147339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.47963048065267455,
      "compression/movement_sparsity/importance_threshold": -0.0033772735709850497,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4355445676735625,
      "compression/movement_sparsity/model_sparsity": 0.42058227188216335,
      "compression_loss": 51.42261505126953,
      "distillation_loss": 1.4087467193603516,
      "epoch": 2.59,
      "learning_rate": 4.597056981840952e-05,
      "loss": 52.8932,
      "step": 3062,
      "task_loss": 1.1240863800048828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48017670473614593,
      "compression/movement_sparsity/importance_threshold": -0.0033737284975471258,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43626558631800016,
      "compression/movement_sparsity/model_sparsity": 0.4212785213180519,
      "compression_loss": 51.48073196411133,
      "distillation_loss": 1.2525204420089722,
      "epoch": 2.59,
      "learning_rate": 4.596743894802755e-05,
      "loss": 53.2118,
      "step": 3063,
      "task_loss": 2.094228982925415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48072254644365564,
      "compression/movement_sparsity/importance_threshold": -0.0033701859057845914,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43717400518100313,
      "compression/movement_sparsity/model_sparsity": 0.42215573319848737,
      "compression_loss": 51.53883743286133,
      "distillation_loss": 1.4521896839141846,
      "epoch": 2.59,
      "learning_rate": 4.596430807764559e-05,
      "loss": 52.7443,
      "step": 3064,
      "task_loss": 1.4132658243179321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4812680059090889,
      "compression/movement_sparsity/importance_threshold": -0.0033666457948285113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.438076271173506,
      "compression/movement_sparsity/model_sparsity": 0.4230270035784529,
      "compression_loss": 51.596866607666016,
      "distillation_loss": 2.6263747215270996,
      "epoch": 2.59,
      "learning_rate": 4.596117720726362e-05,
      "loss": 53.1557,
      "step": 3065,
      "task_loss": 2.2931597232818604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4818130832663309,
      "compression/movement_sparsity/importance_threshold": -0.0033631081638099527,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43885212906490106,
      "compression/movement_sparsity/model_sparsity": 0.4237762083644605,
      "compression_loss": 51.65485382080078,
      "distillation_loss": 0.7742253541946411,
      "epoch": 2.59,
      "learning_rate": 4.5958046336881654e-05,
      "loss": 52.7465,
      "step": 3066,
      "task_loss": 0.24861003458499908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48235777864926654,
      "compression/movement_sparsity/importance_threshold": -0.0033595730118599816,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4395888399139476,
      "compression/movement_sparsity/model_sparsity": 0.4244876109294546,
      "compression_loss": 51.71284103393555,
      "distillation_loss": 1.2151256799697876,
      "epoch": 2.59,
      "learning_rate": 4.5954915466499686e-05,
      "loss": 53.1527,
      "step": 3067,
      "task_loss": 2.4720165729522705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48290209219178126,
      "compression/movement_sparsity/importance_threshold": -0.003356040338109663,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4402817890677705,
      "compression/movement_sparsity/model_sparsity": 0.42515675514808277,
      "compression_loss": 51.77070999145508,
      "distillation_loss": 2.205674886703491,
      "epoch": 2.59,
      "learning_rate": 4.5951784596117725e-05,
      "loss": 53.3044,
      "step": 3068,
      "task_loss": 1.635906457901001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4834460240277598,
      "compression/movement_sparsity/importance_threshold": -0.003352510141690065,
      "compression/movement_sparsity/linear_layer_sparsity": 0.44098995345949676,
      "compression/movement_sparsity/model_sparsity": 0.4258405919143847,
      "compression_loss": 51.828590393066406,
      "distillation_loss": 1.1123504638671875,
      "epoch": 2.59,
      "learning_rate": 4.5948653725735756e-05,
      "loss": 53.2368,
      "step": 3069,
      "task_loss": 0.8958407044410706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4839895742910879,
      "compression/movement_sparsity/importance_threshold": -0.0033489824217322506,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4417366090643516,
      "compression/movement_sparsity/model_sparsity": 0.4265615976022315,
      "compression_loss": 51.88640594482422,
      "distillation_loss": 1.5869202613830566,
      "epoch": 2.59,
      "learning_rate": 4.594552285535379e-05,
      "loss": 53.1995,
      "step": 3070,
      "task_loss": 1.3270666599273682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4845327431156503,
      "compression/movement_sparsity/importance_threshold": -0.0033454571773672876,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4424470509720963,
      "compression/movement_sparsity/model_sparsity": 0.42724763364487023,
      "compression_loss": 51.944183349609375,
      "distillation_loss": 1.4062294960021973,
      "epoch": 2.6,
      "learning_rate": 4.594239198497182e-05,
      "loss": 53.4888,
      "step": 3071,
      "task_loss": 1.848559856414795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48507553063533226,
      "compression/movement_sparsity/importance_threshold": -0.003341934407726242,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4431387242399822,
      "compression/movement_sparsity/model_sparsity": 0.4279155458081684,
      "compression_loss": 52.001895904541016,
      "distillation_loss": 2.3299014568328857,
      "epoch": 2.6,
      "learning_rate": 4.593926111458986e-05,
      "loss": 53.9,
      "step": 3072,
      "task_loss": 1.4427857398986816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4856179369840188,
      "compression/movement_sparsity/importance_threshold": -0.00333841411194018,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4439005116135669,
      "compression/movement_sparsity/model_sparsity": 0.4286511634419384,
      "compression_loss": 52.059600830078125,
      "distillation_loss": 1.234562873840332,
      "epoch": 2.6,
      "learning_rate": 4.593613024420789e-05,
      "loss": 53.4152,
      "step": 3073,
      "task_loss": 0.8873119354248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4861599622955952,
      "compression/movement_sparsity/importance_threshold": -0.0033348962891401666,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4447036400763452,
      "compression/movement_sparsity/model_sparsity": 0.4294267019713081,
      "compression_loss": 52.11725997924805,
      "distillation_loss": 1.2186946868896484,
      "epoch": 2.6,
      "learning_rate": 4.593299937382592e-05,
      "loss": 53.5372,
      "step": 3074,
      "task_loss": 1.1538066864013672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48670160670394647,
      "compression/movement_sparsity/importance_threshold": -0.0033313809384572695,
      "compression/movement_sparsity/linear_layer_sparsity": 0.44545535152827764,
      "compression/movement_sparsity/model_sparsity": 0.43015258982233173,
      "compression_loss": 52.17485809326172,
      "distillation_loss": 1.948697805404663,
      "epoch": 2.6,
      "learning_rate": 4.5929868503443954e-05,
      "loss": 53.4275,
      "step": 3075,
      "task_loss": 1.1946372985839844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4872428703429579,
      "compression/movement_sparsity/importance_threshold": -0.003327868059022553,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4463682181058088,
      "compression/movement_sparsity/model_sparsity": 0.4310340966246186,
      "compression_loss": 52.23242950439453,
      "distillation_loss": 1.536691427230835,
      "epoch": 2.6,
      "learning_rate": 4.592673763306199e-05,
      "loss": 53.788,
      "step": 3076,
      "task_loss": 1.3213543891906738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.48778375334651447,
      "compression/movement_sparsity/importance_threshold": -0.0033243576499670845,
      "compression/movement_sparsity/linear_layer_sparsity": 0.44707974511280835,
      "compression/movement_sparsity/model_sparsity": 0.4317211804900147,
      "compression_loss": 52.28993606567383,
      "distillation_loss": 1.5246739387512207,
      "epoch": 2.6,
      "learning_rate": 4.5923606762680024e-05,
      "loss": 53.9212,
      "step": 3077,
      "task_loss": 1.3365530967712402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4883242558485015,
      "compression/movement_sparsity/importance_threshold": -0.003320849710421929,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4477852981118224,
      "compression/movement_sparsity/model_sparsity": 0.43240249557297766,
      "compression_loss": 52.34743118286133,
      "distillation_loss": 0.9668715596199036,
      "epoch": 2.6,
      "learning_rate": 4.5920475892298056e-05,
      "loss": 53.7,
      "step": 3078,
      "task_loss": 1.0256965160369873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4888643779828038,
      "compression/movement_sparsity/importance_threshold": -0.0033173442395181543,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4485775517337167,
      "compression/movement_sparsity/model_sparsity": 0.4331675328457027,
      "compression_loss": 52.404876708984375,
      "distillation_loss": 0.8775773048400879,
      "epoch": 2.6,
      "learning_rate": 4.5917345021916095e-05,
      "loss": 53.7763,
      "step": 3079,
      "task_loss": 0.8935506343841553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4894041198833069,
      "compression/movement_sparsity/importance_threshold": -0.0033138412363868243,
      "compression/movement_sparsity/linear_layer_sparsity": 0.44931814986141255,
      "compression/movement_sparsity/model_sparsity": 0.43388268914936584,
      "compression_loss": 52.46227264404297,
      "distillation_loss": 1.9911421537399292,
      "epoch": 2.6,
      "learning_rate": 4.5914214151534126e-05,
      "loss": 53.981,
      "step": 3080,
      "task_loss": 1.5246981382369995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4899434816838958,
      "compression/movement_sparsity/importance_threshold": -0.003310340700159006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4500237505570971,
      "compression/movement_sparsity/model_sparsity": 0.434564050290472,
      "compression_loss": 52.5196647644043,
      "distillation_loss": 1.6352965831756592,
      "epoch": 2.6,
      "learning_rate": 4.5911083281152165e-05,
      "loss": 53.6588,
      "step": 3081,
      "task_loss": 1.930827260017395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4904824635184556,
      "compression/movement_sparsity/importance_threshold": -0.0033068426299657653,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4506157854802177,
      "compression/movement_sparsity/model_sparsity": 0.435135746992671,
      "compression_loss": 52.577003479003906,
      "distillation_loss": 2.798123836517334,
      "epoch": 2.6,
      "learning_rate": 4.59079524107702e-05,
      "loss": 54.1722,
      "step": 3082,
      "task_loss": 1.606149673461914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49102106552087144,
      "compression/movement_sparsity/importance_threshold": -0.003303347024938168,
      "compression/movement_sparsity/linear_layer_sparsity": 0.45135180472754133,
      "compression/movement_sparsity/model_sparsity": 0.435846481714589,
      "compression_loss": 52.63432693481445,
      "distillation_loss": 1.4533947706222534,
      "epoch": 2.61,
      "learning_rate": 4.5904821540388235e-05,
      "loss": 54.0999,
      "step": 3083,
      "task_loss": 0.660954475402832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49155928782502856,
      "compression/movement_sparsity/importance_threshold": -0.003299853884207281,
      "compression/movement_sparsity/linear_layer_sparsity": 0.45215693645048244,
      "compression/movement_sparsity/model_sparsity": 0.4366239546859722,
      "compression_loss": 52.69159698486328,
      "distillation_loss": 1.691418170928955,
      "epoch": 2.61,
      "learning_rate": 4.590169067000627e-05,
      "loss": 54.3145,
      "step": 3084,
      "task_loss": 1.214664101600647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49209713056481197,
      "compression/movement_sparsity/importance_threshold": -0.003296363206904169,
      "compression/movement_sparsity/linear_layer_sparsity": 0.45279957754104966,
      "compression/movement_sparsity/model_sparsity": 0.43724451907808315,
      "compression_loss": 52.74886703491211,
      "distillation_loss": 1.3082987070083618,
      "epoch": 2.61,
      "learning_rate": 4.58985597996243e-05,
      "loss": 54.1067,
      "step": 3085,
      "task_loss": 2.009155750274658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4926345938741069,
      "compression/movement_sparsity/importance_threshold": -0.0032928749921598997,
      "compression/movement_sparsity/linear_layer_sparsity": 0.45338178695003833,
      "compression/movement_sparsity/model_sparsity": 0.4378067278027874,
      "compression_loss": 52.80603790283203,
      "distillation_loss": 1.4681005477905273,
      "epoch": 2.61,
      "learning_rate": 4.589542892924233e-05,
      "loss": 54.0182,
      "step": 3086,
      "task_loss": 1.066341757774353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4931716778867985,
      "compression/movement_sparsity/importance_threshold": -0.0032893892391055372,
      "compression/movement_sparsity/linear_layer_sparsity": 0.45412063222509164,
      "compression/movement_sparsity/model_sparsity": 0.43852019146968874,
      "compression_loss": 52.863197326660156,
      "distillation_loss": 0.7996758818626404,
      "epoch": 2.61,
      "learning_rate": 4.589229805886037e-05,
      "loss": 54.383,
      "step": 3087,
      "task_loss": 0.15307585895061493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49370838273677176,
      "compression/movement_sparsity/importance_threshold": -0.0032859059468721497,
      "compression/movement_sparsity/linear_layer_sparsity": 0.454865666143148,
      "compression/movement_sparsity/model_sparsity": 0.43923963118066744,
      "compression_loss": 52.92028045654297,
      "distillation_loss": 0.8706608414649963,
      "epoch": 2.61,
      "learning_rate": 4.58891671884784e-05,
      "loss": 54.3212,
      "step": 3088,
      "task_loss": 1.713845133781433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4942447085579118,
      "compression/movement_sparsity/importance_threshold": -0.003282425114590803,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4556747924622471,
      "compression/movement_sparsity/model_sparsity": 0.4400209615215418,
      "compression_loss": 52.977378845214844,
      "distillation_loss": 2.0983335971832275,
      "epoch": 2.61,
      "learning_rate": 4.588603631809643e-05,
      "loss": 54.5307,
      "step": 3089,
      "task_loss": 1.755318284034729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4947806554841041,
      "compression/movement_sparsity/importance_threshold": -0.0032789467413925607,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4565068251073747,
      "compression/movement_sparsity/model_sparsity": 0.4408244112856775,
      "compression_loss": 53.03441619873047,
      "distillation_loss": 1.5715292692184448,
      "epoch": 2.61,
      "learning_rate": 4.588290544771447e-05,
      "loss": 54.4939,
      "step": 3090,
      "task_loss": 1.1951282024383545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49531622364923356,
      "compression/movement_sparsity/importance_threshold": -0.0032754708264084906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4572940586546944,
      "compression/movement_sparsity/model_sparsity": 0.44158460093883306,
      "compression_loss": 53.09141159057617,
      "distillation_loss": 1.8836911916732788,
      "epoch": 2.61,
      "learning_rate": 4.58797745773325e-05,
      "loss": 54.3144,
      "step": 3091,
      "task_loss": 0.9058290719985962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4958514131871853,
      "compression/movement_sparsity/importance_threshold": -0.003271997368769659,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4580343825265346,
      "compression/movement_sparsity/model_sparsity": 0.44229949240817296,
      "compression_loss": 53.1483268737793,
      "distillation_loss": 1.3034024238586426,
      "epoch": 2.61,
      "learning_rate": 4.5876643706950535e-05,
      "loss": 54.3541,
      "step": 3092,
      "task_loss": 0.6587711572647095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49638622423184464,
      "compression/movement_sparsity/importance_threshold": -0.003268526367607131,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4587593838429627,
      "compression/movement_sparsity/model_sparsity": 0.4429995876990168,
      "compression_loss": 53.20524215698242,
      "distillation_loss": 1.620992660522461,
      "epoch": 2.61,
      "learning_rate": 4.587351283656857e-05,
      "loss": 54.5744,
      "step": 3093,
      "task_loss": 0.6328001022338867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4969206569170964,
      "compression/movement_sparsity/importance_threshold": -0.0032650578220519734,
      "compression/movement_sparsity/linear_layer_sparsity": 0.459540571837291,
      "compression/movement_sparsity/model_sparsity": 0.44375393948252456,
      "compression_loss": 53.262142181396484,
      "distillation_loss": 1.991057276725769,
      "epoch": 2.61,
      "learning_rate": 4.5870381966186605e-05,
      "loss": 54.596,
      "step": 3094,
      "task_loss": 2.099888563156128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49745471137682606,
      "compression/movement_sparsity/importance_threshold": -0.003261591731235252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4602721433700865,
      "compression/movement_sparsity/model_sparsity": 0.44446037928259124,
      "compression_loss": 53.318946838378906,
      "distillation_loss": 1.033545732498169,
      "epoch": 2.62,
      "learning_rate": 4.586725109580464e-05,
      "loss": 54.7118,
      "step": 3095,
      "task_loss": 1.25397789478302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4979883877449186,
      "compression/movement_sparsity/importance_threshold": -0.0032581280942880326,
      "compression/movement_sparsity/linear_layer_sparsity": 0.46099015712428,
      "compression/movement_sparsity/model_sparsity": 0.44515372705545947,
      "compression_loss": 53.37570571899414,
      "distillation_loss": 1.2468268871307373,
      "epoch": 2.62,
      "learning_rate": 4.586412022542267e-05,
      "loss": 54.8567,
      "step": 3096,
      "task_loss": 1.2881566286087036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49852168615525916,
      "compression/movement_sparsity/importance_threshold": -0.0032546669103413815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4618470278105931,
      "compression/movement_sparsity/model_sparsity": 0.4459811615976552,
      "compression_loss": 53.432464599609375,
      "distillation_loss": 1.7280619144439697,
      "epoch": 2.62,
      "learning_rate": 4.58609893550407e-05,
      "loss": 54.8545,
      "step": 3097,
      "task_loss": 1.6398721933364868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.49905460674173285,
      "compression/movement_sparsity/importance_threshold": -0.003251208178526365,
      "compression/movement_sparsity/linear_layer_sparsity": 0.46261972579756466,
      "compression/movement_sparsity/model_sparsity": 0.44672731503167723,
      "compression_loss": 53.48917770385742,
      "distillation_loss": 1.3690271377563477,
      "epoch": 2.62,
      "learning_rate": 4.585785848465874e-05,
      "loss": 54.9397,
      "step": 3098,
      "task_loss": 1.237884759902954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.4995871496382247,
      "compression/movement_sparsity/importance_threshold": -0.00324775189797405,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4635356688103458,
      "compression/movement_sparsity/model_sparsity": 0.4476117925841991,
      "compression_loss": 53.545814514160156,
      "distillation_loss": 2.4796550273895264,
      "epoch": 2.62,
      "learning_rate": 4.585472761427677e-05,
      "loss": 55.3061,
      "step": 3099,
      "task_loss": 1.8659636974334717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5001193149786202,
      "compression/movement_sparsity/importance_threshold": -0.0032442980678155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.46444886926457074,
      "compression/movement_sparsity/model_sparsity": 0.44849362179348823,
      "compression_loss": 53.602413177490234,
      "distillation_loss": 1.762245535850525,
      "epoch": 2.62,
      "learning_rate": 4.58515967438948e-05,
      "loss": 55.3457,
      "step": 3100,
      "task_loss": 0.7994271516799927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5006511028968043,
      "compression/movement_sparsity/importance_threshold": -0.0032408466871817823,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4652108951215082,
      "compression/movement_sparsity/model_sparsity": 0.4492294697179741,
      "compression_loss": 53.65900802612305,
      "distillation_loss": 2.1681902408599854,
      "epoch": 2.62,
      "learning_rate": 4.584846587351284e-05,
      "loss": 55.2365,
      "step": 3101,
      "task_loss": 1.702002763748169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5011825135266621,
      "compression/movement_sparsity/importance_threshold": -0.003237397755203963,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4659406422566554,
      "compression/movement_sparsity/model_sparsity": 0.4499341477940642,
      "compression_loss": 53.71554183959961,
      "distillation_loss": 1.4499709606170654,
      "epoch": 2.62,
      "learning_rate": 4.584533500313087e-05,
      "loss": 54.8698,
      "step": 3102,
      "task_loss": 1.130844235420227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5017135470020788,
      "compression/movement_sparsity/importance_threshold": -0.0032339512710131083,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4667729491576386,
      "compression/movement_sparsity/model_sparsity": 0.45073786239252317,
      "compression_loss": 53.77202606201172,
      "distillation_loss": 1.6423511505126953,
      "epoch": 2.62,
      "learning_rate": 4.5842204132748905e-05,
      "loss": 55.2505,
      "step": 3103,
      "task_loss": 0.7270593047142029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5022442034569394,
      "compression/movement_sparsity/importance_threshold": -0.003230507233740285,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4674846431029851,
      "compression/movement_sparsity/model_sparsity": 0.45142510746142034,
      "compression_loss": 53.82844924926758,
      "distillation_loss": 2.0480289459228516,
      "epoch": 2.62,
      "learning_rate": 4.5839073262366937e-05,
      "loss": 55.4794,
      "step": 3104,
      "task_loss": 1.0429370403289795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5027744830251293,
      "compression/movement_sparsity/importance_threshold": -0.0032270656425165576,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4680614627882024,
      "compression/movement_sparsity/model_sparsity": 0.4519821116159455,
      "compression_loss": 53.8848876953125,
      "distillation_loss": 1.413723349571228,
      "epoch": 2.62,
      "learning_rate": 4.5835942391984975e-05,
      "loss": 55.804,
      "step": 3105,
      "task_loss": 0.6585744619369507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5033043858405335,
      "compression/movement_sparsity/importance_threshold": -0.0032236264964729928,
      "compression/movement_sparsity/linear_layer_sparsity": 0.468861502891563,
      "compression/movement_sparsity/model_sparsity": 0.45275466788054436,
      "compression_loss": 53.9412841796875,
      "distillation_loss": 1.5433050394058228,
      "epoch": 2.63,
      "learning_rate": 4.583281152160301e-05,
      "loss": 55.3201,
      "step": 3106,
      "task_loss": 1.163108229637146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5038339120370371,
      "compression/movement_sparsity/importance_threshold": -0.0032201897947406566,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4695863968904823,
      "compression/movement_sparsity/model_sparsity": 0.45345465954056613,
      "compression_loss": 53.99762725830078,
      "distillation_loss": 0.9867916107177734,
      "epoch": 2.63,
      "learning_rate": 4.582968065122104e-05,
      "loss": 55.3756,
      "step": 3107,
      "task_loss": 0.8338168859481812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5043630617485253,
      "compression/movement_sparsity/importance_threshold": -0.003216755536450615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.47029838894001974,
      "compression/movement_sparsity/model_sparsity": 0.45414219247285814,
      "compression_loss": 54.05391311645508,
      "distillation_loss": 1.3561310768127441,
      "epoch": 2.63,
      "learning_rate": 4.582654978083907e-05,
      "loss": 55.5452,
      "step": 3108,
      "task_loss": 0.6082383990287781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5048918351088829,
      "compression/movement_sparsity/importance_threshold": -0.003213323720733936,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4709764686568007,
      "compression/movement_sparsity/model_sparsity": 0.4547969780653505,
      "compression_loss": 54.11016845703125,
      "distillation_loss": 1.1709469556808472,
      "epoch": 2.63,
      "learning_rate": 4.582341891045711e-05,
      "loss": 55.6201,
      "step": 3109,
      "task_loss": 0.863995373249054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5054202322519957,
      "compression/movement_sparsity/importance_threshold": -0.003209894346721682,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4717967440726394,
      "compression/movement_sparsity/model_sparsity": 0.45558907449719277,
      "compression_loss": 54.16639709472656,
      "distillation_loss": 0.8826963901519775,
      "epoch": 2.63,
      "learning_rate": 4.582028804007514e-05,
      "loss": 55.5378,
      "step": 3110,
      "task_loss": 0.9433386921882629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5059482533117485,
      "compression/movement_sparsity/importance_threshold": -0.0032064674135449207,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4725345161726055,
      "compression/movement_sparsity/model_sparsity": 0.4563015018558726,
      "compression_loss": 54.22260284423828,
      "distillation_loss": 1.4952242374420166,
      "epoch": 2.63,
      "learning_rate": 4.581715716969317e-05,
      "loss": 55.803,
      "step": 3111,
      "task_loss": 0.8440118432044983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5064758984220263,
      "compression/movement_sparsity/importance_threshold": -0.003203042920334719,
      "compression/movement_sparsity/linear_layer_sparsity": 0.47324634128379595,
      "compression/movement_sparsity/model_sparsity": 0.4569888735846635,
      "compression_loss": 54.278690338134766,
      "distillation_loss": 0.9158492088317871,
      "epoch": 2.63,
      "learning_rate": 4.581402629931121e-05,
      "loss": 55.8268,
      "step": 3112,
      "task_loss": 1.6044416427612305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5070031677167146,
      "compression/movement_sparsity/importance_threshold": -0.0031996208662221416,
      "compression/movement_sparsity/linear_layer_sparsity": 0.47399085053847634,
      "compression/movement_sparsity/model_sparsity": 0.45770780665606725,
      "compression_loss": 54.334808349609375,
      "distillation_loss": 1.6467803716659546,
      "epoch": 2.63,
      "learning_rate": 4.581089542892924e-05,
      "loss": 55.9382,
      "step": 3113,
      "task_loss": 1.5794326066970825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5075300613296982,
      "compression/movement_sparsity/importance_threshold": -0.003196201250338255,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4746537269415216,
      "compression/movement_sparsity/model_sparsity": 0.45834791121542157,
      "compression_loss": 54.390872955322266,
      "distillation_loss": 1.3191208839416504,
      "epoch": 2.63,
      "learning_rate": 4.5807764558547275e-05,
      "loss": 55.7643,
      "step": 3114,
      "task_loss": 1.2441669702529907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5080565793948624,
      "compression/movement_sparsity/importance_threshold": -0.003192784071814126,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4753824247499168,
      "compression/movement_sparsity/model_sparsity": 0.45905157601236174,
      "compression_loss": 54.4468994140625,
      "distillation_loss": 1.8815233707427979,
      "epoch": 2.63,
      "learning_rate": 4.580463368816531e-05,
      "loss": 55.9003,
      "step": 3115,
      "task_loss": 1.942732810974121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5085827220460923,
      "compression/movement_sparsity/importance_threshold": -0.0031893693297808195,
      "compression/movement_sparsity/linear_layer_sparsity": 0.47602873848411587,
      "compression/movement_sparsity/model_sparsity": 0.4596756868814974,
      "compression_loss": 54.502906799316406,
      "distillation_loss": 1.5822970867156982,
      "epoch": 2.63,
      "learning_rate": 4.5801502817783345e-05,
      "loss": 55.9818,
      "step": 3116,
      "task_loss": 1.4449480772018433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.509108489417273,
      "compression/movement_sparsity/importance_threshold": -0.0031859570233694024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.47694359639764217,
      "compression/movement_sparsity/model_sparsity": 0.460559116611262,
      "compression_loss": 54.55882263183594,
      "distillation_loss": 1.760533094406128,
      "epoch": 2.63,
      "learning_rate": 4.5798371947401384e-05,
      "loss": 56.0086,
      "step": 3117,
      "task_loss": 1.8802335262298584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5096338816422896,
      "compression/movement_sparsity/importance_threshold": -0.003182547151710941,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4776476588757017,
      "compression/movement_sparsity/model_sparsity": 0.46123899237725063,
      "compression_loss": 54.61473083496094,
      "distillation_loss": 1.7506966590881348,
      "epoch": 2.64,
      "learning_rate": 4.5795241077019415e-05,
      "loss": 56.8412,
      "step": 3118,
      "task_loss": 1.9673244953155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5101588988550273,
      "compression/movement_sparsity/importance_threshold": -0.003179139713936501,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4783226263847297,
      "compression/movement_sparsity/model_sparsity": 0.4618907726759006,
      "compression_loss": 54.670562744140625,
      "distillation_loss": 1.2857697010040283,
      "epoch": 2.64,
      "learning_rate": 4.579211020663745e-05,
      "loss": 55.8924,
      "step": 3119,
      "task_loss": 0.3296647071838379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5106835411893714,
      "compression/movement_sparsity/importance_threshold": -0.0031757347091771475,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4790101500422783,
      "compression/movement_sparsity/model_sparsity": 0.4625546777807423,
      "compression_loss": 54.72636032104492,
      "distillation_loss": 1.0580989122390747,
      "epoch": 2.64,
      "learning_rate": 4.5788979336255486e-05,
      "loss": 55.8368,
      "step": 3120,
      "task_loss": 0.3070012331008911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5112078087792069,
      "compression/movement_sparsity/importance_threshold": -0.003172332136563947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.479781631764151,
      "compression/movement_sparsity/model_sparsity": 0.46329965673211326,
      "compression_loss": 54.782135009765625,
      "distillation_loss": 1.915335774421692,
      "epoch": 2.64,
      "learning_rate": 4.578584846587352e-05,
      "loss": 56.0492,
      "step": 3121,
      "task_loss": 0.7394202351570129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.511731701758419,
      "compression/movement_sparsity/importance_threshold": -0.003168931995227966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48052256376854063,
      "compression/movement_sparsity/model_sparsity": 0.4640151354427786,
      "compression_loss": 54.837825775146484,
      "distillation_loss": 2.6138763427734375,
      "epoch": 2.64,
      "learning_rate": 4.578271759549155e-05,
      "loss": 56.9156,
      "step": 3122,
      "task_loss": 0.6614902019500732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5122552202608928,
      "compression/movement_sparsity/importance_threshold": -0.0031655342843002698,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4812702925484827,
      "compression/movement_sparsity/model_sparsity": 0.4647371774388469,
      "compression_loss": 54.8934440612793,
      "distillation_loss": 2.4833853244781494,
      "epoch": 2.64,
      "learning_rate": 4.577958672510958e-05,
      "loss": 56.6606,
      "step": 3123,
      "task_loss": 1.6782410144805908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5127783644205133,
      "compression/movement_sparsity/importance_threshold": -0.0031621390029119255,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48183281515670456,
      "compression/movement_sparsity/model_sparsity": 0.4652803756649544,
      "compression_loss": 54.949092864990234,
      "distillation_loss": 1.297171711921692,
      "epoch": 2.64,
      "learning_rate": 4.577645585472762e-05,
      "loss": 56.3369,
      "step": 3124,
      "task_loss": 0.34102511405944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5133011343711658,
      "compression/movement_sparsity/importance_threshold": -0.0031587461501939988,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48262937340311546,
      "compression/movement_sparsity/model_sparsity": 0.4660495696851013,
      "compression_loss": 55.00471496582031,
      "distillation_loss": 1.0936195850372314,
      "epoch": 2.64,
      "learning_rate": 4.577332498434565e-05,
      "loss": 56.5949,
      "step": 3125,
      "task_loss": 0.5886197090148926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5138235302467355,
      "compression/movement_sparsity/importance_threshold": -0.0031553557252775545,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4833744550178424,
      "compression/movement_sparsity/model_sparsity": 0.46676905545422315,
      "compression_loss": 55.060264587402344,
      "distillation_loss": 1.2534427642822266,
      "epoch": 2.64,
      "learning_rate": 4.577019411396368e-05,
      "loss": 56.6932,
      "step": 3126,
      "task_loss": 0.5337661504745483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5143455521811073,
      "compression/movement_sparsity/importance_threshold": -0.003151967727293661,
      "compression/movement_sparsity/linear_layer_sparsity": 0.484256294911185,
      "compression/movement_sparsity/model_sparsity": 0.4676206014343726,
      "compression_loss": 55.11577224731445,
      "distillation_loss": 1.262599229812622,
      "epoch": 2.64,
      "learning_rate": 4.576706324358172e-05,
      "loss": 56.2964,
      "step": 3127,
      "task_loss": 0.7880988121032715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5148672003081667,
      "compression/movement_sparsity/importance_threshold": -0.0031485821553733817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4850134437835594,
      "compression/movement_sparsity/model_sparsity": 0.4683517399137186,
      "compression_loss": 55.171207427978516,
      "distillation_loss": 1.3007023334503174,
      "epoch": 2.64,
      "learning_rate": 4.5763932373199754e-05,
      "loss": 56.9342,
      "step": 3128,
      "task_loss": 1.322317123413086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5153884747617983,
      "compression/movement_sparsity/importance_threshold": -0.0031451990086477865,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48576446363376896,
      "compression/movement_sparsity/model_sparsity": 0.46907695992166615,
      "compression_loss": 55.226661682128906,
      "distillation_loss": 0.6841090321540833,
      "epoch": 2.64,
      "learning_rate": 4.5760801502817785e-05,
      "loss": 56.527,
      "step": 3129,
      "task_loss": 0.5773928165435791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5159093756758878,
      "compression/movement_sparsity/importance_threshold": -0.0031418182862479366,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48648816521592475,
      "compression/movement_sparsity/model_sparsity": 0.46977580012810843,
      "compression_loss": 55.28203582763672,
      "distillation_loss": 1.7404959201812744,
      "epoch": 2.65,
      "learning_rate": 4.575767063243582e-05,
      "loss": 57.2405,
      "step": 3130,
      "task_loss": 1.5675458908081055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5164299031843201,
      "compression/movement_sparsity/importance_threshold": -0.003138439987304901,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48725479380156966,
      "compression/movement_sparsity/model_sparsity": 0.47051609266341105,
      "compression_loss": 55.33741760253906,
      "distillation_loss": 1.6505706310272217,
      "epoch": 2.65,
      "learning_rate": 4.5754539762053856e-05,
      "loss": 57.2038,
      "step": 3131,
      "task_loss": 0.7763373255729675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5169500574209804,
      "compression/movement_sparsity/importance_threshold": -0.003135064110949744,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4879686460212582,
      "compression/movement_sparsity/model_sparsity": 0.471205421863287,
      "compression_loss": 55.39278793334961,
      "distillation_loss": 1.2994023561477661,
      "epoch": 2.65,
      "learning_rate": 4.575140889167189e-05,
      "loss": 57.1774,
      "step": 3132,
      "task_loss": 0.8017194867134094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5174698385197538,
      "compression/movement_sparsity/importance_threshold": -0.003131690656313534,
      "compression/movement_sparsity/linear_layer_sparsity": 0.48863836689652645,
      "compression/movement_sparsity/model_sparsity": 0.4718521357661874,
      "compression_loss": 55.44806671142578,
      "distillation_loss": 2.9117164611816406,
      "epoch": 2.65,
      "learning_rate": 4.574827802128992e-05,
      "loss": 57.4458,
      "step": 3133,
      "task_loss": 2.2286953926086426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5179892466145253,
      "compression/movement_sparsity/importance_threshold": -0.0031283196225273357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4893332239171711,
      "compression/movement_sparsity/model_sparsity": 0.47252312231054266,
      "compression_loss": 55.50334167480469,
      "distillation_loss": 1.5091426372528076,
      "epoch": 2.65,
      "learning_rate": 4.574514715090795e-05,
      "loss": 57.4859,
      "step": 3134,
      "task_loss": 1.2677737474441528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5185082818391804,
      "compression/movement_sparsity/importance_threshold": -0.003124951008722214,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4900904681828866,
      "compression/movement_sparsity/model_sparsity": 0.473254352906175,
      "compression_loss": 55.558597564697266,
      "distillation_loss": 1.03953218460083,
      "epoch": 2.65,
      "learning_rate": 4.574201628052599e-05,
      "loss": 57.4183,
      "step": 3135,
      "task_loss": 1.2632111310958862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5190269443276039,
      "compression/movement_sparsity/importance_threshold": -0.003121584814029237,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49067085319422693,
      "compression/movement_sparsity/model_sparsity": 0.4738147999069027,
      "compression_loss": 55.613792419433594,
      "distillation_loss": 0.9954079985618591,
      "epoch": 2.65,
      "learning_rate": 4.573888541014402e-05,
      "loss": 57.2082,
      "step": 3136,
      "task_loss": 1.7546303272247314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.519545234213681,
      "compression/movement_sparsity/importance_threshold": -0.00311822103757947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49143491808383016,
      "compression/movement_sparsity/model_sparsity": 0.47455261681700944,
      "compression_loss": 55.6689567565918,
      "distillation_loss": 1.6619186401367188,
      "epoch": 2.65,
      "learning_rate": 4.573575453976205e-05,
      "loss": 57.3074,
      "step": 3137,
      "task_loss": 1.6316941976547241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5200631516312969,
      "compression/movement_sparsity/importance_threshold": -0.003114859678503979,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49200789818706864,
      "compression/movement_sparsity/model_sparsity": 0.47510591329100876,
      "compression_loss": 55.72410583496094,
      "distillation_loss": 1.3614782094955444,
      "epoch": 2.65,
      "learning_rate": 4.573262366938009e-05,
      "loss": 57.3677,
      "step": 3138,
      "task_loss": 1.9098525047302246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5205806967143366,
      "compression/movement_sparsity/importance_threshold": -0.003111500735933831,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4927497006556957,
      "compression/movement_sparsity/model_sparsity": 0.4758222325627871,
      "compression_loss": 55.779144287109375,
      "distillation_loss": 1.563291072845459,
      "epoch": 2.65,
      "learning_rate": 4.5729492798998123e-05,
      "loss": 57.8218,
      "step": 3139,
      "task_loss": 1.282370924949646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5210978695966855,
      "compression/movement_sparsity/importance_threshold": -0.0031081442090000904,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4932505753172401,
      "compression/movement_sparsity/model_sparsity": 0.4763059006388368,
      "compression_loss": 55.83419418334961,
      "distillation_loss": 1.2283542156219482,
      "epoch": 2.65,
      "learning_rate": 4.5726361928616155e-05,
      "loss": 57.2167,
      "step": 3140,
      "task_loss": 2.0165770053863525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5216146704122288,
      "compression/movement_sparsity/importance_threshold": -0.0031047900968338223,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49390983869749167,
      "compression/movement_sparsity/model_sparsity": 0.4769425162938454,
      "compression_loss": 55.88915252685547,
      "distillation_loss": 1.1150891780853271,
      "epoch": 2.65,
      "learning_rate": 4.572323105823419e-05,
      "loss": 57.3949,
      "step": 3141,
      "task_loss": 0.867617130279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5221310992948514,
      "compression/movement_sparsity/importance_threshold": -0.003101438398566095,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4946145212322683,
      "compression/movement_sparsity/model_sparsity": 0.47762299081569537,
      "compression_loss": 55.944068908691406,
      "distillation_loss": 1.994683027267456,
      "epoch": 2.66,
      "learning_rate": 4.5720100187852226e-05,
      "loss": 57.5402,
      "step": 3142,
      "task_loss": 0.8451590538024902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5226471563784383,
      "compression/movement_sparsity/importance_threshold": -0.0030980891133279747,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49526658241526783,
      "compression/movement_sparsity/model_sparsity": 0.47825265169108405,
      "compression_loss": 55.99893569946289,
      "distillation_loss": 1.0859869718551636,
      "epoch": 2.66,
      "learning_rate": 4.571696931747026e-05,
      "loss": 57.5646,
      "step": 3143,
      "task_loss": 1.8218578100204468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.523162841796875,
      "compression/movement_sparsity/importance_threshold": -0.0030947422402505254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49598922274650403,
      "compression/movement_sparsity/model_sparsity": 0.4789504671038406,
      "compression_loss": 56.053775787353516,
      "distillation_loss": 1.448288917541504,
      "epoch": 2.66,
      "learning_rate": 4.571383844708829e-05,
      "loss": 57.8134,
      "step": 3144,
      "task_loss": 0.7190232276916504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5236781556840464,
      "compression/movement_sparsity/importance_threshold": -0.0030913977784648152,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4966838293596283,
      "compression/movement_sparsity/model_sparsity": 0.47962121184294415,
      "compression_loss": 56.108577728271484,
      "distillation_loss": 1.4276745319366455,
      "epoch": 2.66,
      "learning_rate": 4.571070757670632e-05,
      "loss": 58.0955,
      "step": 3145,
      "task_loss": 2.399954319000244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5241930981738379,
      "compression/movement_sparsity/importance_threshold": -0.0030880557271019083,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49734460710916967,
      "compression/movement_sparsity/model_sparsity": 0.4802592898439986,
      "compression_loss": 56.16329574584961,
      "distillation_loss": 1.5720491409301758,
      "epoch": 2.66,
      "learning_rate": 4.570757670632436e-05,
      "loss": 58.1548,
      "step": 3146,
      "task_loss": 0.8407875299453735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5247076694001342,
      "compression/movement_sparsity/importance_threshold": -0.0030847160852928725,
      "compression/movement_sparsity/linear_layer_sparsity": 0.49795421825538555,
      "compression/movement_sparsity/model_sparsity": 0.48084795897195876,
      "compression_loss": 56.218040466308594,
      "distillation_loss": 2.1743671894073486,
      "epoch": 2.66,
      "learning_rate": 4.570444583594239e-05,
      "loss": 57.674,
      "step": 3147,
      "task_loss": 1.8997976779937744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5252218694968209,
      "compression/movement_sparsity/importance_threshold": -0.0030813788521687727,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4987059177831503,
      "compression/movement_sparsity/model_sparsity": 0.4815738353084466,
      "compression_loss": 56.27268981933594,
      "distillation_loss": 1.742993950843811,
      "epoch": 2.66,
      "learning_rate": 4.570131496556043e-05,
      "loss": 58.4274,
      "step": 3148,
      "task_loss": 1.5922030210494995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.525735698597783,
      "compression/movement_sparsity/importance_threshold": -0.0030780440268606745,
      "compression/movement_sparsity/linear_layer_sparsity": 0.4994278307401607,
      "compression/movement_sparsity/model_sparsity": 0.4822709483345197,
      "compression_loss": 56.32732009887695,
      "distillation_loss": 2.032843828201294,
      "epoch": 2.66,
      "learning_rate": 4.569818409517846e-05,
      "loss": 58.034,
      "step": 3149,
      "task_loss": 1.0167104005813599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5262491568369052,
      "compression/movement_sparsity/importance_threshold": -0.0030747116084996473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5001428515282776,
      "compression/movement_sparsity/model_sparsity": 0.4829614059589035,
      "compression_loss": 56.38195037841797,
      "distillation_loss": 1.2965011596679688,
      "epoch": 2.66,
      "learning_rate": 4.56950532247965e-05,
      "loss": 57.8847,
      "step": 3150,
      "task_loss": 1.049439549446106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5267622443480733,
      "compression/movement_sparsity/importance_threshold": -0.003071381596216753,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5008958507903147,
      "compression/movement_sparsity/model_sparsity": 0.483688537379793,
      "compression_loss": 56.43653106689453,
      "distillation_loss": 1.8541642427444458,
      "epoch": 2.66,
      "learning_rate": 4.569192235441453e-05,
      "loss": 57.9405,
      "step": 3151,
      "task_loss": 1.509620189666748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5272749612651723,
      "compression/movement_sparsity/importance_threshold": -0.003068053989143058,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5014942055222824,
      "compression/movement_sparsity/model_sparsity": 0.48426633678596304,
      "compression_loss": 56.49104309082031,
      "distillation_loss": 2.761598825454712,
      "epoch": 2.66,
      "learning_rate": 4.5688791484032564e-05,
      "loss": 58.8003,
      "step": 3152,
      "task_loss": 1.6670842170715332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.527787307722087,
      "compression/movement_sparsity/importance_threshold": -0.0030647287864096306,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5021187576505459,
      "compression/movement_sparsity/model_sparsity": 0.4848694336272737,
      "compression_loss": 56.5455207824707,
      "distillation_loss": 1.3612945079803467,
      "epoch": 2.66,
      "learning_rate": 4.56856606136506e-05,
      "loss": 57.8587,
      "step": 3153,
      "task_loss": 0.725012481212616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5282992838527029,
      "compression/movement_sparsity/importance_threshold": -0.0030614059871475357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5026414296905287,
      "compression/movement_sparsity/model_sparsity": 0.48537415027475583,
      "compression_loss": 56.59991455078125,
      "distillation_loss": 1.7281944751739502,
      "epoch": 2.67,
      "learning_rate": 4.5682529743268634e-05,
      "loss": 58.2771,
      "step": 3154,
      "task_loss": 1.4448251724243164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5288108897909048,
      "compression/movement_sparsity/importance_threshold": -0.0030580855904878395,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5032653856104106,
      "compression/movement_sparsity/model_sparsity": 0.48597667138927675,
      "compression_loss": 56.65431213378906,
      "distillation_loss": 1.4960108995437622,
      "epoch": 2.67,
      "learning_rate": 4.5679398872886666e-05,
      "loss": 58.559,
      "step": 3155,
      "task_loss": 1.732715368270874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5293221256705782,
      "compression/movement_sparsity/importance_threshold": -0.0030547675955616073,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5039705451118925,
      "compression/movement_sparsity/model_sparsity": 0.4866576064925585,
      "compression_loss": 56.70866775512695,
      "distillation_loss": 2.222066640853882,
      "epoch": 2.67,
      "learning_rate": 4.56762680025047e-05,
      "loss": 58.9815,
      "step": 3156,
      "task_loss": 2.2546300888061523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.529832991625608,
      "compression/movement_sparsity/importance_threshold": -0.003051452001499906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5046213900297932,
      "compression/movement_sparsity/model_sparsity": 0.4872860928852961,
      "compression_loss": 56.762977600097656,
      "distillation_loss": 2.0816359519958496,
      "epoch": 2.67,
      "learning_rate": 4.5673137132122736e-05,
      "loss": 58.1723,
      "step": 3157,
      "task_loss": 0.9676244854927063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5303434877898795,
      "compression/movement_sparsity/importance_threshold": -0.003048138807433802,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5052491616833186,
      "compression/movement_sparsity/model_sparsity": 0.4878922986512713,
      "compression_loss": 56.8172492980957,
      "distillation_loss": 1.403087854385376,
      "epoch": 2.67,
      "learning_rate": 4.567000626174077e-05,
      "loss": 58.579,
      "step": 3158,
      "task_loss": 1.395765781402588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5308536142972777,
      "compression/movement_sparsity/importance_threshold": -0.00304482801249436,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5058653072733988,
      "compression/movement_sparsity/model_sparsity": 0.48848727774484685,
      "compression_loss": 56.871490478515625,
      "distillation_loss": 1.5918793678283691,
      "epoch": 2.67,
      "learning_rate": 4.56668753913588e-05,
      "loss": 58.6714,
      "step": 3159,
      "task_loss": 1.3594141006469727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5313633712816875,
      "compression/movement_sparsity/importance_threshold": -0.003041519615812649,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5065123006851532,
      "compression/movement_sparsity/model_sparsity": 0.48911204494252286,
      "compression_loss": 56.92570114135742,
      "distillation_loss": 1.9328117370605469,
      "epoch": 2.67,
      "learning_rate": 4.566374452097683e-05,
      "loss": 58.8175,
      "step": 3160,
      "task_loss": 2.387741804122925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5318727588769947,
      "compression/movement_sparsity/importance_threshold": -0.0030382136165197303,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5071339671648488,
      "compression/movement_sparsity/model_sparsity": 0.48971235526617124,
      "compression_loss": 56.97985076904297,
      "distillation_loss": 2.7363977432250977,
      "epoch": 2.67,
      "learning_rate": 4.566061365059487e-05,
      "loss": 58.8928,
      "step": 3161,
      "task_loss": 1.8601887226104736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5323817772170839,
      "compression/movement_sparsity/importance_threshold": -0.003034910013746674,
      "compression/movement_sparsity/linear_layer_sparsity": 0.507881791338132,
      "compression/movement_sparsity/model_sparsity": 0.49043448937852585,
      "compression_loss": 57.0339469909668,
      "distillation_loss": 1.8591666221618652,
      "epoch": 2.67,
      "learning_rate": 4.56574827802129e-05,
      "loss": 58.5528,
      "step": 3162,
      "task_loss": 0.6923894286155701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5328904264358405,
      "compression/movement_sparsity/importance_threshold": -0.0030316088066245435,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5086007947982393,
      "compression/movement_sparsity/model_sparsity": 0.4911287928578651,
      "compression_loss": 57.088016510009766,
      "distillation_loss": 1.2232180833816528,
      "epoch": 2.67,
      "learning_rate": 4.5654351909830934e-05,
      "loss": 58.5999,
      "step": 3163,
      "task_loss": 1.5347849130630493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5333987066671495,
      "compression/movement_sparsity/importance_threshold": -0.003028309994284407,
      "compression/movement_sparsity/linear_layer_sparsity": 0.509269156318397,
      "compression/movement_sparsity/model_sparsity": 0.4917741941036849,
      "compression_loss": 57.142051696777344,
      "distillation_loss": 2.0505456924438477,
      "epoch": 2.67,
      "learning_rate": 4.565122103944897e-05,
      "loss": 58.6645,
      "step": 3164,
      "task_loss": 2.175471305847168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5339066180448961,
      "compression/movement_sparsity/importance_threshold": -0.003025013575857329,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5100045674331712,
      "compression/movement_sparsity/model_sparsity": 0.4924843415842774,
      "compression_loss": 57.19607925415039,
      "distillation_loss": 1.7334367036819458,
      "epoch": 2.67,
      "learning_rate": 4.5648090169067004e-05,
      "loss": 58.8548,
      "step": 3165,
      "task_loss": 1.6553179025650024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5344141607029655,
      "compression/movement_sparsity/importance_threshold": -0.0030217195504743753,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5105887920264903,
      "compression/movement_sparsity/model_sparsity": 0.49304849626553093,
      "compression_loss": 57.25006103515625,
      "distillation_loss": 1.932754397392273,
      "epoch": 2.68,
      "learning_rate": 4.5644959298685036e-05,
      "loss": 58.632,
      "step": 3166,
      "task_loss": 1.9111816883087158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5349213347752428,
      "compression/movement_sparsity/importance_threshold": -0.003018427917266613,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5112894918892765,
      "compression/movement_sparsity/model_sparsity": 0.4937251249324255,
      "compression_loss": 57.303951263427734,
      "distillation_loss": 2.7239201068878174,
      "epoch": 2.68,
      "learning_rate": 4.564182842830307e-05,
      "loss": 59.1513,
      "step": 3167,
      "task_loss": 2.0524888038635254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.535428140395613,
      "compression/movement_sparsity/importance_threshold": -0.0030151386753651086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.511959272385383,
      "compression/movement_sparsity/model_sparsity": 0.4943718964080049,
      "compression_loss": 57.357818603515625,
      "distillation_loss": 1.4924352169036865,
      "epoch": 2.68,
      "learning_rate": 4.5638697557921106e-05,
      "loss": 59.0783,
      "step": 3168,
      "task_loss": 0.639301598072052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5359345776979615,
      "compression/movement_sparsity/importance_threshold": -0.003011851823900927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5126957685994121,
      "compression/movement_sparsity/model_sparsity": 0.4950830917113547,
      "compression_loss": 57.41164779663086,
      "distillation_loss": 2.033994674682617,
      "epoch": 2.68,
      "learning_rate": 4.563556668753914e-05,
      "loss": 59.1522,
      "step": 3169,
      "task_loss": 1.735673189163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.536440646816173,
      "compression/movement_sparsity/importance_threshold": -0.0030085673620051357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5134534302109948,
      "compression/movement_sparsity/model_sparsity": 0.4958147253157398,
      "compression_loss": 57.46541976928711,
      "distillation_loss": 1.0567972660064697,
      "epoch": 2.68,
      "learning_rate": 4.563243581715717e-05,
      "loss": 58.7426,
      "step": 3170,
      "task_loss": 0.803926944732666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5369463478841332,
      "compression/movement_sparsity/importance_threshold": -0.003005285288808798,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5142246615253472,
      "compression/movement_sparsity/model_sparsity": 0.4965594624618591,
      "compression_loss": 57.51912307739258,
      "distillation_loss": 1.3474661111831665,
      "epoch": 2.68,
      "learning_rate": 4.56293049467752e-05,
      "loss": 58.8155,
      "step": 3171,
      "task_loss": 1.5947743654251099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5374516810357268,
      "compression/movement_sparsity/importance_threshold": -0.003002005603442983,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5149143911539084,
      "compression/movement_sparsity/model_sparsity": 0.49722549775582275,
      "compression_loss": 57.57280349731445,
      "distillation_loss": 0.8849033713340759,
      "epoch": 2.68,
      "learning_rate": 4.562617407639324e-05,
      "loss": 59.1709,
      "step": 3172,
      "task_loss": 0.4439680874347687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5379566464048393,
      "compression/movement_sparsity/importance_threshold": -0.002998728305038754,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5156072687627254,
      "compression/movement_sparsity/model_sparsity": 0.4978945728872361,
      "compression_loss": 57.626434326171875,
      "distillation_loss": 1.181388258934021,
      "epoch": 2.68,
      "learning_rate": 4.562304320601127e-05,
      "loss": 59.5859,
      "step": 3173,
      "task_loss": 0.4399968087673187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5384612441253557,
      "compression/movement_sparsity/importance_threshold": -0.0029954533927271784,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5163801098397086,
      "compression/movement_sparsity/model_sparsity": 0.4986408644956877,
      "compression_loss": 57.68001174926758,
      "distillation_loss": 1.5711721181869507,
      "epoch": 2.68,
      "learning_rate": 4.5619912335629304e-05,
      "loss": 59.2744,
      "step": 3174,
      "task_loss": 1.3597255945205688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5389654743311609,
      "compression/movement_sparsity/importance_threshold": -0.002992180865639323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5169704753793603,
      "compression/movement_sparsity/model_sparsity": 0.4992109491628754,
      "compression_loss": 57.733585357666016,
      "distillation_loss": 1.802870273590088,
      "epoch": 2.68,
      "learning_rate": 4.561678146524734e-05,
      "loss": 59.3992,
      "step": 3175,
      "task_loss": 1.3098247051239014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5394693371561404,
      "compression/movement_sparsity/importance_threshold": -0.0029889107229062522,
      "compression/movement_sparsity/linear_layer_sparsity": 0.517743590712199,
      "compression/movement_sparsity/model_sparsity": 0.4999575056056502,
      "compression_loss": 57.78712463378906,
      "distillation_loss": 1.9867966175079346,
      "epoch": 2.68,
      "learning_rate": 4.5613650594865374e-05,
      "loss": 59.5746,
      "step": 3176,
      "task_loss": 1.59889817237854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5399728327341792,
      "compression/movement_sparsity/importance_threshold": -0.0029856429636590334,
      "compression/movement_sparsity/linear_layer_sparsity": 0.518535892030764,
      "compression/movement_sparsity/model_sparsity": 0.5007225889365186,
      "compression_loss": 57.84061813354492,
      "distillation_loss": 2.5011610984802246,
      "epoch": 2.69,
      "learning_rate": 4.5610519724483406e-05,
      "loss": 60.542,
      "step": 3177,
      "task_loss": 1.4533343315124512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5404759611991623,
      "compression/movement_sparsity/importance_threshold": -0.002982377587028732,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5193067775442549,
      "compression/movement_sparsity/model_sparsity": 0.5014669921610998,
      "compression_loss": 57.89409255981445,
      "distillation_loss": 2.636124610900879,
      "epoch": 2.69,
      "learning_rate": 4.560738885410144e-05,
      "loss": 59.7093,
      "step": 3178,
      "task_loss": 2.1889402866363525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.540978722684975,
      "compression/movement_sparsity/importance_threshold": -0.0029791145921464145,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5200200693280645,
      "compression/movement_sparsity/model_sparsity": 0.5021557801777934,
      "compression_loss": 57.947547912597656,
      "distillation_loss": 1.737799882888794,
      "epoch": 2.69,
      "learning_rate": 4.5604257983719476e-05,
      "loss": 59.3658,
      "step": 3179,
      "task_loss": 1.4039278030395508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5414811173255023,
      "compression/movement_sparsity/importance_threshold": -0.0029758539781431473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5207139247186278,
      "compression/movement_sparsity/model_sparsity": 0.5028257995011419,
      "compression_loss": 58.00093078613281,
      "distillation_loss": 2.938216209411621,
      "epoch": 2.69,
      "learning_rate": 4.560112711333751e-05,
      "loss": 59.7839,
      "step": 3180,
      "task_loss": 2.086880922317505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5419831452546295,
      "compression/movement_sparsity/importance_threshold": -0.002972595744149995,
      "compression/movement_sparsity/linear_layer_sparsity": 0.521341994476344,
      "compression/movement_sparsity/model_sparsity": 0.503432293130512,
      "compression_loss": 58.0543212890625,
      "distillation_loss": 1.638197898864746,
      "epoch": 2.69,
      "learning_rate": 4.559799624295554e-05,
      "loss": 59.945,
      "step": 3181,
      "task_loss": 0.5111116766929626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5424848066062418,
      "compression/movement_sparsity/importance_threshold": -0.002969339889298024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5221111390613601,
      "compression/movement_sparsity/model_sparsity": 0.5041750152328672,
      "compression_loss": 58.107669830322266,
      "distillation_loss": 1.663358449935913,
      "epoch": 2.69,
      "learning_rate": 4.559486537257358e-05,
      "loss": 59.861,
      "step": 3182,
      "task_loss": 1.9720232486724854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5429861015142242,
      "compression/movement_sparsity/importance_threshold": -0.0029660864127183007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5227069539456212,
      "compression/movement_sparsity/model_sparsity": 0.5047503620429131,
      "compression_loss": 58.160919189453125,
      "distillation_loss": 2.11517333984375,
      "epoch": 2.69,
      "learning_rate": 4.559173450219161e-05,
      "loss": 59.6476,
      "step": 3183,
      "task_loss": 1.4201602935791016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5434870301124619,
      "compression/movement_sparsity/importance_threshold": -0.0029628353135418913,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5233342367082734,
      "compression/movement_sparsity/model_sparsity": 0.5053560957129207,
      "compression_loss": 58.21417999267578,
      "distillation_loss": 2.7555124759674072,
      "epoch": 2.69,
      "learning_rate": 4.558860363180965e-05,
      "loss": 59.9418,
      "step": 3184,
      "task_loss": 2.3349759578704834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5439875925348399,
      "compression/movement_sparsity/importance_threshold": -0.0029595865908998626,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5240343284385102,
      "compression/movement_sparsity/model_sparsity": 0.5060321371384898,
      "compression_loss": 58.26737976074219,
      "distillation_loss": 1.720668077468872,
      "epoch": 2.69,
      "learning_rate": 4.558547276142768e-05,
      "loss": 60.0101,
      "step": 3185,
      "task_loss": 1.656842589378357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5444877889152435,
      "compression/movement_sparsity/importance_threshold": -0.0029563402439232783,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5247672474022486,
      "compression/movement_sparsity/model_sparsity": 0.5067398780811012,
      "compression_loss": 58.32054138183594,
      "distillation_loss": 1.6099553108215332,
      "epoch": 2.69,
      "learning_rate": 4.558234189104572e-05,
      "loss": 59.9403,
      "step": 3186,
      "task_loss": 1.1747695207595825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5449876193875578,
      "compression/movement_sparsity/importance_threshold": -0.0029530962717432066,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5255157870255899,
      "compression/movement_sparsity/model_sparsity": 0.5074627030656035,
      "compression_loss": 58.37366485595703,
      "distillation_loss": 2.378873348236084,
      "epoch": 2.69,
      "learning_rate": 4.557921102066375e-05,
      "loss": 60.2851,
      "step": 3187,
      "task_loss": 1.1357897520065308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5454870840856679,
      "compression/movement_sparsity/importance_threshold": -0.002949854673490713,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5261816683188794,
      "compression/movement_sparsity/model_sparsity": 0.508105709287978,
      "compression_loss": 58.426719665527344,
      "distillation_loss": 1.7443965673446655,
      "epoch": 2.69,
      "learning_rate": 4.557608015028178e-05,
      "loss": 60.2827,
      "step": 3188,
      "task_loss": 1.4673521518707275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.545986183143459,
      "compression/movement_sparsity/importance_threshold": -0.002946615448296863,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5269972098401665,
      "compression/movement_sparsity/model_sparsity": 0.5088932344491099,
      "compression_loss": 58.47976303100586,
      "distillation_loss": 1.3626937866210938,
      "epoch": 2.7,
      "learning_rate": 4.5572949279899814e-05,
      "loss": 60.6802,
      "step": 3189,
      "task_loss": 1.0774041414260864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.546484916694816,
      "compression/movement_sparsity/importance_threshold": -0.0029433785952927244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5277752140817361,
      "compression/movement_sparsity/model_sparsity": 0.5096445118515605,
      "compression_loss": 58.53273391723633,
      "distillation_loss": 1.6590819358825684,
      "epoch": 2.7,
      "learning_rate": 4.556981840951785e-05,
      "loss": 60.1896,
      "step": 3190,
      "task_loss": 0.9673817157745361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5469832848736245,
      "compression/movement_sparsity/importance_threshold": -0.0029401441136093606,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5284550466511595,
      "compression/movement_sparsity/model_sparsity": 0.5103009900808146,
      "compression_loss": 58.585670471191406,
      "distillation_loss": 1.1273374557495117,
      "epoch": 2.7,
      "learning_rate": 4.5566687539135885e-05,
      "loss": 60.2601,
      "step": 3191,
      "task_loss": 0.6737694144248962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5474812878137694,
      "compression/movement_sparsity/importance_threshold": -0.0029369120023778387,
      "compression/movement_sparsity/linear_layer_sparsity": 0.529019775230394,
      "compression/movement_sparsity/model_sparsity": 0.5108463184960441,
      "compression_loss": 58.6385498046875,
      "distillation_loss": 1.1908236742019653,
      "epoch": 2.7,
      "learning_rate": 4.5563556668753916e-05,
      "loss": 60.1372,
      "step": 3192,
      "task_loss": 0.5164015293121338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5479789256491356,
      "compression/movement_sparsity/importance_threshold": -0.002933682260729226,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5296407024116963,
      "compression/movement_sparsity/model_sparsity": 0.5114459149184732,
      "compression_loss": 58.69143295288086,
      "distillation_loss": 1.3725593090057373,
      "epoch": 2.7,
      "learning_rate": 4.556042579837195e-05,
      "loss": 60.5575,
      "step": 3193,
      "task_loss": 1.62465500831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5484761985136087,
      "compression/movement_sparsity/importance_threshold": -0.002930454887794586,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5303601112935031,
      "compression/movement_sparsity/model_sparsity": 0.5121406098920295,
      "compression_loss": 58.74427032470703,
      "distillation_loss": 1.028214931488037,
      "epoch": 2.7,
      "learning_rate": 4.555729492798999e-05,
      "loss": 60.8568,
      "step": 3194,
      "task_loss": 1.0253548622131348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5489731065410736,
      "compression/movement_sparsity/importance_threshold": -0.002927229882704987,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5311601037001932,
      "compression/movement_sparsity/model_sparsity": 0.5129131200984852,
      "compression_loss": 58.797061920166016,
      "distillation_loss": 1.8850799798965454,
      "epoch": 2.7,
      "learning_rate": 4.555416405760802e-05,
      "loss": 60.6784,
      "step": 3195,
      "task_loss": 1.3054112195968628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5494696498654155,
      "compression/movement_sparsity/importance_threshold": -0.002924007244591494,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5318985197052117,
      "compression/movement_sparsity/model_sparsity": 0.5136261692420979,
      "compression_loss": 58.84984588623047,
      "distillation_loss": 1.9098048210144043,
      "epoch": 2.7,
      "learning_rate": 4.555103318722605e-05,
      "loss": 60.4531,
      "step": 3196,
      "task_loss": 0.7044451832771301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5499658286205193,
      "compression/movement_sparsity/importance_threshold": -0.0029207869725851733,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5325825615058106,
      "compression/movement_sparsity/model_sparsity": 0.5142867121024876,
      "compression_loss": 58.902591705322266,
      "distillation_loss": 1.6937456130981445,
      "epoch": 2.7,
      "learning_rate": 4.554790231684408e-05,
      "loss": 60.791,
      "step": 3197,
      "task_loss": 0.7342414855957031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5504616429402704,
      "compression/movement_sparsity/importance_threshold": -0.0029175690658170914,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5332653154963048,
      "compression/movement_sparsity/model_sparsity": 0.5149460113930114,
      "compression_loss": 58.95527267456055,
      "distillation_loss": 3.5602824687957764,
      "epoch": 2.7,
      "learning_rate": 4.554477144646212e-05,
      "loss": 61.2161,
      "step": 3198,
      "task_loss": 1.8277860879898071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5509570929585539,
      "compression/movement_sparsity/importance_threshold": -0.002914353523418314,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5338885559661285,
      "compression/movement_sparsity/model_sparsity": 0.5155478416353847,
      "compression_loss": 59.007930755615234,
      "distillation_loss": 2.631556987762451,
      "epoch": 2.7,
      "learning_rate": 4.554164057608015e-05,
      "loss": 61.2554,
      "step": 3199,
      "task_loss": 1.934686303138733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5514521788092548,
      "compression/movement_sparsity/importance_threshold": -0.0029111403445199074,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5345891127389031,
      "compression/movement_sparsity/model_sparsity": 0.5162243321278497,
      "compression_loss": 59.060569763183594,
      "distillation_loss": 2.0677623748779297,
      "epoch": 2.7,
      "learning_rate": 4.5538509705698184e-05,
      "loss": 60.8322,
      "step": 3200,
      "task_loss": 2.3284976482391357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5519469006262585,
      "compression/movement_sparsity/importance_threshold": -0.0029079295282529363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5354168049870113,
      "compression/movement_sparsity/model_sparsity": 0.5170235906009562,
      "compression_loss": 59.11317443847656,
      "distillation_loss": 1.7525142431259155,
      "epoch": 2.71,
      "learning_rate": 4.553537883531622e-05,
      "loss": 60.7834,
      "step": 3201,
      "task_loss": 1.2154886722564697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5524412585434499,
      "compression/movement_sparsity/importance_threshold": -0.002904721073748468,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5360712271552027,
      "compression/movement_sparsity/model_sparsity": 0.5176555313544322,
      "compression_loss": 59.16571044921875,
      "distillation_loss": 2.2072129249572754,
      "epoch": 2.71,
      "learning_rate": 4.5532247964934254e-05,
      "loss": 61.3189,
      "step": 3202,
      "task_loss": 2.370945692062378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5529352526947144,
      "compression/movement_sparsity/importance_threshold": -0.0029015149801375675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5366043328418668,
      "compression/movement_sparsity/model_sparsity": 0.5181703232207345,
      "compression_loss": 59.21821594238281,
      "distillation_loss": 1.5116181373596191,
      "epoch": 2.71,
      "learning_rate": 4.5529117094552286e-05,
      "loss": 61.3715,
      "step": 3203,
      "task_loss": 1.3669803142547607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5534288832139369,
      "compression/movement_sparsity/importance_threshold": -0.0028983112465513026,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5371084389528406,
      "compression/movement_sparsity/model_sparsity": 0.5186571117359845,
      "compression_loss": 59.27071762084961,
      "distillation_loss": 1.845075249671936,
      "epoch": 2.71,
      "learning_rate": 4.552598622417032e-05,
      "loss": 61.1098,
      "step": 3204,
      "task_loss": 1.1053732633590698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5539221502350027,
      "compression/movement_sparsity/importance_threshold": -0.0028951098721207375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5376104225619751,
      "compression/movement_sparsity/model_sparsity": 0.5191418506638631,
      "compression_loss": 59.323150634765625,
      "distillation_loss": 1.8696494102478027,
      "epoch": 2.71,
      "learning_rate": 4.5522855353788357e-05,
      "loss": 60.802,
      "step": 3205,
      "task_loss": 1.0870414972305298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5544150538917967,
      "compression/movement_sparsity/importance_threshold": -0.00289191085597694,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5381150414121573,
      "compression/movement_sparsity/model_sparsity": 0.5196291343041523,
      "compression_loss": 59.37552261352539,
      "distillation_loss": 1.8880031108856201,
      "epoch": 2.71,
      "learning_rate": 4.551972448340639e-05,
      "loss": 61.1355,
      "step": 3206,
      "task_loss": 1.2625141143798828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5549075943182042,
      "compression/movement_sparsity/importance_threshold": -0.002888714197250975,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5386884746337659,
      "compression/movement_sparsity/model_sparsity": 0.5201828683305117,
      "compression_loss": 59.42783737182617,
      "distillation_loss": 2.0919203758239746,
      "epoch": 2.71,
      "learning_rate": 4.551659361302442e-05,
      "loss": 61.3216,
      "step": 3207,
      "task_loss": 0.8890621662139893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5553997716481105,
      "compression/movement_sparsity/importance_threshold": -0.002885519895073908,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5394429167200869,
      "compression/movement_sparsity/model_sparsity": 0.5209113930102323,
      "compression_loss": 59.48012924194336,
      "distillation_loss": 1.3766056299209595,
      "epoch": 2.71,
      "learning_rate": 4.551346274264245e-05,
      "loss": 61.3789,
      "step": 3208,
      "task_loss": 1.8640154600143433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5558915860154006,
      "compression/movement_sparsity/importance_threshold": -0.0028823279485768057,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5401862812546743,
      "compression/movement_sparsity/model_sparsity": 0.5216292206861998,
      "compression_loss": 59.53236389160156,
      "distillation_loss": 2.090916633605957,
      "epoch": 2.71,
      "learning_rate": 4.551033187226049e-05,
      "loss": 61.7791,
      "step": 3209,
      "task_loss": 2.8921401500701904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5563830375539592,
      "compression/movement_sparsity/importance_threshold": -0.0028791383568907364,
      "compression/movement_sparsity/linear_layer_sparsity": 0.540781225674698,
      "compression/movement_sparsity/model_sparsity": 0.5222037269351326,
      "compression_loss": 59.58456039428711,
      "distillation_loss": 1.3313020467758179,
      "epoch": 2.71,
      "learning_rate": 4.550720100187852e-05,
      "loss": 61.1437,
      "step": 3210,
      "task_loss": 1.3936184644699097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5568741263976722,
      "compression/movement_sparsity/importance_threshold": -0.002875951119146762,
      "compression/movement_sparsity/linear_layer_sparsity": 0.54144447172694,
      "compression/movement_sparsity/model_sparsity": 0.5228441884450965,
      "compression_loss": 59.63673400878906,
      "distillation_loss": 2.1473522186279297,
      "epoch": 2.71,
      "learning_rate": 4.5504070131496554e-05,
      "loss": 61.8289,
      "step": 3211,
      "task_loss": 1.5665907859802246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5573648526804245,
      "compression/movement_sparsity/importance_threshold": -0.0028727662344759505,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5421484745841614,
      "compression/movement_sparsity/model_sparsity": 0.5235240066384063,
      "compression_loss": 59.688873291015625,
      "distillation_loss": 2.785092353820801,
      "epoch": 2.71,
      "learning_rate": 4.550093926111459e-05,
      "loss": 62.0144,
      "step": 3212,
      "task_loss": 2.286284923553467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.557855216536101,
      "compression/movement_sparsity/importance_threshold": -0.002869583702009368,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5428555658008004,
      "compression/movement_sparsity/model_sparsity": 0.5242068070964867,
      "compression_loss": 59.7409553527832,
      "distillation_loss": 3.1469435691833496,
      "epoch": 2.72,
      "learning_rate": 4.5497808390732624e-05,
      "loss": 61.4725,
      "step": 3213,
      "task_loss": 1.5217348337173462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5583452180985871,
      "compression/movement_sparsity/importance_threshold": -0.0028664035208780807,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5435181798721577,
      "compression/movement_sparsity/model_sparsity": 0.5248466583360536,
      "compression_loss": 59.793006896972656,
      "distillation_loss": 1.5433502197265625,
      "epoch": 2.72,
      "learning_rate": 4.5494677520350656e-05,
      "loss": 62.0626,
      "step": 3214,
      "task_loss": 0.7013033628463745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5588348575017676,
      "compression/movement_sparsity/importance_threshold": -0.002863225690213155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5442654197612267,
      "compression/movement_sparsity/model_sparsity": 0.5255682282361542,
      "compression_loss": 59.84503173828125,
      "distillation_loss": 3.040944814682007,
      "epoch": 2.72,
      "learning_rate": 4.5491546649968695e-05,
      "loss": 61.6214,
      "step": 3215,
      "task_loss": 1.7532404661178589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5593241348795281,
      "compression/movement_sparsity/importance_threshold": -0.002860050209145655,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5449777337632902,
      "compression/movement_sparsity/model_sparsity": 0.5262560720609127,
      "compression_loss": 59.897037506103516,
      "distillation_loss": 2.32039213180542,
      "epoch": 2.72,
      "learning_rate": 4.5488415779586726e-05,
      "loss": 62.1762,
      "step": 3216,
      "task_loss": 0.9362318515777588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5598130503657535,
      "compression/movement_sparsity/importance_threshold": -0.002856877076806649,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5456036690949996,
      "compression/movement_sparsity/model_sparsity": 0.5268605045883755,
      "compression_loss": 59.94902038574219,
      "distillation_loss": 1.6348111629486084,
      "epoch": 2.72,
      "learning_rate": 4.5485284909204765e-05,
      "loss": 61.5233,
      "step": 3217,
      "task_loss": 1.2171554565429688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5603016040943287,
      "compression/movement_sparsity/importance_threshold": -0.0028537062923272025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5463294812548269,
      "compression/movement_sparsity/model_sparsity": 0.5275613828676534,
      "compression_loss": 60.00094985961914,
      "distillation_loss": 2.0153145790100098,
      "epoch": 2.72,
      "learning_rate": 4.54821540388228e-05,
      "loss": 61.8111,
      "step": 3218,
      "task_loss": 1.0507100820541382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5607897961991393,
      "compression/movement_sparsity/importance_threshold": -0.002850537854838381,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5470102558334936,
      "compression/movement_sparsity/model_sparsity": 0.5282187707452354,
      "compression_loss": 60.052860260009766,
      "distillation_loss": 2.3539702892303467,
      "epoch": 2.72,
      "learning_rate": 4.547902316844083e-05,
      "loss": 62.3723,
      "step": 3219,
      "task_loss": 1.7692409753799438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.56127762681407,
      "compression/movement_sparsity/importance_threshold": -0.002847371763471251,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5476944884207747,
      "compression/movement_sparsity/model_sparsity": 0.5288794978381978,
      "compression_loss": 60.10472106933594,
      "distillation_loss": 1.8585728406906128,
      "epoch": 2.72,
      "learning_rate": 4.547589229805887e-05,
      "loss": 61.7738,
      "step": 3220,
      "task_loss": 1.469277262687683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5617650960730064,
      "compression/movement_sparsity/importance_threshold": -0.0028442080173568776,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5483274232388863,
      "compression/movement_sparsity/model_sparsity": 0.5294906893981719,
      "compression_loss": 60.15651321411133,
      "distillation_loss": 1.9224746227264404,
      "epoch": 2.72,
      "learning_rate": 4.54727614276769e-05,
      "loss": 62.1822,
      "step": 3221,
      "task_loss": 1.116389274597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5622522041098333,
      "compression/movement_sparsity/importance_threshold": -0.0028410466156263275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5489588198393729,
      "compression/movement_sparsity/model_sparsity": 0.5301003955830287,
      "compression_loss": 60.208290100097656,
      "distillation_loss": 1.7739439010620117,
      "epoch": 2.72,
      "learning_rate": 4.546963055729493e-05,
      "loss": 62.1098,
      "step": 3222,
      "task_loss": 1.5148887634277344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5627389510584361,
      "compression/movement_sparsity/importance_threshold": -0.002837887557410667,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5496650405917745,
      "compression/movement_sparsity/model_sparsity": 0.5307823554799962,
      "compression_loss": 60.26002502441406,
      "distillation_loss": 2.1653988361358643,
      "epoch": 2.72,
      "learning_rate": 4.546649968691297e-05,
      "loss": 62.3949,
      "step": 3223,
      "task_loss": 1.7051787376403809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5632253370526996,
      "compression/movement_sparsity/importance_threshold": -0.002834730841840962,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5502848349771514,
      "compression/movement_sparsity/model_sparsity": 0.5313808580215248,
      "compression_loss": 60.31169891357422,
      "distillation_loss": 2.742476463317871,
      "epoch": 2.72,
      "learning_rate": 4.5463368816531e-05,
      "loss": 62.5156,
      "step": 3224,
      "task_loss": 1.7081178426742554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5637113622265093,
      "compression/movement_sparsity/importance_threshold": -0.002831576468048278,
      "compression/movement_sparsity/linear_layer_sparsity": 0.550865243836827,
      "compression/movement_sparsity/model_sparsity": 0.5319413280513241,
      "compression_loss": 60.3632926940918,
      "distillation_loss": 2.6285932064056396,
      "epoch": 2.73,
      "learning_rate": 4.546023794614903e-05,
      "loss": 62.5059,
      "step": 3225,
      "task_loss": 1.4834864139556885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5641970267137502,
      "compression/movement_sparsity/importance_threshold": -0.002828424435163681,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5514888062591768,
      "compression/movement_sparsity/model_sparsity": 0.5325434691861638,
      "compression_loss": 60.41490173339844,
      "distillation_loss": 1.1217520236968994,
      "epoch": 2.73,
      "learning_rate": 4.5457107075767065e-05,
      "loss": 62.225,
      "step": 3226,
      "task_loss": 0.6226232051849365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5646823306483073,
      "compression/movement_sparsity/importance_threshold": -0.002825274742318238,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5522911238785558,
      "compression/movement_sparsity/model_sparsity": 0.5333182247270994,
      "compression_loss": 60.466468811035156,
      "distillation_loss": 1.530555009841919,
      "epoch": 2.73,
      "learning_rate": 4.54539762053851e-05,
      "loss": 62.1491,
      "step": 3227,
      "task_loss": 0.8091095685958862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5651672741640659,
      "compression/movement_sparsity/importance_threshold": -0.0028221273886430147,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5530125717930285,
      "compression/movement_sparsity/model_sparsity": 0.5340148886862766,
      "compression_loss": 60.51799774169922,
      "distillation_loss": 2.3837292194366455,
      "epoch": 2.73,
      "learning_rate": 4.5450845335003135e-05,
      "loss": 62.9902,
      "step": 3228,
      "task_loss": 1.5531892776489258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.565651857394911,
      "compression/movement_sparsity/importance_threshold": -0.0028189823732690774,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5536118566100717,
      "compression/movement_sparsity/model_sparsity": 0.5345935862262385,
      "compression_loss": 60.56949996948242,
      "distillation_loss": 1.5771152973175049,
      "epoch": 2.73,
      "learning_rate": 4.544771446462117e-05,
      "loss": 62.2818,
      "step": 3229,
      "task_loss": 0.40221303701400757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5661360804747277,
      "compression/movement_sparsity/importance_threshold": -0.0028158396953274923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5543475777532044,
      "compression/movement_sparsity/model_sparsity": 0.5353040330847617,
      "compression_loss": 60.620967864990234,
      "distillation_loss": 2.158998966217041,
      "epoch": 2.73,
      "learning_rate": 4.54445835942392e-05,
      "loss": 62.499,
      "step": 3230,
      "task_loss": 1.5988597869873047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5666199435374015,
      "compression/movement_sparsity/importance_threshold": -0.002812699353949324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5549618512489659,
      "compression/movement_sparsity/model_sparsity": 0.5358972043962176,
      "compression_loss": 60.672340393066406,
      "distillation_loss": 1.1810896396636963,
      "epoch": 2.73,
      "learning_rate": 4.544145272385724e-05,
      "loss": 62.3654,
      "step": 3231,
      "task_loss": 1.2383344173431396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5671034467168172,
      "compression/movement_sparsity/importance_threshold": -0.0028095613482656398,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5557702978905098,
      "compression/movement_sparsity/model_sparsity": 0.5366778784085516,
      "compression_loss": 60.72373580932617,
      "distillation_loss": 2.3745944499969482,
      "epoch": 2.73,
      "learning_rate": 4.543832185347527e-05,
      "loss": 63.0527,
      "step": 3232,
      "task_loss": 1.726595163345337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5675865901468602,
      "compression/movement_sparsity/importance_threshold": -0.0028064256774075046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5564531711226804,
      "compression/movement_sparsity/model_sparsity": 0.5373372928444333,
      "compression_loss": 60.77507400512695,
      "distillation_loss": 2.417064666748047,
      "epoch": 2.73,
      "learning_rate": 4.54351909830933e-05,
      "loss": 62.4877,
      "step": 3233,
      "task_loss": 1.3942477703094482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5680693739614154,
      "compression/movement_sparsity/importance_threshold": -0.002803292340505985,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5571928987861389,
      "compression/movement_sparsity/model_sparsity": 0.5380516085869835,
      "compression_loss": 60.826377868652344,
      "distillation_loss": 1.9079704284667969,
      "epoch": 2.73,
      "learning_rate": 4.543206011271133e-05,
      "loss": 62.9014,
      "step": 3234,
      "task_loss": 0.8225736618041992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5685517982943682,
      "compression/movement_sparsity/importance_threshold": -0.0028001613366921475,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5577619081415546,
      "compression/movement_sparsity/model_sparsity": 0.5386010707205632,
      "compression_loss": 60.877655029296875,
      "distillation_loss": 2.49898362159729,
      "epoch": 2.73,
      "learning_rate": 4.542892924232937e-05,
      "loss": 62.6267,
      "step": 3235,
      "task_loss": 1.4038333892822266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5690338632796035,
      "compression/movement_sparsity/importance_threshold": -0.002797032665097058,
      "compression/movement_sparsity/linear_layer_sparsity": 0.558330404757762,
      "compression/movement_sparsity/model_sparsity": 0.5391500377291037,
      "compression_loss": 60.928871154785156,
      "distillation_loss": 1.0691715478897095,
      "epoch": 2.73,
      "learning_rate": 4.54257983719474e-05,
      "loss": 62.9354,
      "step": 3236,
      "task_loss": 0.4008980989456177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5695155690510064,
      "compression/movement_sparsity/importance_threshold": -0.0027939063248517827,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5588924027026079,
      "compression/movement_sparsity/model_sparsity": 0.5396927293156362,
      "compression_loss": 60.980037689208984,
      "distillation_loss": 3.914008617401123,
      "epoch": 2.74,
      "learning_rate": 4.5422667501565435e-05,
      "loss": 63.5176,
      "step": 3237,
      "task_loss": 1.8881949186325073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5699969157424623,
      "compression/movement_sparsity/importance_threshold": -0.002790782315087387,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5594673502935062,
      "compression/movement_sparsity/model_sparsity": 0.5402479256880416,
      "compression_loss": 61.031185150146484,
      "distillation_loss": 2.08986759185791,
      "epoch": 2.74,
      "learning_rate": 4.541953663118347e-05,
      "loss": 62.9114,
      "step": 3238,
      "task_loss": 1.3363572359085083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5704779034878561,
      "compression/movement_sparsity/importance_threshold": -0.0027876606349349375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5600556291038216,
      "compression/movement_sparsity/model_sparsity": 0.5408159953114653,
      "compression_loss": 61.08230972290039,
      "distillation_loss": 2.161266326904297,
      "epoch": 2.74,
      "learning_rate": 4.5416405760801505e-05,
      "loss": 63.0533,
      "step": 3239,
      "task_loss": 0.8706734776496887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5709585324210729,
      "compression/movement_sparsity/importance_threshold": -0.002784541283525501,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5606440748524837,
      "compression/movement_sparsity/model_sparsity": 0.5413842261383901,
      "compression_loss": 61.13338088989258,
      "distillation_loss": 2.07959246635437,
      "epoch": 2.74,
      "learning_rate": 4.541327489041954e-05,
      "loss": 63.4249,
      "step": 3240,
      "task_loss": 1.9863539934158325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5714388026759982,
      "compression/movement_sparsity/importance_threshold": -0.0027814242599901408,
      "compression/movement_sparsity/linear_layer_sparsity": 0.56132898711732,
      "compression/movement_sparsity/model_sparsity": 0.5420456095598927,
      "compression_loss": 61.18437957763672,
      "distillation_loss": 1.755380392074585,
      "epoch": 2.74,
      "learning_rate": 4.541014402003757e-05,
      "loss": 62.6967,
      "step": 3241,
      "task_loss": 0.3939976990222931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5719187143865168,
      "compression/movement_sparsity/importance_threshold": -0.0027783095634599264,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5620198495418067,
      "compression/movement_sparsity/model_sparsity": 0.5427127387347568,
      "compression_loss": 61.23535919189453,
      "distillation_loss": 1.6719709634780884,
      "epoch": 2.74,
      "learning_rate": 4.540701314965561e-05,
      "loss": 62.5717,
      "step": 3242,
      "task_loss": 0.7836682796478271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.572398267686514,
      "compression/movement_sparsity/importance_threshold": -0.002775197193065921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5626101316122848,
      "compression/movement_sparsity/model_sparsity": 0.543282742800194,
      "compression_loss": 61.28627395629883,
      "distillation_loss": 2.090366840362549,
      "epoch": 2.74,
      "learning_rate": 4.540388227927364e-05,
      "loss": 63.273,
      "step": 3243,
      "task_loss": 2.559400796890259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.572877462709875,
      "compression/movement_sparsity/importance_threshold": -0.0027720871479391916,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5632268257140763,
      "compression/movement_sparsity/model_sparsity": 0.543878251562416,
      "compression_loss": 61.337154388427734,
      "distillation_loss": 2.2300381660461426,
      "epoch": 2.74,
      "learning_rate": 4.540075140889167e-05,
      "loss": 63.5227,
      "step": 3244,
      "task_loss": 2.457061767578125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5733562995904848,
      "compression/movement_sparsity/importance_threshold": -0.002768979427210805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5638712077331184,
      "compression/movement_sparsity/model_sparsity": 0.544500497076753,
      "compression_loss": 61.38800811767578,
      "distillation_loss": 2.6272029876708984,
      "epoch": 2.74,
      "learning_rate": 4.53976205385097e-05,
      "loss": 63.5471,
      "step": 3245,
      "task_loss": 2.089963912963867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5738347784622286,
      "compression/movement_sparsity/importance_threshold": -0.002765874030011826,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5645212060351169,
      "compression/movement_sparsity/model_sparsity": 0.5451281659374492,
      "compression_loss": 61.4388427734375,
      "distillation_loss": 1.8792638778686523,
      "epoch": 2.74,
      "learning_rate": 4.539448966812774e-05,
      "loss": 63.1737,
      "step": 3246,
      "task_loss": 1.1348532438278198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5743128994589916,
      "compression/movement_sparsity/importance_threshold": -0.002762770955473322,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5650993016062712,
      "compression/movement_sparsity/model_sparsity": 0.5456864021473044,
      "compression_loss": 61.48960876464844,
      "distillation_loss": 2.650062084197998,
      "epoch": 2.74,
      "learning_rate": 4.539135879774577e-05,
      "loss": 63.2367,
      "step": 3247,
      "task_loss": 1.9830965995788574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5747906627146587,
      "compression/movement_sparsity/importance_threshold": -0.002759670202726358,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5658939519858605,
      "compression/movement_sparsity/model_sparsity": 0.5464537538417241,
      "compression_loss": 61.540382385253906,
      "distillation_loss": 1.1694265604019165,
      "epoch": 2.75,
      "learning_rate": 4.5388227927363804e-05,
      "loss": 63.625,
      "step": 3248,
      "task_loss": 1.0222479104995728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5752680683631153,
      "compression/movement_sparsity/importance_threshold": -0.0027565717709020004,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5665567091472293,
      "compression/movement_sparsity/model_sparsity": 0.5470937432557205,
      "compression_loss": 61.59110641479492,
      "distillation_loss": 2.362687587738037,
      "epoch": 2.75,
      "learning_rate": 4.538509705698184e-05,
      "loss": 63.5481,
      "step": 3249,
      "task_loss": 1.6770461797714233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5757451165382462,
      "compression/movement_sparsity/importance_threshold": -0.0027534756591313164,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5671450714267181,
      "compression/movement_sparsity/model_sparsity": 0.5476618934808947,
      "compression_loss": 61.64177703857422,
      "distillation_loss": 3.0940659046173096,
      "epoch": 2.75,
      "learning_rate": 4.5381966186599875e-05,
      "loss": 63.7289,
      "step": 3250,
      "task_loss": 1.8293547630310059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.576221807373937,
      "compression/movement_sparsity/importance_threshold": -0.00275038186654537,
      "compression/movement_sparsity/linear_layer_sparsity": 0.567742400680269,
      "compression/movement_sparsity/model_sparsity": 0.5482387026369865,
      "compression_loss": 61.692420959472656,
      "distillation_loss": 1.7292340993881226,
      "epoch": 2.75,
      "learning_rate": 4.537883531621791e-05,
      "loss": 63.6197,
      "step": 3251,
      "task_loss": 1.903066635131836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5766981410040727,
      "compression/movement_sparsity/importance_threshold": -0.002747290392275228,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5681702278908761,
      "compression/movement_sparsity/model_sparsity": 0.5486518326667588,
      "compression_loss": 61.74302673339844,
      "distillation_loss": 2.62448787689209,
      "epoch": 2.75,
      "learning_rate": 4.5375704445835945e-05,
      "loss": 64.2308,
      "step": 3252,
      "task_loss": 3.471588373184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5771741175625382,
      "compression/movement_sparsity/importance_threshold": -0.0027442012354519565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5687922759439362,
      "compression/movement_sparsity/model_sparsity": 0.5492525114555525,
      "compression_loss": 61.793617248535156,
      "distillation_loss": 1.8836873769760132,
      "epoch": 2.75,
      "learning_rate": 4.5372573575453984e-05,
      "loss": 63.3659,
      "step": 3253,
      "task_loss": 1.1602904796600342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.577649737183219,
      "compression/movement_sparsity/importance_threshold": -0.0027411143952066216,
      "compression/movement_sparsity/linear_layer_sparsity": 0.569307841180008,
      "compression/movement_sparsity/model_sparsity": 0.5497503654397011,
      "compression_loss": 61.844139099121094,
      "distillation_loss": 3.1148345470428467,
      "epoch": 2.75,
      "learning_rate": 4.5369442705072015e-05,
      "loss": 64.5201,
      "step": 3254,
      "task_loss": 2.974893093109131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.578125,
      "compression/movement_sparsity/importance_threshold": -0.002738029870670289,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5699367575536263,
      "compression/movement_sparsity/model_sparsity": 0.5503576766011126,
      "compression_loss": 61.8946418762207,
      "distillation_loss": 2.9435007572174072,
      "epoch": 2.75,
      "learning_rate": 4.536631183469005e-05,
      "loss": 63.9468,
      "step": 3255,
      "task_loss": 1.6965686082839966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5785999061467664,
      "compression/movement_sparsity/importance_threshold": -0.0027349476609740252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5705300802868516,
      "compression/movement_sparsity/model_sparsity": 0.5509306168731773,
      "compression_loss": 61.945133209228516,
      "distillation_loss": 1.766937255859375,
      "epoch": 2.75,
      "learning_rate": 4.536318096430808e-05,
      "loss": 63.6339,
      "step": 3256,
      "task_loss": 1.7983667850494385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5790744557574032,
      "compression/movement_sparsity/importance_threshold": -0.002731867765248896,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5710698635073919,
      "compression/movement_sparsity/model_sparsity": 0.5514518568795247,
      "compression_loss": 61.995609283447266,
      "distillation_loss": 3.585628032684326,
      "epoch": 2.75,
      "learning_rate": 4.536005009392612e-05,
      "loss": 64.84,
      "step": 3257,
      "task_loss": 2.5402724742889404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5795486489657957,
      "compression/movement_sparsity/importance_threshold": -0.0027287901826259686,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5716247665724944,
      "compression/movement_sparsity/model_sparsity": 0.5519876973172594,
      "compression_loss": 62.0460205078125,
      "distillation_loss": 2.716158866882324,
      "epoch": 2.75,
      "learning_rate": 4.535691922354415e-05,
      "loss": 64.4213,
      "step": 3258,
      "task_loss": 2.2517213821411133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5800224859058292,
      "compression/movement_sparsity/importance_threshold": -0.002725714912236307,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5723706948031234,
      "compression/movement_sparsity/model_sparsity": 0.5527080006184227,
      "compression_loss": 62.09637451171875,
      "distillation_loss": 2.5347249507904053,
      "epoch": 2.75,
      "learning_rate": 4.535378835316218e-05,
      "loss": 64.2235,
      "step": 3259,
      "task_loss": 1.7294872999191284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5804959667113884,
      "compression/movement_sparsity/importance_threshold": -0.0027226419532109794,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5728706632279275,
      "compression/movement_sparsity/model_sparsity": 0.553190793589752,
      "compression_loss": 62.14668273925781,
      "distillation_loss": 4.100587368011475,
      "epoch": 2.76,
      "learning_rate": 4.535065748278022e-05,
      "loss": 65.0585,
      "step": 3260,
      "task_loss": 1.7983518838882446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.580969091516359,
      "compression/movement_sparsity/importance_threshold": -0.0027195713046810482,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5733109273453788,
      "compression/movement_sparsity/model_sparsity": 0.5536159332803581,
      "compression_loss": 62.19697189331055,
      "distillation_loss": 2.922617197036743,
      "epoch": 2.76,
      "learning_rate": 4.534752661239825e-05,
      "loss": 63.8987,
      "step": 3261,
      "task_loss": 2.1671738624572754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5814418604546254,
      "compression/movement_sparsity/importance_threshold": -0.002716502965777585,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5738399430425439,
      "compression/movement_sparsity/model_sparsity": 0.5541267756608829,
      "compression_loss": 62.24715805053711,
      "distillation_loss": 2.336730480194092,
      "epoch": 2.76,
      "learning_rate": 4.534439574201628e-05,
      "loss": 64.6455,
      "step": 3262,
      "task_loss": 2.0633602142333984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5819142736600736,
      "compression/movement_sparsity/importance_threshold": -0.00271343693563165,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5743313737633208,
      "compression/movement_sparsity/model_sparsity": 0.5546013242245832,
      "compression_loss": 62.29735565185547,
      "distillation_loss": 1.4821069240570068,
      "epoch": 2.76,
      "learning_rate": 4.5341264871634315e-05,
      "loss": 64.4266,
      "step": 3263,
      "task_loss": 0.9498777985572815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.582386331266588,
      "compression/movement_sparsity/importance_threshold": -0.002710373213374314,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5749502022911192,
      "compression/movement_sparsity/model_sparsity": 0.5551988940887125,
      "compression_loss": 62.347530364990234,
      "distillation_loss": 2.053527593612671,
      "epoch": 2.76,
      "learning_rate": 4.5338134001252354e-05,
      "loss": 64.4141,
      "step": 3264,
      "task_loss": 1.483485460281372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5828580334080542,
      "compression/movement_sparsity/importance_threshold": -0.0027073117981366406,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5754960310646507,
      "compression/movement_sparsity/model_sparsity": 0.5557259719647076,
      "compression_loss": 62.39763641357422,
      "distillation_loss": 3.317925453186035,
      "epoch": 2.76,
      "learning_rate": 4.5335003130870385e-05,
      "loss": 64.9831,
      "step": 3265,
      "task_loss": 2.3749139308929443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5833293802183572,
      "compression/movement_sparsity/importance_threshold": -0.0027042526890496956,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5761054514241845,
      "compression/movement_sparsity/model_sparsity": 0.5563144568600951,
      "compression_loss": 62.44774627685547,
      "distillation_loss": 2.4049575328826904,
      "epoch": 2.76,
      "learning_rate": 4.533187226048842e-05,
      "loss": 65.0609,
      "step": 3266,
      "task_loss": 1.7524023056030273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.583800371831382,
      "compression/movement_sparsity/importance_threshold": -0.0027011958852445474,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5767197964649518,
      "compression/movement_sparsity/model_sparsity": 0.5569076972587655,
      "compression_loss": 62.49779510498047,
      "distillation_loss": 2.4823760986328125,
      "epoch": 2.76,
      "learning_rate": 4.532874139010645e-05,
      "loss": 64.472,
      "step": 3267,
      "task_loss": 0.8759756684303284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5842710083810142,
      "compression/movement_sparsity/importance_threshold": -0.002698141385852258,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5772969619510304,
      "compression/movement_sparsity/model_sparsity": 0.5574650353348287,
      "compression_loss": 62.54779052734375,
      "distillation_loss": 3.127028226852417,
      "epoch": 2.76,
      "learning_rate": 4.532561051972449e-05,
      "loss": 65.2424,
      "step": 3268,
      "task_loss": 1.8531819581985474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5847412900011383,
      "compression/movement_sparsity/importance_threshold": -0.0026950891900038975,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5778278974391848,
      "compression/movement_sparsity/model_sparsity": 0.5579777315556165,
      "compression_loss": 62.59773635864258,
      "distillation_loss": 2.9271931648254395,
      "epoch": 2.76,
      "learning_rate": 4.532247964934252e-05,
      "loss": 65.1536,
      "step": 3269,
      "task_loss": 2.770268440246582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.58521121682564,
      "compression/movement_sparsity/importance_threshold": -0.0026920392968305287,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5783652481295274,
      "compression/movement_sparsity/model_sparsity": 0.5584966225966617,
      "compression_loss": 62.64766311645508,
      "distillation_loss": 1.4534050226211548,
      "epoch": 2.76,
      "learning_rate": 4.531934877896055e-05,
      "loss": 64.2924,
      "step": 3270,
      "task_loss": 1.0047919750213623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5856807889884039,
      "compression/movement_sparsity/importance_threshold": -0.002688991705463221,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5789765048108769,
      "compression/movement_sparsity/model_sparsity": 0.5590868807305613,
      "compression_loss": 62.69752502441406,
      "distillation_loss": 1.065590500831604,
      "epoch": 2.76,
      "learning_rate": 4.531621790857858e-05,
      "loss": 64.9051,
      "step": 3271,
      "task_loss": 1.287510633468628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5861500066233158,
      "compression/movement_sparsity/importance_threshold": -0.002685946415033037,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5796208033607456,
      "compression/movement_sparsity/model_sparsity": 0.5597090456431478,
      "compression_loss": 62.747344970703125,
      "distillation_loss": 2.4845476150512695,
      "epoch": 2.77,
      "learning_rate": 4.531308703819662e-05,
      "loss": 65.0637,
      "step": 3272,
      "task_loss": 1.9304927587509155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5866188698642603,
      "compression/movement_sparsity/importance_threshold": -0.0026829034246710457,
      "compression/movement_sparsity/linear_layer_sparsity": 0.580213529885589,
      "compression/movement_sparsity/model_sparsity": 0.5602814101884228,
      "compression_loss": 62.79712677001953,
      "distillation_loss": 1.7986047267913818,
      "epoch": 2.77,
      "learning_rate": 4.530995616781465e-05,
      "loss": 64.7884,
      "step": 3273,
      "task_loss": 1.6280940771102905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5870873788451227,
      "compression/movement_sparsity/importance_threshold": -0.0026798627335083104,
      "compression/movement_sparsity/linear_layer_sparsity": 0.580656882362458,
      "compression/movement_sparsity/model_sparsity": 0.5607095321437996,
      "compression_loss": 62.84685516357422,
      "distillation_loss": 2.373429775238037,
      "epoch": 2.77,
      "learning_rate": 4.5306825297432685e-05,
      "loss": 65.159,
      "step": 3274,
      "task_loss": 0.9746283888816833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5875555336997882,
      "compression/movement_sparsity/importance_threshold": -0.0026768243406758998,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5812906041756336,
      "compression/movement_sparsity/model_sparsity": 0.5613214836631363,
      "compression_loss": 62.89656448364258,
      "distillation_loss": 1.2804510593414307,
      "epoch": 2.77,
      "learning_rate": 4.5303694427050724e-05,
      "loss": 64.8138,
      "step": 3275,
      "task_loss": 1.0682469606399536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.588023334562142,
      "compression/movement_sparsity/importance_threshold": -0.002673788245304878,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5817467393602083,
      "compression/movement_sparsity/model_sparsity": 0.5617619492008848,
      "compression_loss": 62.946224212646484,
      "distillation_loss": 2.436553955078125,
      "epoch": 2.77,
      "learning_rate": 4.5300563556668755e-05,
      "loss": 65.3179,
      "step": 3276,
      "task_loss": 1.62647545337677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5884907815660689,
      "compression/movement_sparsity/importance_threshold": -0.002670754446526312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5823413379793706,
      "compression/movement_sparsity/model_sparsity": 0.5623361215282796,
      "compression_loss": 62.99586486816406,
      "distillation_loss": 2.4307358264923096,
      "epoch": 2.77,
      "learning_rate": 4.529743268628679e-05,
      "loss": 65.3572,
      "step": 3277,
      "task_loss": 0.7289491891860962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5889578748454543,
      "compression/movement_sparsity/importance_threshold": -0.002667722943471269,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5828462787820788,
      "compression/movement_sparsity/model_sparsity": 0.5628237160610353,
      "compression_loss": 63.045467376708984,
      "distillation_loss": 1.9870669841766357,
      "epoch": 2.77,
      "learning_rate": 4.529430181590482e-05,
      "loss": 64.9565,
      "step": 3278,
      "task_loss": 1.1790046691894531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5894246145341837,
      "compression/movement_sparsity/importance_threshold": -0.00266469373527081,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5832902513156649,
      "compression/movement_sparsity/model_sparsity": 0.5632524367722734,
      "compression_loss": 63.095008850097656,
      "distillation_loss": 3.7120556831359863,
      "epoch": 2.77,
      "learning_rate": 4.529117094552286e-05,
      "loss": 65.7356,
      "step": 3279,
      "task_loss": 2.329238176345825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5898910007661413,
      "compression/movement_sparsity/importance_threshold": -0.002661666821056009,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5839291839900974,
      "compression/movement_sparsity/model_sparsity": 0.5638694201437523,
      "compression_loss": 63.14457702636719,
      "distillation_loss": 3.090104579925537,
      "epoch": 2.77,
      "learning_rate": 4.528804007514089e-05,
      "loss": 65.1547,
      "step": 3280,
      "task_loss": 1.4001250267028809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5903570336752134,
      "compression/movement_sparsity/importance_threshold": -0.002658642199957923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5843753624946961,
      "compression/movement_sparsity/model_sparsity": 0.5643002710441124,
      "compression_loss": 63.19406509399414,
      "distillation_loss": 2.8316006660461426,
      "epoch": 2.77,
      "learning_rate": 4.528490920475892e-05,
      "loss": 65.7256,
      "step": 3281,
      "task_loss": 1.7057539224624634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5908227133952841,
      "compression/movement_sparsity/importance_threshold": -0.0026556198711076263,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5849901368054983,
      "compression/movement_sparsity/model_sparsity": 0.5648939259660716,
      "compression_loss": 63.243507385253906,
      "distillation_loss": 2.977006435394287,
      "epoch": 2.77,
      "learning_rate": 4.528177833437696e-05,
      "loss": 65.8295,
      "step": 3282,
      "task_loss": 2.558807134628296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5912880400602394,
      "compression/movement_sparsity/importance_threshold": -0.002652599833636179,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5856224038702224,
      "compression/movement_sparsity/model_sparsity": 0.5655044727120413,
      "compression_loss": 63.292945861816406,
      "distillation_loss": 1.649764060974121,
      "epoch": 2.77,
      "learning_rate": 4.527864746399499e-05,
      "loss": 65.5731,
      "step": 3283,
      "task_loss": 1.8796659708023071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5917530138039635,
      "compression/movement_sparsity/importance_threshold": -0.0026495820866746524,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5862297375004197,
      "compression/movement_sparsity/model_sparsity": 0.5660909425636647,
      "compression_loss": 63.342308044433594,
      "distillation_loss": 2.130422830581665,
      "epoch": 2.78,
      "learning_rate": 4.527551659361303e-05,
      "loss": 65.7734,
      "step": 3284,
      "task_loss": 1.1817493438720703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5922176347603425,
      "compression/movement_sparsity/importance_threshold": -0.002646566629354107,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5869314270691197,
      "compression/movement_sparsity/model_sparsity": 0.5667685269370302,
      "compression_loss": 63.39168930053711,
      "distillation_loss": 1.6436231136322021,
      "epoch": 2.78,
      "learning_rate": 4.527238572323106e-05,
      "loss": 65.1085,
      "step": 3285,
      "task_loss": 0.6923684477806091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5926819030632609,
      "compression/movement_sparsity/importance_threshold": -0.002643553460805613,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5875238793381076,
      "compression/movement_sparsity/model_sparsity": 0.5673406266479819,
      "compression_loss": 63.440975189208984,
      "distillation_loss": 2.9229183197021484,
      "epoch": 2.78,
      "learning_rate": 4.5269254852849093e-05,
      "loss": 65.9576,
      "step": 3286,
      "task_loss": 1.6541121006011963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5931458188466039,
      "compression/movement_sparsity/importance_threshold": -0.0026405425801602355,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5880890610357122,
      "compression/movement_sparsity/model_sparsity": 0.5678863926155716,
      "compression_loss": 63.49025344848633,
      "distillation_loss": 2.2987334728240967,
      "epoch": 2.78,
      "learning_rate": 4.526612398246713e-05,
      "loss": 65.6349,
      "step": 3287,
      "task_loss": 2.3272345066070557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5936093822442572,
      "compression/movement_sparsity/importance_threshold": -0.002637533986549038,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5886417223572992,
      "compression/movement_sparsity/model_sparsity": 0.568420068320577,
      "compression_loss": 63.53947067260742,
      "distillation_loss": 2.217540740966797,
      "epoch": 2.78,
      "learning_rate": 4.5262993112085164e-05,
      "loss": 65.6499,
      "step": 3288,
      "task_loss": 1.4005820751190186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5940725933901052,
      "compression/movement_sparsity/importance_threshold": -0.0026345276791030895,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5894982353185833,
      "compression/movement_sparsity/model_sparsity": 0.5692471574266988,
      "compression_loss": 63.58866500854492,
      "distillation_loss": 1.9773398637771606,
      "epoch": 2.78,
      "learning_rate": 4.5259862241703196e-05,
      "loss": 65.8997,
      "step": 3289,
      "task_loss": 0.39578530192375183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5945354524180337,
      "compression/movement_sparsity/importance_threshold": -0.0026315236569534536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5900816132960002,
      "compression/movement_sparsity/model_sparsity": 0.5698104945759109,
      "compression_loss": 63.637813568115234,
      "distillation_loss": 2.959913730621338,
      "epoch": 2.78,
      "learning_rate": 4.5256731371321234e-05,
      "loss": 65.9394,
      "step": 3290,
      "task_loss": 1.998962163925171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5949979594619271,
      "compression/movement_sparsity/importance_threshold": -0.0026285219192312007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5907004656721339,
      "compression/movement_sparsity/model_sparsity": 0.5704080874691119,
      "compression_loss": 63.686885833740234,
      "distillation_loss": 2.3769102096557617,
      "epoch": 2.78,
      "learning_rate": 4.5253600500939266e-05,
      "loss": 65.6867,
      "step": 3291,
      "task_loss": 1.2600765228271484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5954601146556714,
      "compression/movement_sparsity/importance_threshold": -0.0026255224650673908,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5911971311025028,
      "compression/movement_sparsity/model_sparsity": 0.570887690914026,
      "compression_loss": 63.735931396484375,
      "distillation_loss": 3.1005611419677734,
      "epoch": 2.78,
      "learning_rate": 4.52504696305573e-05,
      "loss": 65.8246,
      "step": 3292,
      "task_loss": 1.7342817783355713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.595921918133151,
      "compression/movement_sparsity/importance_threshold": -0.0026225252935930953,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5918477256128831,
      "compression/movement_sparsity/model_sparsity": 0.571515935501512,
      "compression_loss": 63.78495788574219,
      "distillation_loss": 2.2531864643096924,
      "epoch": 2.78,
      "learning_rate": 4.524733876017533e-05,
      "loss": 66.0762,
      "step": 3293,
      "task_loss": 0.8364577293395996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5963833700282513,
      "compression/movement_sparsity/importance_threshold": -0.0026195304039393777,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5924246287672739,
      "compression/movement_sparsity/model_sparsity": 0.5720730202577876,
      "compression_loss": 63.83391571044922,
      "distillation_loss": 2.14603328704834,
      "epoch": 2.78,
      "learning_rate": 4.524420788979337e-05,
      "loss": 66.3229,
      "step": 3294,
      "task_loss": 0.8522926568984985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5968444704748577,
      "compression/movement_sparsity/importance_threshold": -0.002616537795237303,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5930233054517676,
      "compression/movement_sparsity/model_sparsity": 0.5726511305564241,
      "compression_loss": 63.88285827636719,
      "distillation_loss": 2.0327210426330566,
      "epoch": 2.78,
      "learning_rate": 4.52410770194114e-05,
      "loss": 66.3872,
      "step": 3295,
      "task_loss": 2.011417865753174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5973052196068549,
      "compression/movement_sparsity/importance_threshold": -0.00261354746661794,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5936228406763312,
      "compression/movement_sparsity/model_sparsity": 0.5732300699016378,
      "compression_loss": 63.931739807128906,
      "distillation_loss": 3.3703911304473877,
      "epoch": 2.79,
      "learning_rate": 4.523794614902943e-05,
      "loss": 66.2551,
      "step": 3296,
      "task_loss": 2.7907986640930176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5977656175581283,
      "compression/movement_sparsity/importance_threshold": -0.002610559417212353,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5943289064145535,
      "compression/movement_sparsity/model_sparsity": 0.57391188010964,
      "compression_loss": 63.98060607910156,
      "distillation_loss": 2.2302701473236084,
      "epoch": 2.79,
      "learning_rate": 4.523481527864747e-05,
      "loss": 66.2026,
      "step": 3297,
      "task_loss": 1.9902892112731934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.598225664462563,
      "compression/movement_sparsity/importance_threshold": -0.0026075736461516085,
      "compression/movement_sparsity/linear_layer_sparsity": 0.594970820130895,
      "compression/movement_sparsity/model_sparsity": 0.5745317421150675,
      "compression_loss": 64.02938842773438,
      "distillation_loss": 2.882056713104248,
      "epoch": 2.79,
      "learning_rate": 4.52316844082655e-05,
      "loss": 66.5946,
      "step": 3298,
      "task_loss": 2.4600772857666016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5986853604540443,
      "compression/movement_sparsity/importance_threshold": -0.0026045901525667712,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5955626046464951,
      "compression/movement_sparsity/model_sparsity": 0.5751031970120148,
      "compression_loss": 64.07813262939453,
      "distillation_loss": 1.8837769031524658,
      "epoch": 2.79,
      "learning_rate": 4.5228553537883534e-05,
      "loss": 66.0343,
      "step": 3299,
      "task_loss": 0.6849653124809265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.599144705666457,
      "compression/movement_sparsity/importance_threshold": -0.00260160893558891,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5961655978796732,
      "compression/movement_sparsity/model_sparsity": 0.575685475572609,
      "compression_loss": 64.1268081665039,
      "distillation_loss": 1.7914607524871826,
      "epoch": 2.79,
      "learning_rate": 4.5225422667501566e-05,
      "loss": 66.4506,
      "step": 3300,
      "task_loss": 1.5256916284561157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.5996037002336866,
      "compression/movement_sparsity/importance_threshold": -0.0025986299943490873,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5966092603849007,
      "compression/movement_sparsity/model_sparsity": 0.5761138969059164,
      "compression_loss": 64.17549133300781,
      "distillation_loss": 2.083982467651367,
      "epoch": 2.79,
      "learning_rate": 4.5222291797119604e-05,
      "loss": 66.4935,
      "step": 3301,
      "task_loss": 1.3360068798065186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6000623442896178,
      "compression/movement_sparsity/importance_threshold": -0.0025956533279783735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5973318410952987,
      "compression/movement_sparsity/model_sparsity": 0.576811654745994,
      "compression_loss": 64.22410583496094,
      "distillation_loss": 2.162996292114258,
      "epoch": 2.79,
      "learning_rate": 4.5219160926737636e-05,
      "loss": 66.7113,
      "step": 3302,
      "task_loss": 1.2777782678604126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6005206379681363,
      "compression/movement_sparsity/importance_threshold": -0.00259267893560783,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5979451248851464,
      "compression/movement_sparsity/model_sparsity": 0.5774038703509788,
      "compression_loss": 64.2726821899414,
      "distillation_loss": 2.523104667663574,
      "epoch": 2.79,
      "learning_rate": 4.521603005635567e-05,
      "loss": 67.0879,
      "step": 3303,
      "task_loss": 3.2947402000427246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6009785814031265,
      "compression/movement_sparsity/importance_threshold": -0.0025897068163685277,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5985515522786035,
      "compression/movement_sparsity/model_sparsity": 0.5779894650978817,
      "compression_loss": 64.32125091552734,
      "distillation_loss": 2.3977468013763428,
      "epoch": 2.79,
      "learning_rate": 4.52128991859737e-05,
      "loss": 66.5475,
      "step": 3304,
      "task_loss": 1.833799958229065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6014361747284744,
      "compression/movement_sparsity/importance_threshold": -0.0025867369693915276,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5991826030782287,
      "compression/movement_sparsity/model_sparsity": 0.5785988373612004,
      "compression_loss": 64.3697509765625,
      "distillation_loss": 3.528712749481201,
      "epoch": 2.79,
      "learning_rate": 4.520976831559174e-05,
      "loss": 66.9637,
      "step": 3305,
      "task_loss": 2.0859827995300293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6018934180780646,
      "compression/movement_sparsity/importance_threshold": -0.002583769393807899,
      "compression/movement_sparsity/linear_layer_sparsity": 0.5998290599024393,
      "compression/movement_sparsity/model_sparsity": 0.5792230864047657,
      "compression_loss": 64.41822052001953,
      "distillation_loss": 1.7883198261260986,
      "epoch": 2.79,
      "learning_rate": 4.520663744520977e-05,
      "loss": 66.6326,
      "step": 3306,
      "task_loss": 0.7495938539505005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6023503115857822,
      "compression/movement_sparsity/importance_threshold": -0.002580804088748708,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6003032602009823,
      "compression/movement_sparsity/model_sparsity": 0.579680996464243,
      "compression_loss": 64.46662139892578,
      "distillation_loss": 3.370004892349243,
      "epoch": 2.79,
      "learning_rate": 4.52035065748278e-05,
      "loss": 67.4209,
      "step": 3307,
      "task_loss": 2.0598011016845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6028068553855128,
      "compression/movement_sparsity/importance_threshold": -0.0025778410533450185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6008433057532105,
      "compression/movement_sparsity/model_sparsity": 0.5802024897903778,
      "compression_loss": 64.5150375366211,
      "distillation_loss": 2.510342597961426,
      "epoch": 2.8,
      "learning_rate": 4.520037570444583e-05,
      "loss": 66.8212,
      "step": 3308,
      "task_loss": 2.0150063037872314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6032630496111409,
      "compression/movement_sparsity/importance_threshold": -0.0025748802867279,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6014445699820813,
      "compression/movement_sparsity/model_sparsity": 0.5807830987432817,
      "compression_loss": 64.56340026855469,
      "distillation_loss": 2.504192352294922,
      "epoch": 2.8,
      "learning_rate": 4.519724483406387e-05,
      "loss": 67.1174,
      "step": 3309,
      "task_loss": 1.5429729223251343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6037188943965524,
      "compression/movement_sparsity/importance_threshold": -0.002571921788028413,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6021497294835634,
      "compression/movement_sparsity/model_sparsity": 0.5814640338465634,
      "compression_loss": 64.61170959472656,
      "distillation_loss": 2.65661883354187,
      "epoch": 2.8,
      "learning_rate": 4.5194113963681904e-05,
      "loss": 66.8043,
      "step": 3310,
      "task_loss": 2.86460280418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6041743898756315,
      "compression/movement_sparsity/importance_threshold": -0.00256896555637763,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6027260841262427,
      "compression/movement_sparsity/model_sparsity": 0.5820205889341926,
      "compression_loss": 64.65999603271484,
      "distillation_loss": 3.386810779571533,
      "epoch": 2.8,
      "learning_rate": 4.5190983093299935e-05,
      "loss": 67.1826,
      "step": 3311,
      "task_loss": 2.2936220169067383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6046295361822644,
      "compression/movement_sparsity/importance_threshold": -0.002566011590906611,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6033348844290594,
      "compression/movement_sparsity/model_sparsity": 0.5826084750737186,
      "compression_loss": 64.70823669433594,
      "distillation_loss": 1.8451652526855469,
      "epoch": 2.8,
      "learning_rate": 4.5187852222917974e-05,
      "loss": 66.849,
      "step": 3312,
      "task_loss": 1.205755352973938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6050843334503353,
      "compression/movement_sparsity/importance_threshold": -0.0025630598907464284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.603959961220699,
      "compression/movement_sparsity/model_sparsity": 0.5832120785546042,
      "compression_loss": 64.7564468383789,
      "distillation_loss": 1.9038958549499512,
      "epoch": 2.8,
      "learning_rate": 4.5184721352536006e-05,
      "loss": 67.2443,
      "step": 3313,
      "task_loss": 1.557594656944275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6055387818137299,
      "compression/movement_sparsity/importance_threshold": -0.0025601104550281428,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6045320350871971,
      "compression/movement_sparsity/model_sparsity": 0.5837644999238831,
      "compression_loss": 64.80458068847656,
      "distillation_loss": 1.9298832416534424,
      "epoch": 2.8,
      "learning_rate": 4.518159048215404e-05,
      "loss": 67.268,
      "step": 3314,
      "task_loss": 1.553122878074646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6059928814063333,
      "compression/movement_sparsity/importance_threshold": -0.0025571632828828217,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6050495916592642,
      "compression/movement_sparsity/model_sparsity": 0.5842642768355094,
      "compression_loss": 64.85267639160156,
      "distillation_loss": 1.0555038452148438,
      "epoch": 2.8,
      "learning_rate": 4.517845961177207e-05,
      "loss": 66.6777,
      "step": 3315,
      "task_loss": 0.5358624458312988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6064466323620304,
      "compression/movement_sparsity/importance_threshold": -0.0025542183734415325,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6055614484792012,
      "compression/movement_sparsity/model_sparsity": 0.5847585497990259,
      "compression_loss": 64.90071105957031,
      "distillation_loss": 2.7813076972961426,
      "epoch": 2.8,
      "learning_rate": 4.517532874139011e-05,
      "loss": 67.497,
      "step": 3316,
      "task_loss": 2.09861159324646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6069000348147066,
      "compression/movement_sparsity/importance_threshold": -0.00255127572583534,
      "compression/movement_sparsity/linear_layer_sparsity": 0.606194836415683,
      "compression/movement_sparsity/model_sparsity": 0.5853701789113603,
      "compression_loss": 64.94872283935547,
      "distillation_loss": 2.160360813140869,
      "epoch": 2.8,
      "learning_rate": 4.517219787100814e-05,
      "loss": 67.2143,
      "step": 3317,
      "task_loss": 1.20736563205719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6073530888982466,
      "compression/movement_sparsity/importance_threshold": -0.002548335339195312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6069726975672408,
      "compression/movement_sparsity/model_sparsity": 0.5861213181393814,
      "compression_loss": 64.99671173095703,
      "distillation_loss": 1.750588297843933,
      "epoch": 2.8,
      "learning_rate": 4.516906700062618e-05,
      "loss": 67.2046,
      "step": 3318,
      "task_loss": 1.5759496688842773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6078057947465363,
      "compression/movement_sparsity/importance_threshold": -0.0025453972126525106,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6075584842265203,
      "compression/movement_sparsity/model_sparsity": 0.586686981224824,
      "compression_loss": 65.04467010498047,
      "distillation_loss": 1.5941390991210938,
      "epoch": 2.81,
      "learning_rate": 4.516593613024421e-05,
      "loss": 67.1358,
      "step": 3319,
      "task_loss": 0.9084857702255249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6082581524934598,
      "compression/movement_sparsity/importance_threshold": -0.0025424613453380084,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6080843400192618,
      "compression/movement_sparsity/model_sparsity": 0.5871947722533633,
      "compression_loss": 65.09259033203125,
      "distillation_loss": 3.3474481105804443,
      "epoch": 2.81,
      "learning_rate": 4.516280525986225e-05,
      "loss": 67.7757,
      "step": 3320,
      "task_loss": 1.278290867805481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6087101622729034,
      "compression/movement_sparsity/importance_threshold": -0.0025395277363828633,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6087106807726708,
      "compression/movement_sparsity/model_sparsity": 0.5877995962750431,
      "compression_loss": 65.14047241210938,
      "distillation_loss": 2.2109224796295166,
      "epoch": 2.81,
      "learning_rate": 4.515967438948028e-05,
      "loss": 67.1704,
      "step": 3321,
      "task_loss": 1.1743412017822266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6091618242187513,
      "compression/movement_sparsity/importance_threshold": -0.002536596384918149,
      "compression/movement_sparsity/linear_layer_sparsity": 0.609198629636498,
      "compression/movement_sparsity/model_sparsity": 0.5882707825942914,
      "compression_loss": 65.1883316040039,
      "distillation_loss": 1.761135220527649,
      "epoch": 2.81,
      "learning_rate": 4.515654351909831e-05,
      "loss": 67.3614,
      "step": 3322,
      "task_loss": 0.6446425318717957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6096131384648894,
      "compression/movement_sparsity/importance_threshold": -0.002533667290074925,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6098233129306055,
      "compression/movement_sparsity/model_sparsity": 0.5888740060954959,
      "compression_loss": 65.23612213134766,
      "distillation_loss": 2.108562469482422,
      "epoch": 2.81,
      "learning_rate": 4.515341264871635e-05,
      "loss": 67.5977,
      "step": 3323,
      "task_loss": 0.8072481751441956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.610064105145202,
      "compression/movement_sparsity/importance_threshold": -0.002530740450984263,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6103211827019057,
      "compression/movement_sparsity/model_sparsity": 0.5893547725085253,
      "compression_loss": 65.28392028808594,
      "distillation_loss": 2.2579593658447266,
      "epoch": 2.81,
      "learning_rate": 4.515028177833438e-05,
      "loss": 67.8732,
      "step": 3324,
      "task_loss": 0.8080736398696899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.610514724393575,
      "compression/movement_sparsity/importance_threshold": -0.0025278158667772247,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6109300545497282,
      "compression/movement_sparsity/model_sparsity": 0.5899427277352661,
      "compression_loss": 65.33168029785156,
      "distillation_loss": 1.5418342351913452,
      "epoch": 2.81,
      "learning_rate": 4.5147150907952414e-05,
      "loss": 67.5141,
      "step": 3325,
      "task_loss": 1.0486868619918823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6109649963438932,
      "compression/movement_sparsity/importance_threshold": -0.0025248935365848775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6114967029199521,
      "compression/movement_sparsity/model_sparsity": 0.5904899099907586,
      "compression_loss": 65.37944793701172,
      "distillation_loss": 1.6398122310638428,
      "epoch": 2.81,
      "learning_rate": 4.5144020037570446e-05,
      "loss": 67.2822,
      "step": 3326,
      "task_loss": 1.0372564792633057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6114149211300417,
      "compression/movement_sparsity/importance_threshold": -0.0025219734595382896,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6121462719519156,
      "compression/movement_sparsity/model_sparsity": 0.5911171643281662,
      "compression_loss": 65.4271469116211,
      "distillation_loss": 2.349372386932373,
      "epoch": 2.81,
      "learning_rate": 4.5140889167188485e-05,
      "loss": 67.9803,
      "step": 3327,
      "task_loss": 0.5977610349655151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6118644988859057,
      "compression/movement_sparsity/importance_threshold": -0.002519055634768525,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6126322771764181,
      "compression/movement_sparsity/model_sparsity": 0.59158647377808,
      "compression_loss": 65.47483825683594,
      "distillation_loss": 3.3992466926574707,
      "epoch": 2.81,
      "learning_rate": 4.5137758296806516e-05,
      "loss": 68.0094,
      "step": 3328,
      "task_loss": 2.638631820678711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6123137297453702,
      "compression/movement_sparsity/importance_threshold": -0.0025161400614066506,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6130956264824126,
      "compression/movement_sparsity/model_sparsity": 0.5920339056099844,
      "compression_loss": 65.5224838256836,
      "distillation_loss": 3.237884044647217,
      "epoch": 2.81,
      "learning_rate": 4.513462742642455e-05,
      "loss": 68.136,
      "step": 3329,
      "task_loss": 2.4843153953552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.612762613842321,
      "compression/movement_sparsity/importance_threshold": -0.0025132267385837284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6135781975466359,
      "compression/movement_sparsity/model_sparsity": 0.5924998988735893,
      "compression_loss": 65.5700912475586,
      "distillation_loss": 2.353095531463623,
      "epoch": 2.81,
      "learning_rate": 4.513149655604258e-05,
      "loss": 68.7172,
      "step": 3330,
      "task_loss": 0.9854238033294678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6132111513106422,
      "compression/movement_sparsity/importance_threshold": -0.002510315665430832,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6142397026704031,
      "compression/movement_sparsity/model_sparsity": 0.5931386792613274,
      "compression_loss": 65.61764526367188,
      "distillation_loss": 2.156468152999878,
      "epoch": 2.82,
      "learning_rate": 4.512836568566062e-05,
      "loss": 68.0464,
      "step": 3331,
      "task_loss": 1.1377259492874146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6136593422842198,
      "compression/movement_sparsity/importance_threshold": -0.002507406841079021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6146253064034116,
      "compression/movement_sparsity/model_sparsity": 0.5935110363198511,
      "compression_loss": 65.66515350341797,
      "distillation_loss": 3.6997361183166504,
      "epoch": 2.82,
      "learning_rate": 4.512523481527865e-05,
      "loss": 67.9997,
      "step": 3332,
      "task_loss": 2.392578601837158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6141071868969384,
      "compression/movement_sparsity/importance_threshold": -0.0025045002646593645,
      "compression/movement_sparsity/linear_layer_sparsity": 0.615179458245953,
      "compression/movement_sparsity/model_sparsity": 0.5940461513418309,
      "compression_loss": 65.7126235961914,
      "distillation_loss": 2.4800405502319336,
      "epoch": 2.82,
      "learning_rate": 4.512210394489668e-05,
      "loss": 68.4851,
      "step": 3333,
      "task_loss": 1.9120572805404663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6145546852826838,
      "compression/movement_sparsity/importance_threshold": -0.002501595935302927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.615916383730017,
      "compression/movement_sparsity/model_sparsity": 0.5947577611684693,
      "compression_loss": 65.76007843017578,
      "distillation_loss": 3.027963638305664,
      "epoch": 2.82,
      "learning_rate": 4.511897307451472e-05,
      "loss": 68.8428,
      "step": 3334,
      "task_loss": 1.814387559890747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6150018375753401,
      "compression/movement_sparsity/importance_threshold": -0.002498693852140777,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6164737908703231,
      "compression/movement_sparsity/model_sparsity": 0.5952960196587209,
      "compression_loss": 65.80747985839844,
      "distillation_loss": 2.1184163093566895,
      "epoch": 2.82,
      "learning_rate": 4.511584220413275e-05,
      "loss": 68.2002,
      "step": 3335,
      "task_loss": 2.2674639225006104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6154486439087934,
      "compression/movement_sparsity/importance_threshold": -0.002495794014303978,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6170730399148634,
      "compression/movement_sparsity/model_sparsity": 0.5958746826550756,
      "compression_loss": 65.85484313964844,
      "distillation_loss": 3.841496467590332,
      "epoch": 2.82,
      "learning_rate": 4.5112711333750784e-05,
      "loss": 68.8505,
      "step": 3336,
      "task_loss": 1.742767095565796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6158951044169283,
      "compression/movement_sparsity/importance_threshold": -0.002492896420923597,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6176232687062526,
      "compression/movement_sparsity/model_sparsity": 0.5964060093947788,
      "compression_loss": 65.90219116210938,
      "distillation_loss": 2.8821778297424316,
      "epoch": 2.82,
      "learning_rate": 4.5109580463368816e-05,
      "loss": 68.4274,
      "step": 3337,
      "task_loss": 1.1648426055908203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6163412192336302,
      "compression/movement_sparsity/importance_threshold": -0.0024900010711307007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6182564897043875,
      "compression/movement_sparsity/model_sparsity": 0.5970174773036121,
      "compression_loss": 65.94950866699219,
      "distillation_loss": 3.5515241622924805,
      "epoch": 2.82,
      "learning_rate": 4.5106449592986855e-05,
      "loss": 68.8353,
      "step": 3338,
      "task_loss": 2.145876169204712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6167869884927843,
      "compression/movement_sparsity/importance_threshold": -0.002487107964056352,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6188055141548455,
      "compression/movement_sparsity/model_sparsity": 0.5975476410752002,
      "compression_loss": 65.99678039550781,
      "distillation_loss": 2.3007700443267822,
      "epoch": 2.82,
      "learning_rate": 4.5103318722604886e-05,
      "loss": 68.3515,
      "step": 3339,
      "task_loss": 1.3141257762908936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6172324123282753,
      "compression/movement_sparsity/importance_threshold": -0.002484217098831623,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6191195848062065,
      "compression/movement_sparsity/model_sparsity": 0.5978509224334926,
      "compression_loss": 66.04401397705078,
      "distillation_loss": 1.7962944507598877,
      "epoch": 2.82,
      "learning_rate": 4.510018785222292e-05,
      "loss": 67.9048,
      "step": 3340,
      "task_loss": 0.967883288860321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.617677490873989,
      "compression/movement_sparsity/importance_threshold": -0.002481328474587572,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6196614070594125,
      "compression/movement_sparsity/model_sparsity": 0.5983741314254607,
      "compression_loss": 66.0911865234375,
      "distillation_loss": 1.8133702278137207,
      "epoch": 2.82,
      "learning_rate": 4.509705698184095e-05,
      "loss": 68.4781,
      "step": 3341,
      "task_loss": 0.7095984816551208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6181222242638098,
      "compression/movement_sparsity/importance_threshold": -0.0024784420904552735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6202772903178049,
      "compression/movement_sparsity/model_sparsity": 0.5989688571992487,
      "compression_loss": 66.13832092285156,
      "distillation_loss": 2.9005703926086426,
      "epoch": 2.82,
      "learning_rate": 4.509392611145899e-05,
      "loss": 68.4529,
      "step": 3342,
      "task_loss": 1.4843125343322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6185666126316237,
      "compression/movement_sparsity/importance_threshold": -0.002475557945565785,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6206990123545824,
      "compression/movement_sparsity/model_sparsity": 0.5993760917866943,
      "compression_loss": 66.18545532226562,
      "distillation_loss": 3.5570082664489746,
      "epoch": 2.83,
      "learning_rate": 4.509079524107702e-05,
      "loss": 68.7283,
      "step": 3343,
      "task_loss": 2.6282997131347656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6190106561113149,
      "compression/movement_sparsity/importance_threshold": -0.00247267603905018,
      "compression/movement_sparsity/linear_layer_sparsity": 0.621275295452256,
      "compression/movement_sparsity/model_sparsity": 0.5999325777871086,
      "compression_loss": 66.23251342773438,
      "distillation_loss": 2.804609537124634,
      "epoch": 2.83,
      "learning_rate": 4.508766437069505e-05,
      "loss": 68.7345,
      "step": 3344,
      "task_loss": 1.1425471305847168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6194543548367692,
      "compression/movement_sparsity/importance_threshold": -0.0024697963700395197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6218356240136329,
      "compression/movement_sparsity/model_sparsity": 0.6004736573386299,
      "compression_loss": 66.279541015625,
      "distillation_loss": 2.8984150886535645,
      "epoch": 2.83,
      "learning_rate": 4.5084533500313084e-05,
      "loss": 69.4035,
      "step": 3345,
      "task_loss": 1.5465617179870605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6198977089418716,
      "compression/movement_sparsity/importance_threshold": -0.002466918937664872,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6223957737124951,
      "compression/movement_sparsity/model_sparsity": 0.6010145641721143,
      "compression_loss": 66.3265151977539,
      "distillation_loss": 2.524777889251709,
      "epoch": 2.83,
      "learning_rate": 4.508140262993112e-05,
      "loss": 69.0911,
      "step": 3346,
      "task_loss": 1.148667573928833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6203407185605072,
      "compression/movement_sparsity/importance_threshold": -0.0024640437410573023,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6230155084770339,
      "compression/movement_sparsity/model_sparsity": 0.6016130091409639,
      "compression_loss": 66.37348175048828,
      "distillation_loss": 2.693455696105957,
      "epoch": 2.83,
      "learning_rate": 4.5078271759549154e-05,
      "loss": 68.8731,
      "step": 3347,
      "task_loss": 3.222581624984741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6207833838265611,
      "compression/movement_sparsity/importance_threshold": -0.0024611707793478765,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6236262166466722,
      "compression/movement_sparsity/model_sparsity": 0.6022027376062171,
      "compression_loss": 66.4203872680664,
      "distillation_loss": 2.309046745300293,
      "epoch": 2.83,
      "learning_rate": 4.5075140889167186e-05,
      "loss": 68.6051,
      "step": 3348,
      "task_loss": 1.9122836589813232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6212257048739183,
      "compression/movement_sparsity/importance_threshold": -0.0024583000516676633,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6242127306801775,
      "compression/movement_sparsity/model_sparsity": 0.6027691030783432,
      "compression_loss": 66.46729278564453,
      "distillation_loss": 2.0430917739868164,
      "epoch": 2.83,
      "learning_rate": 4.5072010018785224e-05,
      "loss": 68.9249,
      "step": 3349,
      "task_loss": 1.514889121055603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6216676818364644,
      "compression/movement_sparsity/importance_threshold": -0.002455431557147724,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6247061408127818,
      "compression/movement_sparsity/model_sparsity": 0.6032455630549856,
      "compression_loss": 66.51416015625,
      "distillation_loss": 1.4723927974700928,
      "epoch": 2.83,
      "learning_rate": 4.5068879148403256e-05,
      "loss": 69.2952,
      "step": 3350,
      "task_loss": 1.7555503845214844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.622109314848084,
      "compression/movement_sparsity/importance_threshold": -0.0024525652949191285,
      "compression/movement_sparsity/linear_layer_sparsity": 0.625326185605679,
      "compression/movement_sparsity/model_sparsity": 0.6038443074017659,
      "compression_loss": 66.56094360351562,
      "distillation_loss": 1.8981165885925293,
      "epoch": 2.83,
      "learning_rate": 4.5065748278021295e-05,
      "loss": 68.9917,
      "step": 3351,
      "task_loss": 2.696925640106201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6225506040426627,
      "compression/movement_sparsity/importance_threshold": -0.002449701264112941,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6258381497431248,
      "compression/movement_sparsity/model_sparsity": 0.6043386839961045,
      "compression_loss": 66.60775756835938,
      "distillation_loss": 2.4088480472564697,
      "epoch": 2.83,
      "learning_rate": 4.5062617407639327e-05,
      "loss": 68.8295,
      "step": 3352,
      "task_loss": 1.4518018960952759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6229915495540852,
      "compression/movement_sparsity/importance_threshold": -0.002446839463860229,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6263611079631308,
      "compression/movement_sparsity/model_sparsity": 0.6048436769924457,
      "compression_loss": 66.65449523925781,
      "distillation_loss": 3.2394330501556396,
      "epoch": 2.83,
      "learning_rate": 4.505948653725736e-05,
      "loss": 69.1934,
      "step": 3353,
      "task_loss": 2.0733425617218018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6234321515162371,
      "compression/movement_sparsity/importance_threshold": -0.0024439798932920564,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6268783187343364,
      "compression/movement_sparsity/model_sparsity": 0.6053431199825339,
      "compression_loss": 66.70115661621094,
      "distillation_loss": 2.4981770515441895,
      "epoch": 2.83,
      "learning_rate": 4.50563556668754e-05,
      "loss": 69.6173,
      "step": 3354,
      "task_loss": 2.0500218868255615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6238724100630031,
      "compression/movement_sparsity/importance_threshold": -0.0024411225515394916,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6272731517730951,
      "compression/movement_sparsity/model_sparsity": 0.6057243892917626,
      "compression_loss": 66.74784851074219,
      "distillation_loss": 1.9185802936553955,
      "epoch": 2.84,
      "learning_rate": 4.505322479649343e-05,
      "loss": 68.9075,
      "step": 3355,
      "task_loss": 1.0085738897323608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6243123253282686,
      "compression/movement_sparsity/importance_threshold": -0.0024382674377335994,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6279491924572104,
      "compression/movement_sparsity/model_sparsity": 0.6063772058986342,
      "compression_loss": 66.79450988769531,
      "distillation_loss": 3.268648147583008,
      "epoch": 2.84,
      "learning_rate": 4.505009392611146e-05,
      "loss": 69.5292,
      "step": 3356,
      "task_loss": 1.997754454612732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6247518974459187,
      "compression/movement_sparsity/importance_threshold": -0.0024354145510054456,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6285711451169294,
      "compression/movement_sparsity/model_sparsity": 0.6069777925711416,
      "compression_loss": 66.8410873413086,
      "distillation_loss": 4.033229351043701,
      "epoch": 2.84,
      "learning_rate": 4.50469630557295e-05,
      "loss": 69.6263,
      "step": 3357,
      "task_loss": 2.2072455883026123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6251911265498385,
      "compression/movement_sparsity/importance_threshold": -0.0024325638904860968,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6290387036540992,
      "compression/movement_sparsity/model_sparsity": 0.6074292890341814,
      "compression_loss": 66.88763427734375,
      "distillation_loss": 3.5038914680480957,
      "epoch": 2.84,
      "learning_rate": 4.504383218534753e-05,
      "loss": 69.1605,
      "step": 3358,
      "task_loss": 2.593931198120117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6256300127739135,
      "compression/movement_sparsity/importance_threshold": -0.0024297154553066178,
      "compression/movement_sparsity/linear_layer_sparsity": 0.629613734714171,
      "compression/movement_sparsity/model_sparsity": 0.6079845660083373,
      "compression_loss": 66.93414306640625,
      "distillation_loss": 1.6820124387741089,
      "epoch": 2.84,
      "learning_rate": 4.504070131496556e-05,
      "loss": 69.2504,
      "step": 3359,
      "task_loss": 1.6749732494354248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6260685562520281,
      "compression/movement_sparsity/importance_threshold": -0.002426869244598078,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6301960275923332,
      "compression/movement_sparsity/model_sparsity": 0.6085468553347921,
      "compression_loss": 66.98056030273438,
      "distillation_loss": 2.62892484664917,
      "epoch": 2.84,
      "learning_rate": 4.50375704445836e-05,
      "loss": 69.6461,
      "step": 3360,
      "task_loss": 1.5881664752960205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6265067571180682,
      "compression/movement_sparsity/importance_threshold": -0.0024240252574915374,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6307162909504535,
      "compression/movement_sparsity/model_sparsity": 0.6090492460460437,
      "compression_loss": 67.0269775390625,
      "distillation_loss": 3.1931281089782715,
      "epoch": 2.84,
      "learning_rate": 4.503443957420163e-05,
      "loss": 70.0843,
      "step": 3361,
      "task_loss": 1.3010594844818115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6269446155059183,
      "compression/movement_sparsity/importance_threshold": -0.0024211834931180693,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6312275873345117,
      "compression/movement_sparsity/model_sparsity": 0.6095429778263778,
      "compression_loss": 67.07335662841797,
      "distillation_loss": 2.3143818378448486,
      "epoch": 2.84,
      "learning_rate": 4.5031308703819665e-05,
      "loss": 69.5785,
      "step": 3362,
      "task_loss": 1.0440067052841187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6273821315494641,
      "compression/movement_sparsity/importance_threshold": -0.002418343950608734,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6318411573043826,
      "compression/movement_sparsity/model_sparsity": 0.6101354697802217,
      "compression_loss": 67.11967468261719,
      "distillation_loss": 1.7654224634170532,
      "epoch": 2.84,
      "learning_rate": 4.5028177833437696e-05,
      "loss": 70.3491,
      "step": 3363,
      "task_loss": 0.8969709873199463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6278193053825902,
      "compression/movement_sparsity/importance_threshold": -0.0024155066290946006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.632386568732047,
      "compression/movement_sparsity/model_sparsity": 0.610662144647464,
      "compression_loss": 67.1659927368164,
      "distillation_loss": 3.959557294845581,
      "epoch": 2.84,
      "learning_rate": 4.5025046963055735e-05,
      "loss": 70.177,
      "step": 3364,
      "task_loss": 2.481288433074951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6282561371391822,
      "compression/movement_sparsity/importance_threshold": -0.002412671527706735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.632972367315494,
      "compression/movement_sparsity/model_sparsity": 0.6112278192474424,
      "compression_loss": 67.21223449707031,
      "distillation_loss": 2.198829174041748,
      "epoch": 2.84,
      "learning_rate": 4.502191609267377e-05,
      "loss": 70.1771,
      "step": 3365,
      "task_loss": 2.3124141693115234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.628692626953125,
      "compression/movement_sparsity/importance_threshold": -0.002409838645576201,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6335552683262056,
      "compression/movement_sparsity/model_sparsity": 0.6117906958152227,
      "compression_loss": 67.25849151611328,
      "distillation_loss": 2.8211686611175537,
      "epoch": 2.84,
      "learning_rate": 4.50187852222918e-05,
      "loss": 69.625,
      "step": 3366,
      "task_loss": 2.5853967666625977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6291287749583039,
      "compression/movement_sparsity/importance_threshold": -0.0024070079818340664,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6339928137334359,
      "compression/movement_sparsity/model_sparsity": 0.6122132101916676,
      "compression_loss": 67.30467224121094,
      "distillation_loss": 2.827392816543579,
      "epoch": 2.85,
      "learning_rate": 4.501565435190983e-05,
      "loss": 70.7641,
      "step": 3367,
      "task_loss": 1.5864144563674927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6295645812886038,
      "compression/movement_sparsity/importance_threshold": -0.0024041795356113975,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6344391472522138,
      "compression/movement_sparsity/model_sparsity": 0.6126442107809931,
      "compression_loss": 67.35089874267578,
      "distillation_loss": 1.929840326309204,
      "epoch": 2.85,
      "learning_rate": 4.501252348152787e-05,
      "loss": 70.4176,
      "step": 3368,
      "task_loss": 1.6096135377883911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6300000460779098,
      "compression/movement_sparsity/importance_threshold": -0.002401353306039261,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6350846501430137,
      "compression/movement_sparsity/model_sparsity": 0.6132675386616947,
      "compression_loss": 67.39704895019531,
      "distillation_loss": 1.6094059944152832,
      "epoch": 2.85,
      "learning_rate": 4.50093926111459e-05,
      "loss": 70.1524,
      "step": 3369,
      "task_loss": 1.0032832622528076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6304351694601077,
      "compression/movement_sparsity/importance_threshold": -0.002398529292248719,
      "compression/movement_sparsity/linear_layer_sparsity": 0.635456672249085,
      "compression/movement_sparsity/model_sparsity": 0.6136267806639486,
      "compression_loss": 67.44315338134766,
      "distillation_loss": 2.0946664810180664,
      "epoch": 2.85,
      "learning_rate": 4.500626174076393e-05,
      "loss": 69.6689,
      "step": 3370,
      "task_loss": 1.346983790397644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6308699515690818,
      "compression/movement_sparsity/importance_threshold": -0.002395707493370843,
      "compression/movement_sparsity/linear_layer_sparsity": 0.636117724254482,
      "compression/movement_sparsity/model_sparsity": 0.6142651234993264,
      "compression_loss": 67.48924255371094,
      "distillation_loss": 2.282266616821289,
      "epoch": 2.85,
      "learning_rate": 4.500313087038197e-05,
      "loss": 69.7781,
      "step": 3371,
      "task_loss": 2.173170804977417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6313043925387178,
      "compression/movement_sparsity/importance_threshold": -0.0023928879085366945,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6367024854353447,
      "compression/movement_sparsity/model_sparsity": 0.6148297963346907,
      "compression_loss": 67.5352783203125,
      "distillation_loss": 2.8902149200439453,
      "epoch": 2.85,
      "learning_rate": 4.5e-05,
      "loss": 70.3861,
      "step": 3372,
      "task_loss": 1.3072479963302612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6317384925029005,
      "compression/movement_sparsity/importance_threshold": -0.002390070536877343,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6373444706966919,
      "compression/movement_sparsity/model_sparsity": 0.615449727427333,
      "compression_loss": 67.5813217163086,
      "distillation_loss": 2.775595188140869,
      "epoch": 2.85,
      "learning_rate": 4.4996869129618035e-05,
      "loss": 69.6583,
      "step": 3373,
      "task_loss": 1.9536257982254028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6321722515955155,
      "compression/movement_sparsity/importance_threshold": -0.0023872553775238503,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6378270894575858,
      "compression/movement_sparsity/model_sparsity": 0.6159157667490812,
      "compression_loss": 67.62728118896484,
      "distillation_loss": 2.2821874618530273,
      "epoch": 2.85,
      "learning_rate": 4.4993738259236066e-05,
      "loss": 70.2598,
      "step": 3374,
      "task_loss": 1.5996285676956177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6326056699504472,
      "compression/movement_sparsity/importance_threshold": -0.0023844424296072878,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6384006299967032,
      "compression/movement_sparsity/model_sparsity": 0.6164696044062629,
      "compression_loss": 67.67321014404297,
      "distillation_loss": 4.128964424133301,
      "epoch": 2.85,
      "learning_rate": 4.4990607388854105e-05,
      "loss": 70.0235,
      "step": 3375,
      "task_loss": 2.488783836364746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6330387477015813,
      "compression/movement_sparsity/importance_threshold": -0.0023816316922587177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6390497578344643,
      "compression/movement_sparsity/model_sparsity": 0.617096432705846,
      "compression_loss": 67.7190933227539,
      "distillation_loss": 2.0634894371032715,
      "epoch": 2.85,
      "learning_rate": 4.498747651847214e-05,
      "loss": 70.2092,
      "step": 3376,
      "task_loss": 1.77255380153656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6334714849828029,
      "compression/movement_sparsity/importance_threshold": -0.002378823164609207,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6395900299458777,
      "compression/movement_sparsity/model_sparsity": 0.6176181448081609,
      "compression_loss": 67.76494598388672,
      "distillation_loss": 3.531494140625,
      "epoch": 2.85,
      "learning_rate": 4.498434564809017e-05,
      "loss": 70.7812,
      "step": 3377,
      "task_loss": 2.050262212753296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6339038819279967,
      "compression/movement_sparsity/importance_threshold": -0.0023760168457898235,
      "compression/movement_sparsity/linear_layer_sparsity": 0.64008743467464,
      "compression/movement_sparsity/model_sparsity": 0.6180984621542943,
      "compression_loss": 67.81076049804688,
      "distillation_loss": 1.9626085758209229,
      "epoch": 2.85,
      "learning_rate": 4.49812147777082e-05,
      "loss": 69.8193,
      "step": 3378,
      "task_loss": 0.764014720916748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6343359386710488,
      "compression/movement_sparsity/importance_threshold": -0.002373212734931629,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6408018473302075,
      "compression/movement_sparsity/model_sparsity": 0.6187883325373527,
      "compression_loss": 67.85653686523438,
      "distillation_loss": 2.856372833251953,
      "epoch": 2.86,
      "learning_rate": 4.497808390732624e-05,
      "loss": 70.3695,
      "step": 3379,
      "task_loss": 2.345726490020752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6347676553458432,
      "compression/movement_sparsity/importance_threshold": -0.0023704108311656943,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6412526285635136,
      "compression/movement_sparsity/model_sparsity": 0.6192236280485295,
      "compression_loss": 67.90226745605469,
      "distillation_loss": 1.8635663986206055,
      "epoch": 2.86,
      "learning_rate": 4.497495303694427e-05,
      "loss": 70.2566,
      "step": 3380,
      "task_loss": 1.1365408897399902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6351990320862659,
      "compression/movement_sparsity/importance_threshold": -0.0023676111336230817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6418544055315928,
      "compression/movement_sparsity/model_sparsity": 0.6198047321264726,
      "compression_loss": 67.94792938232422,
      "distillation_loss": 3.010016918182373,
      "epoch": 2.86,
      "learning_rate": 4.49718221665623e-05,
      "loss": 70.3348,
      "step": 3381,
      "task_loss": 1.842218041419983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6356300690262014,
      "compression/movement_sparsity/importance_threshold": -0.0023648136414348604,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6425611986440409,
      "compression/movement_sparsity/model_sparsity": 0.6204872447211582,
      "compression_loss": 67.99358367919922,
      "distillation_loss": 2.601419687271118,
      "epoch": 2.86,
      "learning_rate": 4.496869129618034e-05,
      "loss": 70.1476,
      "step": 3382,
      "task_loss": 1.9611475467681885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6360607662995356,
      "compression/movement_sparsity/importance_threshold": -0.0023620183537320927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6430102389488722,
      "compression/movement_sparsity/model_sparsity": 0.620920859110109,
      "compression_loss": 68.03917694091797,
      "distillation_loss": 1.8188140392303467,
      "epoch": 2.86,
      "learning_rate": 4.496556042579837e-05,
      "loss": 70.1492,
      "step": 3383,
      "task_loss": 0.8573347330093384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6364911240401527,
      "compression/movement_sparsity/importance_threshold": -0.0023592252696458494,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6436239520087548,
      "compression/movement_sparsity/model_sparsity": 0.6215134892383825,
      "compression_loss": 68.08475494384766,
      "distillation_loss": 2.4977173805236816,
      "epoch": 2.86,
      "learning_rate": 4.4962429555416405e-05,
      "loss": 70.7079,
      "step": 3384,
      "task_loss": 2.1968324184417725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6369211423819386,
      "compression/movement_sparsity/importance_threshold": -0.002356434388307192,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6440064196856752,
      "compression/movement_sparsity/model_sparsity": 0.6218828179739924,
      "compression_loss": 68.1302719116211,
      "distillation_loss": 1.9991624355316162,
      "epoch": 2.86,
      "learning_rate": 4.495929868503444e-05,
      "loss": 70.5471,
      "step": 3385,
      "task_loss": 1.0663713216781616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6373508214587782,
      "compression/movement_sparsity/importance_threshold": -0.002353645708847189,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6445695146539435,
      "compression/movement_sparsity/model_sparsity": 0.6224265688978179,
      "compression_loss": 68.17575073242188,
      "distillation_loss": 2.1396641731262207,
      "epoch": 2.86,
      "learning_rate": 4.4956167814652475e-05,
      "loss": 70.474,
      "step": 3386,
      "task_loss": 1.3780348300933838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6377801614045565,
      "compression/movement_sparsity/importance_threshold": -0.0023508592303969067,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6450430471990989,
      "compression/movement_sparsity/model_sparsity": 0.6228838341432907,
      "compression_loss": 68.2212142944336,
      "distillation_loss": 3.2690134048461914,
      "epoch": 2.86,
      "learning_rate": 4.4953036944270513e-05,
      "loss": 71.3805,
      "step": 3387,
      "task_loss": 2.6652543544769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6382091623531588,
      "compression/movement_sparsity/importance_threshold": -0.00234807495208741,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6455895198776829,
      "compression/movement_sparsity/model_sparsity": 0.6234115338042188,
      "compression_loss": 68.26666259765625,
      "distillation_loss": 1.6910722255706787,
      "epoch": 2.86,
      "learning_rate": 4.4949906073888545e-05,
      "loss": 70.8578,
      "step": 3388,
      "task_loss": 1.295515537261963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6386378244384701,
      "compression/movement_sparsity/importance_threshold": -0.002345292873049766,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6462264731402877,
      "compression/movement_sparsity/model_sparsity": 0.6240266057627557,
      "compression_loss": 68.31204223632812,
      "distillation_loss": 3.0106186866760254,
      "epoch": 2.86,
      "learning_rate": 4.494677520350658e-05,
      "loss": 71.5362,
      "step": 3389,
      "task_loss": 1.9969996213912964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6390661477943758,
      "compression/movement_sparsity/importance_threshold": -0.0023425129924150388,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6467193466853485,
      "compression/movement_sparsity/model_sparsity": 0.6245025475852872,
      "compression_loss": 68.35741424560547,
      "distillation_loss": 2.808363914489746,
      "epoch": 2.87,
      "learning_rate": 4.4943644333124616e-05,
      "loss": 70.9102,
      "step": 3390,
      "task_loss": 2.0040805339813232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6394941325547607,
      "compression/movement_sparsity/importance_threshold": -0.0023397353093142963,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6472568762382056,
      "compression/movement_sparsity/model_sparsity": 0.6250216113443694,
      "compression_loss": 68.4027328491211,
      "distillation_loss": 3.106311082839966,
      "epoch": 2.87,
      "learning_rate": 4.494051346274265e-05,
      "loss": 70.959,
      "step": 3391,
      "task_loss": 1.7947921752929688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6399217788535103,
      "compression/movement_sparsity/importance_threshold": -0.0023369598228786034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6477334017494376,
      "compression/movement_sparsity/model_sparsity": 0.6254817667383266,
      "compression_loss": 68.447998046875,
      "distillation_loss": 2.161774158477783,
      "epoch": 2.87,
      "learning_rate": 4.493738259236068e-05,
      "loss": 71.1963,
      "step": 3392,
      "task_loss": 1.8395476341247559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6403490868245094,
      "compression/movement_sparsity/importance_threshold": -0.0023341865322390274,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6483543408549075,
      "compression/movement_sparsity/model_sparsity": 0.6260813746752916,
      "compression_loss": 68.49327850341797,
      "distillation_loss": 3.031536340713501,
      "epoch": 2.87,
      "learning_rate": 4.493425172197871e-05,
      "loss": 71.4443,
      "step": 3393,
      "task_loss": 1.4873019456863403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6407760566016435,
      "compression/movement_sparsity/importance_threshold": -0.0023314154365266324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6488712773702574,
      "compression/movement_sparsity/model_sparsity": 0.6265805528310565,
      "compression_loss": 68.53851318359375,
      "distillation_loss": 1.5267701148986816,
      "epoch": 2.87,
      "learning_rate": 4.493112085159675e-05,
      "loss": 70.9565,
      "step": 3394,
      "task_loss": 0.76805579662323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6412026883187972,
      "compression/movement_sparsity/importance_threshold": -0.0023286465348724885,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6493846962561548,
      "compression/movement_sparsity/model_sparsity": 0.627076334198762,
      "compression_loss": 68.58367156982422,
      "distillation_loss": 2.982058525085449,
      "epoch": 2.87,
      "learning_rate": 4.492798998121478e-05,
      "loss": 71.5202,
      "step": 3395,
      "task_loss": 1.4707194566726685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6416289821098562,
      "compression/movement_sparsity/importance_threshold": -0.002325879826407657,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6499466345801624,
      "compression/movement_sparsity/model_sparsity": 0.6276189682126155,
      "compression_loss": 68.62882995605469,
      "distillation_loss": 2.8209359645843506,
      "epoch": 2.87,
      "learning_rate": 4.492485911083281e-05,
      "loss": 72.406,
      "step": 3396,
      "task_loss": 1.6325701475143433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6420549381087054,
      "compression/movement_sparsity/importance_threshold": -0.0023231153102632055,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6504521477429173,
      "compression/movement_sparsity/model_sparsity": 0.6281071154430893,
      "compression_loss": 68.67396545410156,
      "distillation_loss": 4.183990955352783,
      "epoch": 2.87,
      "learning_rate": 4.492172824045085e-05,
      "loss": 71.5157,
      "step": 3397,
      "task_loss": 1.7056059837341309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6424805564492297,
      "compression/movement_sparsity/importance_threshold": -0.002320352985570202,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6509831190035745,
      "compression/movement_sparsity/model_sparsity": 0.6286198462074845,
      "compression_loss": 68.71900177001953,
      "distillation_loss": 3.341855049133301,
      "epoch": 2.87,
      "learning_rate": 4.491859737006888e-05,
      "loss": 71.5725,
      "step": 3398,
      "task_loss": 2.2298405170440674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.642905837265315,
      "compression/movement_sparsity/importance_threshold": -0.0023175928514597086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6515089747963161,
      "compression/movement_sparsity/model_sparsity": 0.6291276372360236,
      "compression_loss": 68.7640609741211,
      "distillation_loss": 2.6204099655151367,
      "epoch": 2.87,
      "learning_rate": 4.4915466499686915e-05,
      "loss": 70.7993,
      "step": 3399,
      "task_loss": 1.6781377792358398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6433307806908455,
      "compression/movement_sparsity/importance_threshold": -0.0023148349070627964,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6519463532651996,
      "compression/movement_sparsity/model_sparsity": 0.6295499904089674,
      "compression_loss": 68.80907440185547,
      "distillation_loss": 2.452299118041992,
      "epoch": 2.87,
      "learning_rate": 4.491233562930495e-05,
      "loss": 71.4413,
      "step": 3400,
      "task_loss": 1.9522731304168701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6437553868597072,
      "compression/movement_sparsity/importance_threshold": -0.0023120791515105254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6524792323926787,
      "compression/movement_sparsity/model_sparsity": 0.6300645634990897,
      "compression_loss": 68.85404968261719,
      "distillation_loss": 2.6115052700042725,
      "epoch": 2.87,
      "learning_rate": 4.4909204758922985e-05,
      "loss": 71.2059,
      "step": 3401,
      "task_loss": 1.4788455963134766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6441796559057844,
      "compression/movement_sparsity/importance_threshold": -0.002309325583933968,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6531279786570754,
      "compression/movement_sparsity/model_sparsity": 0.6306910233335274,
      "compression_loss": 68.89892578125,
      "distillation_loss": 3.0341787338256836,
      "epoch": 2.88,
      "learning_rate": 4.490607388854102e-05,
      "loss": 71.9553,
      "step": 3402,
      "task_loss": 1.9828135967254639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.644603587962963,
      "compression/movement_sparsity/importance_threshold": -0.002306574203464185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6537347041547235,
      "compression/movement_sparsity/model_sparsity": 0.6312769059438252,
      "compression_loss": 68.94383239746094,
      "distillation_loss": 2.70613169670105,
      "epoch": 2.88,
      "learning_rate": 4.490294301815905e-05,
      "loss": 71.4442,
      "step": 3403,
      "task_loss": 2.2430622577667236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6450271831651275,
      "compression/movement_sparsity/importance_threshold": -0.0023038250092322467,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6543468074519752,
      "compression/movement_sparsity/model_sparsity": 0.6318679816097664,
      "compression_loss": 68.98863983154297,
      "distillation_loss": 2.194183349609375,
      "epoch": 2.88,
      "learning_rate": 4.489981214777708e-05,
      "loss": 70.9935,
      "step": 3404,
      "task_loss": 1.800029993057251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6454504416461635,
      "compression/movement_sparsity/importance_threshold": -0.0023010780003692157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.654818360585303,
      "compression/movement_sparsity/model_sparsity": 0.6323233354422974,
      "compression_loss": 69.03343200683594,
      "distillation_loss": 3.737919330596924,
      "epoch": 2.88,
      "learning_rate": 4.489668127739512e-05,
      "loss": 72.4726,
      "step": 3405,
      "task_loss": 2.126943826675415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6458733635399561,
      "compression/movement_sparsity/importance_threshold": -0.00229833317600616,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6553046996864993,
      "compression/movement_sparsity/model_sparsity": 0.6327929672992134,
      "compression_loss": 69.07816314697266,
      "distillation_loss": 2.2461514472961426,
      "epoch": 2.88,
      "learning_rate": 4.489355040701315e-05,
      "loss": 71.3879,
      "step": 3406,
      "task_loss": 1.5593235492706299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6462959489803901,
      "compression/movement_sparsity/importance_threshold": -0.0022955905352741446,
      "compression/movement_sparsity/linear_layer_sparsity": 0.655667277851803,
      "compression/movement_sparsity/model_sparsity": 0.633143089789118,
      "compression_loss": 69.12288665771484,
      "distillation_loss": 3.868701696395874,
      "epoch": 2.88,
      "learning_rate": 4.489041953663118e-05,
      "loss": 72.515,
      "step": 3407,
      "task_loss": 1.469499945640564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.646718198101351,
      "compression/movement_sparsity/importance_threshold": -0.002292850077304236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6561557752273414,
      "compression/movement_sparsity/model_sparsity": 0.633614805777013,
      "compression_loss": 69.16754913330078,
      "distillation_loss": 3.3368217945098877,
      "epoch": 2.88,
      "learning_rate": 4.488728866624922e-05,
      "loss": 71.9615,
      "step": 3408,
      "task_loss": 2.3147497177124023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6471401110367236,
      "compression/movement_sparsity/importance_threshold": -0.002290111801227501,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6566304882650927,
      "compression/movement_sparsity/model_sparsity": 0.6340732109615295,
      "compression_loss": 69.21221160888672,
      "distillation_loss": 3.434535503387451,
      "epoch": 2.88,
      "learning_rate": 4.488415779586725e-05,
      "loss": 72.714,
      "step": 3409,
      "task_loss": 1.401450514793396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6475616879203937,
      "compression/movement_sparsity/importance_threshold": -0.0022873757061750025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6571728948025128,
      "compression/movement_sparsity/model_sparsity": 0.6345969841657516,
      "compression_loss": 69.25682067871094,
      "distillation_loss": 1.980058193206787,
      "epoch": 2.88,
      "learning_rate": 4.4881026925485285e-05,
      "loss": 71.7449,
      "step": 3410,
      "task_loss": 1.1698156595230103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6479829288862455,
      "compression/movement_sparsity/importance_threshold": -0.002284641791277812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.657599935018056,
      "compression/movement_sparsity/model_sparsity": 0.6350093542361614,
      "compression_loss": 69.30143737792969,
      "distillation_loss": 1.5256799459457397,
      "epoch": 2.88,
      "learning_rate": 4.487789605510332e-05,
      "loss": 71.98,
      "step": 3411,
      "task_loss": 0.9076328873634338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.648403834068165,
      "compression/movement_sparsity/importance_threshold": -0.00228191005566699,
      "compression/movement_sparsity/linear_layer_sparsity": 0.658170279880247,
      "compression/movement_sparsity/model_sparsity": 0.6355601059977501,
      "compression_loss": 69.34597778320312,
      "distillation_loss": 4.437154769897461,
      "epoch": 2.88,
      "learning_rate": 4.4874765184721355e-05,
      "loss": 72.1943,
      "step": 3412,
      "task_loss": 3.125509262084961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6488244036000367,
      "compression/movement_sparsity/importance_threshold": -0.0022791804984736075,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6585898674910178,
      "compression/movement_sparsity/model_sparsity": 0.6359652794832884,
      "compression_loss": 69.3905258178711,
      "distillation_loss": 2.655287504196167,
      "epoch": 2.88,
      "learning_rate": 4.487163431433939e-05,
      "loss": 72.1571,
      "step": 3413,
      "task_loss": 1.9836407899856567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6492446376157464,
      "compression/movement_sparsity/importance_threshold": -0.002276453118828725,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6590464915664656,
      "compression/movement_sparsity/model_sparsity": 0.6364062171170046,
      "compression_loss": 69.43505096435547,
      "distillation_loss": 3.517354965209961,
      "epoch": 2.89,
      "learning_rate": 4.486850344395742e-05,
      "loss": 72.6411,
      "step": 3414,
      "task_loss": 3.0586912631988525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6496645362491783,
      "compression/movement_sparsity/importance_threshold": -0.0022737279158634143,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6596695293254393,
      "compression/movement_sparsity/model_sparsity": 0.6370078516122694,
      "compression_loss": 69.47945404052734,
      "distillation_loss": 3.155996799468994,
      "epoch": 2.89,
      "learning_rate": 4.486537257357545e-05,
      "loss": 72.525,
      "step": 3415,
      "task_loss": 2.509345293045044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6500840996342183,
      "compression/movement_sparsity/importance_threshold": -0.0022710048887087378,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6601180926635652,
      "compression/movement_sparsity/model_sparsity": 0.6374410054197883,
      "compression_loss": 69.52392578125,
      "distillation_loss": 3.7616422176361084,
      "epoch": 2.89,
      "learning_rate": 4.486224170319349e-05,
      "loss": 72.0826,
      "step": 3416,
      "task_loss": 1.6629836559295654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6505033279047514,
      "compression/movement_sparsity/importance_threshold": -0.0022682840364957628,
      "compression/movement_sparsity/linear_layer_sparsity": 0.660689033734138,
      "compression/movement_sparsity/model_sparsity": 0.6379923329081668,
      "compression_loss": 69.56831359863281,
      "distillation_loss": 2.4246621131896973,
      "epoch": 2.89,
      "learning_rate": 4.485911083281152e-05,
      "loss": 72.3429,
      "step": 3417,
      "task_loss": 2.176872730255127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6509222211946627,
      "compression/movement_sparsity/importance_threshold": -0.002265565358355554,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6610667555923392,
      "compression/movement_sparsity/model_sparsity": 0.6383570788585304,
      "compression_loss": 69.61270141601562,
      "distillation_loss": 4.582287788391113,
      "epoch": 2.89,
      "learning_rate": 4.485597996242955e-05,
      "loss": 72.6946,
      "step": 3418,
      "task_loss": 2.601179361343384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6513407796378373,
      "compression/movement_sparsity/importance_threshold": -0.0022628488534191787,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6615629082834998,
      "compression/movement_sparsity/model_sparsity": 0.6388361871784055,
      "compression_loss": 69.65703582763672,
      "distillation_loss": 3.084564208984375,
      "epoch": 2.89,
      "learning_rate": 4.485284909204759e-05,
      "loss": 72.4826,
      "step": 3419,
      "task_loss": 1.5617097616195679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6517590033681602,
      "compression/movement_sparsity/importance_threshold": -0.0022601345208177036,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6619666844479855,
      "compression/movement_sparsity/model_sparsity": 0.6392260923894802,
      "compression_loss": 69.70130920410156,
      "distillation_loss": 2.3321046829223633,
      "epoch": 2.89,
      "learning_rate": 4.484971822166562e-05,
      "loss": 72.7844,
      "step": 3420,
      "task_loss": 2.1889050006866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6521768925195169,
      "compression/movement_sparsity/importance_threshold": -0.0022574223596821923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6624675710336975,
      "compression/movement_sparsity/model_sparsity": 0.6397097719800657,
      "compression_loss": 69.74561309814453,
      "distillation_loss": 2.635995864868164,
      "epoch": 2.89,
      "learning_rate": 4.484658735128366e-05,
      "loss": 72.2236,
      "step": 3421,
      "task_loss": 2.2535831928253174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6525944472257921,
      "compression/movement_sparsity/importance_threshold": -0.0022547123691437146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6630068892116999,
      "compression/movement_sparsity/model_sparsity": 0.640230562919517,
      "compression_loss": 69.789794921875,
      "distillation_loss": 4.548501968383789,
      "epoch": 2.89,
      "learning_rate": 4.4843456480901694e-05,
      "loss": 73.2014,
      "step": 3422,
      "task_loss": 2.361332893371582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6530116676208715,
      "compression/movement_sparsity/importance_threshold": -0.002252004548333332,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6635275341431847,
      "compression/movement_sparsity/model_sparsity": 0.640733322095914,
      "compression_loss": 69.83395385742188,
      "distillation_loss": 2.717738151550293,
      "epoch": 2.89,
      "learning_rate": 4.484032561051973e-05,
      "loss": 72.31,
      "step": 3423,
      "task_loss": 1.2202725410461426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6534285538386396,
      "compression/movement_sparsity/importance_threshold": -0.0022492988963821146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6640912968648406,
      "compression/movement_sparsity/model_sparsity": 0.6412777178337441,
      "compression_loss": 69.87810516357422,
      "distillation_loss": 1.92867910861969,
      "epoch": 2.89,
      "learning_rate": 4.4837194740137764e-05,
      "loss": 72.7617,
      "step": 3424,
      "task_loss": 1.3874132633209229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.653845106012982,
      "compression/movement_sparsity/importance_threshold": -0.0022465954124211264,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6647618524318434,
      "compression/movement_sparsity/model_sparsity": 0.6419252377541501,
      "compression_loss": 69.92219543457031,
      "distillation_loss": 3.5986006259918213,
      "epoch": 2.89,
      "learning_rate": 4.4834063869755796e-05,
      "loss": 72.3578,
      "step": 3425,
      "task_loss": 3.0255300998687744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6542613242777837,
      "compression/movement_sparsity/importance_threshold": -0.0022438940955814323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6652707639823744,
      "compression/movement_sparsity/model_sparsity": 0.6424166666273253,
      "compression_loss": 69.96624755859375,
      "distillation_loss": 3.467825174331665,
      "epoch": 2.9,
      "learning_rate": 4.483093299937383e-05,
      "loss": 72.8366,
      "step": 3426,
      "task_loss": 1.5931099653244019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6546772087669298,
      "compression/movement_sparsity/importance_threshold": -0.0022411949449941005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6658381993476622,
      "compression/movement_sparsity/model_sparsity": 0.6429646088421801,
      "compression_loss": 70.01026153564453,
      "distillation_loss": 2.091411590576172,
      "epoch": 2.9,
      "learning_rate": 4.4827802128991866e-05,
      "loss": 73.181,
      "step": 3427,
      "task_loss": 1.1606403589248657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6550927596143055,
      "compression/movement_sparsity/importance_threshold": -0.002238497959790197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6663934601377938,
      "compression/movement_sparsity/model_sparsity": 0.6435007947159888,
      "compression_loss": 70.05431365966797,
      "distillation_loss": 2.133512496948242,
      "epoch": 2.9,
      "learning_rate": 4.48246712586099e-05,
      "loss": 72.4935,
      "step": 3428,
      "task_loss": 1.1999799013137817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6555079769537958,
      "compression/movement_sparsity/importance_threshold": -0.002235803139100787,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6668834957309572,
      "compression/movement_sparsity/model_sparsity": 0.6439739960790012,
      "compression_loss": 70.0982666015625,
      "distillation_loss": 3.394122838973999,
      "epoch": 2.9,
      "learning_rate": 4.482154038822793e-05,
      "loss": 72.9755,
      "step": 3429,
      "task_loss": 2.196857452392578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6559228609192862,
      "compression/movement_sparsity/importance_threshold": -0.002233110482056936,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6675367135582174,
      "compression/movement_sparsity/model_sparsity": 0.6446047738643619,
      "compression_loss": 70.14221954345703,
      "distillation_loss": 2.7874722480773926,
      "epoch": 2.9,
      "learning_rate": 4.481840951784596e-05,
      "loss": 72.7271,
      "step": 3430,
      "task_loss": 1.9253556728363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6563374116446614,
      "compression/movement_sparsity/importance_threshold": -0.002230419987789711,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6679517342127836,
      "compression/movement_sparsity/model_sparsity": 0.6450055372826909,
      "compression_loss": 70.18611145019531,
      "distillation_loss": 3.235100746154785,
      "epoch": 2.9,
      "learning_rate": 4.4815278647464e-05,
      "loss": 73.0115,
      "step": 3431,
      "task_loss": 1.111924409866333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6567516292638069,
      "compression/movement_sparsity/importance_threshold": -0.0022277316554301773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6683942519979181,
      "compression/movement_sparsity/model_sparsity": 0.6454328532205621,
      "compression_loss": 70.22991180419922,
      "distillation_loss": 3.8443167209625244,
      "epoch": 2.9,
      "learning_rate": 4.481214777708203e-05,
      "loss": 73.3982,
      "step": 3432,
      "task_loss": 2.7981274127960205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6571655139106075,
      "compression/movement_sparsity/importance_threshold": -0.002225045484109403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6688004368442662,
      "compression/movement_sparsity/model_sparsity": 0.6458250843678673,
      "compression_loss": 70.27371215820312,
      "distillation_loss": 3.055354356765747,
      "epoch": 2.9,
      "learning_rate": 4.4809016906700063e-05,
      "loss": 73.1371,
      "step": 3433,
      "task_loss": 1.1091006994247437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6575790657189489,
      "compression/movement_sparsity/importance_threshold": -0.0022223614729584493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6692659444246026,
      "compression/movement_sparsity/model_sparsity": 0.6462746003307505,
      "compression_loss": 70.31751251220703,
      "distillation_loss": 4.013768672943115,
      "epoch": 2.9,
      "learning_rate": 4.48058860363181e-05,
      "loss": 73.1921,
      "step": 3434,
      "task_loss": 2.400937557220459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6579922848227153,
      "compression/movement_sparsity/importance_threshold": -0.002219679621108389,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6698191542579008,
      "compression/movement_sparsity/model_sparsity": 0.6468088057044024,
      "compression_loss": 70.36123657226562,
      "distillation_loss": 2.4899086952209473,
      "epoch": 2.9,
      "learning_rate": 4.4802755165936134e-05,
      "loss": 72.7923,
      "step": 3435,
      "task_loss": 1.623915672302246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6584051713557927,
      "compression/movement_sparsity/importance_threshold": -0.002216999927690284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6701937639083492,
      "compression/movement_sparsity/model_sparsity": 0.6471705463609236,
      "compression_loss": 70.40487670898438,
      "distillation_loss": 3.5528042316436768,
      "epoch": 2.9,
      "learning_rate": 4.4799624295554166e-05,
      "loss": 73.1294,
      "step": 3436,
      "task_loss": 2.0518741607666016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.658817725452066,
      "compression/movement_sparsity/importance_threshold": -0.002214322391835199,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6706231651090842,
      "compression/movement_sparsity/model_sparsity": 0.6475851963094209,
      "compression_loss": 70.448486328125,
      "distillation_loss": 1.562474250793457,
      "epoch": 2.9,
      "learning_rate": 4.47964934251722e-05,
      "loss": 72.7367,
      "step": 3437,
      "task_loss": 1.2675844430923462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6592299472454202,
      "compression/movement_sparsity/importance_threshold": -0.0022116470126742034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6711004060703744,
      "compression/movement_sparsity/model_sparsity": 0.6480460425755258,
      "compression_loss": 70.49211883544922,
      "distillation_loss": 1.9307608604431152,
      "epoch": 2.91,
      "learning_rate": 4.4793362554790236e-05,
      "loss": 72.8061,
      "step": 3438,
      "task_loss": 1.223360300064087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6596418368697405,
      "compression/movement_sparsity/importance_threshold": -0.0022089737893383615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6716184276849791,
      "compression/movement_sparsity/model_sparsity": 0.648546268554048,
      "compression_loss": 70.53563690185547,
      "distillation_loss": 3.523749351501465,
      "epoch": 2.91,
      "learning_rate": 4.479023168440827e-05,
      "loss": 73.1677,
      "step": 3439,
      "task_loss": 4.739435195922852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.660053394458912,
      "compression/movement_sparsity/importance_threshold": -0.002206302720958741,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6721127202059886,
      "compression/movement_sparsity/model_sparsity": 0.6490235806063391,
      "compression_loss": 70.57917785644531,
      "distillation_loss": 3.1801705360412598,
      "epoch": 2.91,
      "learning_rate": 4.47871008140263e-05,
      "loss": 73.27,
      "step": 3440,
      "task_loss": 1.83657705783844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6604646201468201,
      "compression/movement_sparsity/importance_threshold": -0.0022036338066664055,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6724696940125034,
      "compression/movement_sparsity/model_sparsity": 0.6493682912644203,
      "compression_loss": 70.62262725830078,
      "distillation_loss": 2.4999682903289795,
      "epoch": 2.91,
      "learning_rate": 4.478396994364433e-05,
      "loss": 73.2169,
      "step": 3441,
      "task_loss": 1.9320176839828491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6608755140673495,
      "compression/movement_sparsity/importance_threshold": -0.002200967045592423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6728559297263966,
      "compression/movement_sparsity/model_sparsity": 0.6497412585933412,
      "compression_loss": 70.66606140136719,
      "distillation_loss": 2.2819700241088867,
      "epoch": 2.91,
      "learning_rate": 4.478083907326237e-05,
      "loss": 73.3376,
      "step": 3442,
      "task_loss": 0.8913378715515137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.661286076354386,
      "compression/movement_sparsity/importance_threshold": -0.002198302436867856,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6732112579977777,
      "compression/movement_sparsity/model_sparsity": 0.6500843802454828,
      "compression_loss": 70.70951080322266,
      "distillation_loss": 3.341846227645874,
      "epoch": 2.91,
      "learning_rate": 4.47777082028804e-05,
      "loss": 74.2611,
      "step": 3443,
      "task_loss": 1.9620729684829712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6616963071418138,
      "compression/movement_sparsity/importance_threshold": -0.0021956399796237763,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6736784826582537,
      "compression/movement_sparsity/model_sparsity": 0.6505355543015202,
      "compression_loss": 70.75286865234375,
      "distillation_loss": 2.993411064147949,
      "epoch": 2.91,
      "learning_rate": 4.477457733249843e-05,
      "loss": 74.0237,
      "step": 3444,
      "task_loss": 1.9026890993118286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.662106206563519,
      "compression/movement_sparsity/importance_threshold": -0.0021929796729912446,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6741267359680211,
      "compression/movement_sparsity/model_sparsity": 0.6509684087311086,
      "compression_loss": 70.79625701904297,
      "distillation_loss": 3.579315185546875,
      "epoch": 2.91,
      "learning_rate": 4.477144646211647e-05,
      "loss": 74.3112,
      "step": 3445,
      "task_loss": 1.7495791912078857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.662515774753386,
      "compression/movement_sparsity/importance_threshold": -0.0021903215161013312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.674488455593255,
      "compression/movement_sparsity/model_sparsity": 0.6513177021744361,
      "compression_loss": 70.83953857421875,
      "distillation_loss": 3.7844529151916504,
      "epoch": 2.91,
      "learning_rate": 4.4768315591734504e-05,
      "loss": 74.1311,
      "step": 3446,
      "task_loss": 1.8219900131225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6629250118453004,
      "compression/movement_sparsity/importance_threshold": -0.0021876655080850993,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6749504216958037,
      "compression/movement_sparsity/model_sparsity": 0.6517637983201882,
      "compression_loss": 70.8828353881836,
      "distillation_loss": 3.880941867828369,
      "epoch": 2.91,
      "learning_rate": 4.4765184721352536e-05,
      "loss": 73.4512,
      "step": 3447,
      "task_loss": 2.177865982055664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6633339179731472,
      "compression/movement_sparsity/importance_threshold": -0.0021850116480736153,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6754009167490865,
      "compression/movement_sparsity/model_sparsity": 0.6521988174825059,
      "compression_loss": 70.92610168457031,
      "distillation_loss": 3.257991075515747,
      "epoch": 2.91,
      "learning_rate": 4.476205385097057e-05,
      "loss": 74.0784,
      "step": 3448,
      "task_loss": 1.5751965045928955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6637424932708114,
      "compression/movement_sparsity/importance_threshold": -0.0021823599351979478,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6760032780013797,
      "compression/movement_sparsity/model_sparsity": 0.6527804857727029,
      "compression_loss": 70.96931457519531,
      "distillation_loss": 3.567519426345825,
      "epoch": 2.91,
      "learning_rate": 4.4758922980588606e-05,
      "loss": 74.0003,
      "step": 3449,
      "task_loss": 1.6534219980239868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6641507378721785,
      "compression/movement_sparsity/importance_threshold": -0.002179710368589158,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6766380014446367,
      "compression/movement_sparsity/model_sparsity": 0.6533934045130463,
      "compression_loss": 71.01254272460938,
      "distillation_loss": 3.3617939949035645,
      "epoch": 2.92,
      "learning_rate": 4.475579211020664e-05,
      "loss": 73.3356,
      "step": 3450,
      "task_loss": 1.301986813545227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6645586519111331,
      "compression/movement_sparsity/importance_threshold": -0.0021770629473783177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.677238693313461,
      "compression/movement_sparsity/model_sparsity": 0.6539734607682322,
      "compression_loss": 71.0556640625,
      "distillation_loss": 2.8911526203155518,
      "epoch": 2.92,
      "learning_rate": 4.475266123982467e-05,
      "loss": 74.1227,
      "step": 3451,
      "task_loss": 2.124176025390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6649662355215611,
      "compression/movement_sparsity/importance_threshold": -0.002174417670696486,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6777174009473703,
      "compression/movement_sparsity/model_sparsity": 0.6544357233222398,
      "compression_loss": 71.09876251220703,
      "distillation_loss": 2.8834357261657715,
      "epoch": 2.92,
      "learning_rate": 4.474953036944271e-05,
      "loss": 73.9068,
      "step": 3452,
      "task_loss": 1.9531172513961792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6653734888373467,
      "compression/movement_sparsity/importance_threshold": -0.0021717745376747368,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6782008305516635,
      "compression/movement_sparsity/model_sparsity": 0.654902545632422,
      "compression_loss": 71.14179992675781,
      "distillation_loss": 1.8043031692504883,
      "epoch": 2.92,
      "learning_rate": 4.474639949906074e-05,
      "loss": 74.2313,
      "step": 3453,
      "task_loss": 1.2108323574066162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6657804119923759,
      "compression/movement_sparsity/importance_threshold": -0.0021691335474441293,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6786081601181045,
      "compression/movement_sparsity/model_sparsity": 0.6552958821751635,
      "compression_loss": 71.18482971191406,
      "distillation_loss": 3.949230194091797,
      "epoch": 2.92,
      "learning_rate": 4.474326862867878e-05,
      "loss": 74.5804,
      "step": 3454,
      "task_loss": 2.726175546646118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6661870051205332,
      "compression/movement_sparsity/importance_threshold": -0.002166494699135735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6791731987256976,
      "compression/movement_sparsity/model_sparsity": 0.6558415099683236,
      "compression_loss": 71.22779083251953,
      "distillation_loss": 3.0629844665527344,
      "epoch": 2.92,
      "learning_rate": 4.474013775829681e-05,
      "loss": 75.0189,
      "step": 3455,
      "task_loss": 2.785687208175659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6665932683557042,
      "compression/movement_sparsity/importance_threshold": -0.0021638579918806158,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6794760368111457,
      "compression/movement_sparsity/model_sparsity": 0.6561339446338976,
      "compression_loss": 71.27070617675781,
      "distillation_loss": 3.3594069480895996,
      "epoch": 2.92,
      "learning_rate": 4.473700688791484e-05,
      "loss": 74.1904,
      "step": 3456,
      "task_loss": 2.962794542312622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6669992018317739,
      "compression/movement_sparsity/importance_threshold": -0.0021612234248098395,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6798061573921445,
      "compression/movement_sparsity/model_sparsity": 0.6564527245573695,
      "compression_loss": 71.31364440917969,
      "distillation_loss": 3.848773241043091,
      "epoch": 2.92,
      "learning_rate": 4.473387601753288e-05,
      "loss": 74.612,
      "step": 3457,
      "task_loss": 1.9265755414962769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6674048056826272,
      "compression/movement_sparsity/importance_threshold": -0.002158590997054473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6802747891044015,
      "compression/movement_sparsity/model_sparsity": 0.6569052573286307,
      "compression_loss": 71.35645294189453,
      "distillation_loss": 2.848858594894409,
      "epoch": 2.92,
      "learning_rate": 4.473074514715091e-05,
      "loss": 74.0979,
      "step": 3458,
      "task_loss": 1.9163103103637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6678100800421496,
      "compression/movement_sparsity/importance_threshold": -0.00215596070774558,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6807631195415931,
      "compression/movement_sparsity/model_sparsity": 0.6573768121130246,
      "compression_loss": 71.39934539794922,
      "distillation_loss": 3.1114940643310547,
      "epoch": 2.92,
      "learning_rate": 4.4727614276768944e-05,
      "loss": 74.7155,
      "step": 3459,
      "task_loss": 1.8489569425582886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6682150250442258,
      "compression/movement_sparsity/importance_threshold": -0.0021533325560142303,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6811310397339976,
      "compression/movement_sparsity/model_sparsity": 0.657732093114965,
      "compression_loss": 71.44219207763672,
      "distillation_loss": 2.9500627517700195,
      "epoch": 2.92,
      "learning_rate": 4.472448340638698e-05,
      "loss": 74.0899,
      "step": 3460,
      "task_loss": 2.504326581954956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6686196408227416,
      "compression/movement_sparsity/importance_threshold": -0.0021507065409914847,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6815817255739627,
      "compression/movement_sparsity/model_sparsity": 0.6581672965098555,
      "compression_loss": 71.48497772216797,
      "distillation_loss": 2.910615921020508,
      "epoch": 2.93,
      "learning_rate": 4.4721352536005014e-05,
      "loss": 74.4497,
      "step": 3461,
      "task_loss": 1.9382023811340332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6690239275115815,
      "compression/movement_sparsity/importance_threshold": -0.0021480826618084144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.681950373140593,
      "compression/movement_sparsity/model_sparsity": 0.6585232798984796,
      "compression_loss": 71.52770233154297,
      "distillation_loss": 1.573062539100647,
      "epoch": 2.93,
      "learning_rate": 4.4718221665623046e-05,
      "loss": 73.9911,
      "step": 3462,
      "task_loss": 1.474571704864502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6694278852446311,
      "compression/movement_sparsity/importance_threshold": -0.002145460917596081,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6824965000183155,
      "compression/movement_sparsity/model_sparsity": 0.6590506456378695,
      "compression_loss": 71.5704345703125,
      "distillation_loss": 2.4699759483337402,
      "epoch": 2.93,
      "learning_rate": 4.471509079524108e-05,
      "loss": 74.537,
      "step": 3463,
      "task_loss": 0.9548800587654114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6698315141557751,
      "compression/movement_sparsity/importance_threshold": -0.002142841307485554,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6829617691152993,
      "compression/movement_sparsity/model_sparsity": 0.6594999313100367,
      "compression_loss": 71.61307525634766,
      "distillation_loss": 2.190371513366699,
      "epoch": 2.93,
      "learning_rate": 4.4711959924859116e-05,
      "loss": 73.9244,
      "step": 3464,
      "task_loss": 1.73721182346344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6702348143788992,
      "compression/movement_sparsity/importance_threshold": -0.002140223830607897,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6833710303968974,
      "compression/movement_sparsity/model_sparsity": 0.659895133207577,
      "compression_loss": 71.65573120117188,
      "distillation_loss": 3.6052846908569336,
      "epoch": 2.93,
      "learning_rate": 4.470882905447715e-05,
      "loss": 74.5782,
      "step": 3465,
      "task_loss": 1.7624422311782837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6706377860478878,
      "compression/movement_sparsity/importance_threshold": -0.002137608486094179,
      "compression/movement_sparsity/linear_layer_sparsity": 0.683831195950133,
      "compression/movement_sparsity/model_sparsity": 0.6603394906584241,
      "compression_loss": 71.69828796386719,
      "distillation_loss": 2.559915065765381,
      "epoch": 2.93,
      "learning_rate": 4.470569818409518e-05,
      "loss": 74.7307,
      "step": 3466,
      "task_loss": 1.302794098854065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6710404292966268,
      "compression/movement_sparsity/importance_threshold": -0.002134995273075462,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6841823269145062,
      "compression/movement_sparsity/model_sparsity": 0.6606785591939659,
      "compression_loss": 71.74089813232422,
      "distillation_loss": 2.668214797973633,
      "epoch": 2.93,
      "learning_rate": 4.470256731371321e-05,
      "loss": 74.373,
      "step": 3467,
      "task_loss": 1.4021415710449219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.671442744259001,
      "compression/movement_sparsity/importance_threshold": -0.002132384190682815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6845842667571759,
      "compression/movement_sparsity/model_sparsity": 0.6610666911665283,
      "compression_loss": 71.78337097167969,
      "distillation_loss": 3.1722607612609863,
      "epoch": 2.93,
      "learning_rate": 4.469943644333125e-05,
      "loss": 75.2022,
      "step": 3468,
      "task_loss": 1.635369896888733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6718447310688952,
      "compression/movement_sparsity/importance_threshold": -0.0021297752380473045,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6851068314796499,
      "compression/movement_sparsity/model_sparsity": 0.6615713041831882,
      "compression_loss": 71.82585144042969,
      "distillation_loss": 2.8744375705718994,
      "epoch": 2.93,
      "learning_rate": 4.469630557294928e-05,
      "loss": 74.555,
      "step": 3469,
      "task_loss": 1.8934327363967896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6722463898601954,
      "compression/movement_sparsity/importance_threshold": -0.002127168414299993,
      "compression/movement_sparsity/linear_layer_sparsity": 0.685682017553901,
      "compression/movement_sparsity/model_sparsity": 0.6621267308463095,
      "compression_loss": 71.8682861328125,
      "distillation_loss": 2.4623866081237793,
      "epoch": 2.93,
      "learning_rate": 4.4693174702567314e-05,
      "loss": 75.0136,
      "step": 3470,
      "task_loss": 1.236510992050171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6726477207667857,
      "compression/movement_sparsity/importance_threshold": -0.0021245637185719514,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6862027817270621,
      "compression/movement_sparsity/model_sparsity": 0.6626296051680645,
      "compression_loss": 71.91072082519531,
      "distillation_loss": 2.1692700386047363,
      "epoch": 2.93,
      "learning_rate": 4.469004383218535e-05,
      "loss": 74.6641,
      "step": 3471,
      "task_loss": 1.8599106073379517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6730487239225522,
      "compression/movement_sparsity/importance_threshold": -0.0021219611499942405,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6866334230412313,
      "compression/movement_sparsity/model_sparsity": 0.6630454526282843,
      "compression_loss": 71.95309448242188,
      "distillation_loss": 3.546987533569336,
      "epoch": 2.93,
      "learning_rate": 4.4686912961803384e-05,
      "loss": 75.175,
      "step": 3472,
      "task_loss": 2.7805216312408447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6734493994613793,
      "compression/movement_sparsity/importance_threshold": -0.0021193607076979313,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6870403591101404,
      "compression/movement_sparsity/model_sparsity": 0.6634384091913447,
      "compression_loss": 71.99541473388672,
      "distillation_loss": 2.569979190826416,
      "epoch": 2.94,
      "learning_rate": 4.4683782091421416e-05,
      "loss": 74.7153,
      "step": 3473,
      "task_loss": 1.892233967781067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6738497475171527,
      "compression/movement_sparsity/importance_threshold": -0.0021167623908140863,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6874443022129729,
      "compression/movement_sparsity/model_sparsity": 0.6638284756059205,
      "compression_loss": 72.03771209716797,
      "distillation_loss": 3.532655715942383,
      "epoch": 2.94,
      "learning_rate": 4.468065122103945e-05,
      "loss": 75.3389,
      "step": 3474,
      "task_loss": 1.738996982574463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6742497682237569,
      "compression/movement_sparsity/importance_threshold": -0.0021141661984737737,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6879717677683452,
      "compression/movement_sparsity/model_sparsity": 0.664337821096792,
      "compression_loss": 72.08000946044922,
      "distillation_loss": 3.3573291301727295,
      "epoch": 2.94,
      "learning_rate": 4.4677520350657486e-05,
      "loss": 75.3415,
      "step": 3475,
      "task_loss": 2.1079161167144775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6746494617150778,
      "compression/movement_sparsity/importance_threshold": -0.0021115721298080583,
      "compression/movement_sparsity/linear_layer_sparsity": 0.688453444519996,
      "compression/movement_sparsity/model_sparsity": 0.6648029507702125,
      "compression_loss": 72.12224578857422,
      "distillation_loss": 5.576750755310059,
      "epoch": 2.94,
      "learning_rate": 4.467438948027552e-05,
      "loss": 75.4725,
      "step": 3476,
      "task_loss": 2.7214443683624268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.675048828125,
      "compression/movement_sparsity/importance_threshold": -0.002108980183948006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6889289564769789,
      "compression/movement_sparsity/model_sparsity": 0.6652621274286272,
      "compression_loss": 72.16451263427734,
      "distillation_loss": 2.9775965213775635,
      "epoch": 2.94,
      "learning_rate": 4.467125860989355e-05,
      "loss": 74.9527,
      "step": 3477,
      "task_loss": 1.5255008935928345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6754478675874089,
      "compression/movement_sparsity/importance_threshold": -0.0021063903600246833,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6893444660224182,
      "compression/movement_sparsity/model_sparsity": 0.6656633629429237,
      "compression_loss": 72.20667266845703,
      "distillation_loss": 3.1609325408935547,
      "epoch": 2.94,
      "learning_rate": 4.466812773951158e-05,
      "loss": 75.3435,
      "step": 3478,
      "task_loss": 2.0263190269470215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6758465802361895,
      "compression/movement_sparsity/importance_threshold": -0.002103802657169157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6897173585927269,
      "compression/movement_sparsity/model_sparsity": 0.6660234455062907,
      "compression_loss": 72.24883270263672,
      "distillation_loss": 3.2071924209594727,
      "epoch": 2.94,
      "learning_rate": 4.466499686912962e-05,
      "loss": 75.159,
      "step": 3479,
      "task_loss": 2.519763231277466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6762449662052268,
      "compression/movement_sparsity/importance_threshold": -0.0021012170745124924,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6901984033634929,
      "compression/movement_sparsity/model_sparsity": 0.666487964909314,
      "compression_loss": 72.29093170166016,
      "distillation_loss": 3.2028112411499023,
      "epoch": 2.94,
      "learning_rate": 4.466186599874765e-05,
      "loss": 75.0822,
      "step": 3480,
      "task_loss": 2.3323817253112793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6766430256284065,
      "compression/movement_sparsity/importance_threshold": -0.002098633611185754,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6906211389545195,
      "compression/movement_sparsity/model_sparsity": 0.6668961782323021,
      "compression_loss": 72.3329849243164,
      "distillation_loss": 3.336866617202759,
      "epoch": 2.94,
      "learning_rate": 4.4658735128365684e-05,
      "loss": 74.9926,
      "step": 3481,
      "task_loss": 2.021195411682129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.677040758639613,
      "compression/movement_sparsity/importance_threshold": -0.002096052266320012,
      "compression/movement_sparsity/linear_layer_sparsity": 0.691046497862426,
      "compression/movement_sparsity/model_sparsity": 0.6673069247531649,
      "compression_loss": 72.37505340576172,
      "distillation_loss": 2.4574310779571533,
      "epoch": 2.94,
      "learning_rate": 4.465560425798372e-05,
      "loss": 75.1292,
      "step": 3482,
      "task_loss": 1.795758843421936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6774381653727322,
      "compression/movement_sparsity/importance_threshold": -0.002093473039046327,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6916073630113465,
      "compression/movement_sparsity/model_sparsity": 0.6678485224587969,
      "compression_loss": 72.4170150756836,
      "distillation_loss": 3.2246055603027344,
      "epoch": 2.94,
      "learning_rate": 4.4652473387601754e-05,
      "loss": 75.6457,
      "step": 3483,
      "task_loss": 1.2611771821975708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6778352459616486,
      "compression/movement_sparsity/importance_threshold": -0.0020908959284957696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6920581203963173,
      "compression/movement_sparsity/model_sparsity": 0.6682837949409022,
      "compression_loss": 72.45894622802734,
      "distillation_loss": 4.288147449493408,
      "epoch": 2.94,
      "learning_rate": 4.4649342517219786e-05,
      "loss": 75.5265,
      "step": 3484,
      "task_loss": 1.9512368440628052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6782320005402478,
      "compression/movement_sparsity/importance_threshold": -0.0020883209337994027,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6925494199512502,
      "compression/movement_sparsity/model_sparsity": 0.6687582168447088,
      "compression_loss": 72.50092315673828,
      "distillation_loss": 3.283330202102661,
      "epoch": 2.95,
      "learning_rate": 4.464621164683782e-05,
      "loss": 75.54,
      "step": 3485,
      "task_loss": 2.3533103466033936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6786284292424143,
      "compression/movement_sparsity/importance_threshold": -0.0020857480540882965,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6930868183382632,
      "compression/movement_sparsity/model_sparsity": 0.6692771539438972,
      "compression_loss": 72.54277038574219,
      "distillation_loss": 4.275600910186768,
      "epoch": 2.95,
      "learning_rate": 4.4643080776455856e-05,
      "loss": 75.7037,
      "step": 3486,
      "task_loss": 2.6077089309692383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6790245322020341,
      "compression/movement_sparsity/importance_threshold": -0.0020831772884935115,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6934889370434475,
      "compression/movement_sparsity/model_sparsity": 0.6696654586344964,
      "compression_loss": 72.58460998535156,
      "distillation_loss": 3.7982778549194336,
      "epoch": 2.95,
      "learning_rate": 4.463994990607389e-05,
      "loss": 75.7745,
      "step": 3487,
      "task_loss": 2.6277151107788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6794203095529917,
      "compression/movement_sparsity/importance_threshold": -0.002080608636146118,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6939291892367312,
      "compression/movement_sparsity/model_sparsity": 0.6700905868105668,
      "compression_loss": 72.6264419555664,
      "distillation_loss": 2.4495623111724854,
      "epoch": 2.95,
      "learning_rate": 4.463681903569193e-05,
      "loss": 75.5503,
      "step": 3488,
      "task_loss": 1.8995503187179565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6798157614291724,
      "compression/movement_sparsity/importance_threshold": -0.0020780420961771804,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6943676885773724,
      "compression/movement_sparsity/model_sparsity": 0.6705140223498752,
      "compression_loss": 72.6682357788086,
      "distillation_loss": 4.382484436035156,
      "epoch": 2.95,
      "learning_rate": 4.463368816530996e-05,
      "loss": 76.058,
      "step": 3489,
      "task_loss": 2.909686326980591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6802108879644617,
      "compression/movement_sparsity/importance_threshold": -0.002075477667717763,
      "compression/movement_sparsity/linear_layer_sparsity": 0.694687959795904,
      "compression/movement_sparsity/model_sparsity": 0.6708232912667808,
      "compression_loss": 72.70996856689453,
      "distillation_loss": 3.7135767936706543,
      "epoch": 2.95,
      "learning_rate": 4.4630557294928e-05,
      "loss": 75.3828,
      "step": 3490,
      "task_loss": 1.6974540948867798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6806056892927441,
      "compression/movement_sparsity/importance_threshold": -0.002072915349898937,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6950961359782473,
      "compression/movement_sparsity/model_sparsity": 0.6712174453415637,
      "compression_loss": 72.75165557861328,
      "distillation_loss": 3.0363383293151855,
      "epoch": 2.95,
      "learning_rate": 4.462742642454603e-05,
      "loss": 75.8568,
      "step": 3491,
      "task_loss": 1.5406562089920044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6810001655479054,
      "compression/movement_sparsity/importance_threshold": -0.0020703551418517615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6956482964847935,
      "compression/movement_sparsity/model_sparsity": 0.6717506374360657,
      "compression_loss": 72.79334259033203,
      "distillation_loss": 4.22519588470459,
      "epoch": 2.95,
      "learning_rate": 4.462429555416406e-05,
      "loss": 76.0876,
      "step": 3492,
      "task_loss": 1.3099629878997803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6813943168638301,
      "compression/movement_sparsity/importance_threshold": -0.0020677970427073096,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6962185340294758,
      "compression/movement_sparsity/model_sparsity": 0.6723012855668322,
      "compression_loss": 72.83494567871094,
      "distillation_loss": 3.0311317443847656,
      "epoch": 2.95,
      "learning_rate": 4.46211646837821e-05,
      "loss": 75.6562,
      "step": 3493,
      "task_loss": 1.8043335676193237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.681788143374404,
      "compression/movement_sparsity/importance_threshold": -0.0020652410515966417,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6966221671039498,
      "compression/movement_sparsity/model_sparsity": 0.6726910526034774,
      "compression_loss": 72.8765640258789,
      "distillation_loss": 4.348198413848877,
      "epoch": 2.95,
      "learning_rate": 4.461803381340013e-05,
      "loss": 76.1556,
      "step": 3494,
      "task_loss": 3.533262252807617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6821816452135114,
      "compression/movement_sparsity/importance_threshold": -0.0020626871676508287,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6970250966525332,
      "compression/movement_sparsity/model_sparsity": 0.6730801402825107,
      "compression_loss": 72.91812896728516,
      "distillation_loss": 2.830470561981201,
      "epoch": 2.95,
      "learning_rate": 4.461490294301816e-05,
      "loss": 75.842,
      "step": 3495,
      "task_loss": 1.6345503330230713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6825748225150383,
      "compression/movement_sparsity/importance_threshold": -0.002060135390000932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6975636636079746,
      "compression/movement_sparsity/model_sparsity": 0.6736002058062069,
      "compression_loss": 72.95970916748047,
      "distillation_loss": 4.231863975524902,
      "epoch": 2.95,
      "learning_rate": 4.4611772072636194e-05,
      "loss": 76.3863,
      "step": 3496,
      "task_loss": 1.8640209436416626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6829676754128695,
      "compression/movement_sparsity/importance_threshold": -0.002057585717778019,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6980023060386275,
      "compression/movement_sparsity/model_sparsity": 0.674023779519945,
      "compression_loss": 73.00118255615234,
      "distillation_loss": 3.31850528717041,
      "epoch": 2.96,
      "learning_rate": 4.460864120225423e-05,
      "loss": 76.328,
      "step": 3497,
      "task_loss": 2.039365291595459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.68336020404089,
      "compression/movement_sparsity/importance_threshold": -0.0020550381501131575,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6985250973202866,
      "compression/movement_sparsity/model_sparsity": 0.674528611312785,
      "compression_loss": 73.04267883300781,
      "distillation_loss": 2.863635540008545,
      "epoch": 2.96,
      "learning_rate": 4.4605510331872265e-05,
      "loss": 76.1492,
      "step": 3498,
      "task_loss": 2.1684441566467285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6837524085329851,
      "compression/movement_sparsity/importance_threshold": -0.002052492686137413,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6988918727925981,
      "compression/movement_sparsity/model_sparsity": 0.6748827869192893,
      "compression_loss": 73.08415985107422,
      "distillation_loss": 2.8197097778320312,
      "epoch": 2.96,
      "learning_rate": 4.4602379461490297e-05,
      "loss": 76.2324,
      "step": 3499,
      "task_loss": 2.2878568172454834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6841442890230398,
      "compression/movement_sparsity/importance_threshold": -0.002049949324981851,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6992652900262828,
      "compression/movement_sparsity/model_sparsity": 0.6752433761222312,
      "compression_loss": 73.12556457519531,
      "distillation_loss": 2.220219373703003,
      "epoch": 2.96,
      "learning_rate": 4.459924859110833e-05,
      "loss": 75.3173,
      "step": 3500,
      "task_loss": 1.094734787940979
    },
    {
      "epoch": 2.96,
      "eval_accuracy": 0.6942178217821782,
      "eval_loss": 75.53413391113281,
      "eval_runtime": 210.0118,
      "eval_samples_per_second": 120.231,
      "eval_steps_per_second": 0.943,
      "step": 3500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6845358456449396,
      "compression/movement_sparsity/importance_threshold": -0.002047408065777536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.6998073865353444,
      "compression/movement_sparsity/model_sparsity": 0.6757668499485225,
      "compression_loss": 73.16688537597656,
      "distillation_loss": 3.264719009399414,
      "epoch": 2.96,
      "learning_rate": 4.459611772072637e-05,
      "loss": 76.4093,
      "step": 3501,
      "task_loss": 1.324640154838562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6849270785325692,
      "compression/movement_sparsity/importance_threshold": -0.0020448689076555367,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7002616138530973,
      "compression/movement_sparsity/model_sparsity": 0.676205473160544,
      "compression_loss": 73.20825958251953,
      "distillation_loss": 4.52982759475708,
      "epoch": 2.96,
      "learning_rate": 4.45929868503444e-05,
      "loss": 76.7892,
      "step": 3502,
      "task_loss": 2.9776782989501953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6853179878198141,
      "compression/movement_sparsity/importance_threshold": -0.0020423318497469166,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7006228565116258,
      "compression/movement_sparsity/model_sparsity": 0.6765543060224396,
      "compression_loss": 73.24957275390625,
      "distillation_loss": 3.085653781890869,
      "epoch": 2.96,
      "learning_rate": 4.458985597996243e-05,
      "loss": 76.0106,
      "step": 3503,
      "task_loss": 0.9783570766448975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6857085736405589,
      "compression/movement_sparsity/importance_threshold": -0.0020397968911827465,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7010978915019033,
      "compression/movement_sparsity/model_sparsity": 0.6770130220994225,
      "compression_loss": 73.29076385498047,
      "distillation_loss": 4.0569047927856445,
      "epoch": 2.96,
      "learning_rate": 4.458672510958046e-05,
      "loss": 76.4152,
      "step": 3504,
      "task_loss": 2.9156129360198975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6860988361286895,
      "compression/movement_sparsity/importance_threshold": -0.002037264031094086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7016865280372476,
      "compression/movement_sparsity/model_sparsity": 0.67758143715892,
      "compression_loss": 73.33198547363281,
      "distillation_loss": 3.6655173301696777,
      "epoch": 2.96,
      "learning_rate": 4.45835942391985e-05,
      "loss": 76.6851,
      "step": 3505,
      "task_loss": 2.2414162158966064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6864887754180904,
      "compression/movement_sparsity/importance_threshold": -0.0020347332686120054,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7020799301758901,
      "compression/movement_sparsity/model_sparsity": 0.6779613247238535,
      "compression_loss": 73.3731689453125,
      "distillation_loss": 2.4243812561035156,
      "epoch": 2.96,
      "learning_rate": 4.458046336881653e-05,
      "loss": 76.7262,
      "step": 3506,
      "task_loss": 2.2416903972625732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6868783916426471,
      "compression/movement_sparsity/importance_threshold": -0.0020322046028675694,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7025590074589961,
      "compression/movement_sparsity/model_sparsity": 0.6784239442284707,
      "compression_loss": 73.41429901123047,
      "distillation_loss": 2.3440120220184326,
      "epoch": 2.96,
      "learning_rate": 4.4577332498434564e-05,
      "loss": 76.5178,
      "step": 3507,
      "task_loss": 1.5929702520370483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6872676849362445,
      "compression/movement_sparsity/importance_threshold": -0.0020296780329918445,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7028684753816496,
      "compression/movement_sparsity/model_sparsity": 0.6787227809759465,
      "compression_loss": 73.45539855957031,
      "distillation_loss": 4.271585464477539,
      "epoch": 2.96,
      "learning_rate": 4.45742016280526e-05,
      "loss": 76.5856,
      "step": 3508,
      "task_loss": 2.353320837020874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6876566554327679,
      "compression/movement_sparsity/importance_threshold": -0.0020271535581158967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7033125552327445,
      "compression/movement_sparsity/model_sparsity": 0.6791516053180068,
      "compression_loss": 73.49652099609375,
      "distillation_loss": 3.085920810699463,
      "epoch": 2.97,
      "learning_rate": 4.4571070757670635e-05,
      "loss": 76.7522,
      "step": 3509,
      "task_loss": 2.787026882171631
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6880453032661026,
      "compression/movement_sparsity/importance_threshold": -0.0020246311773707906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7036993156100138,
      "compression/movement_sparsity/model_sparsity": 0.6795250792865027,
      "compression_loss": 73.53750610351562,
      "distillation_loss": 5.123775959014893,
      "epoch": 2.97,
      "learning_rate": 4.4567939887288666e-05,
      "loss": 77.0514,
      "step": 3510,
      "task_loss": 4.033083915710449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6884336285701332,
      "compression/movement_sparsity/importance_threshold": -0.0020221108898875956,
      "compression/movement_sparsity/linear_layer_sparsity": 0.704146948863064,
      "compression/movement_sparsity/model_sparsity": 0.6799573349602298,
      "compression_loss": 73.57854461669922,
      "distillation_loss": 2.349801540374756,
      "epoch": 2.97,
      "learning_rate": 4.45648090169067e-05,
      "loss": 76.3602,
      "step": 3511,
      "task_loss": 3.30352783203125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6888216314787456,
      "compression/movement_sparsity/importance_threshold": -0.002019592694797372,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7045827891143225,
      "compression/movement_sparsity/model_sparsity": 0.680378202758056,
      "compression_loss": 73.61953735351562,
      "distillation_loss": 3.060920238494873,
      "epoch": 2.97,
      "learning_rate": 4.456167814652474e-05,
      "loss": 76.5468,
      "step": 3512,
      "task_loss": 1.7679400444030762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6892093121258241,
      "compression/movement_sparsity/importance_threshold": -0.002017076591231194,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7048806190493634,
      "compression/movement_sparsity/model_sparsity": 0.6806658013185963,
      "compression_loss": 73.66048431396484,
      "distillation_loss": 4.381338119506836,
      "epoch": 2.97,
      "learning_rate": 4.455854727614277e-05,
      "loss": 77.1019,
      "step": 3513,
      "task_loss": 2.6229097843170166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6895966706452548,
      "compression/movement_sparsity/importance_threshold": -0.0020145625783201185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7051954170749501,
      "compression/movement_sparsity/model_sparsity": 0.6809697850635722,
      "compression_loss": 73.70143127441406,
      "distillation_loss": 2.7975080013275146,
      "epoch": 2.97,
      "learning_rate": 4.45554164057608e-05,
      "loss": 76.3846,
      "step": 3514,
      "task_loss": 1.2392231225967407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6899837071709218,
      "compression/movement_sparsity/importance_threshold": -0.0020120506551952197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.705742974852789,
      "compression/movement_sparsity/model_sparsity": 0.6814985325472575,
      "compression_loss": 73.74237823486328,
      "distillation_loss": 2.134460926055908,
      "epoch": 2.97,
      "learning_rate": 4.455228553537883e-05,
      "loss": 76.7631,
      "step": 3515,
      "task_loss": 1.6460086107254028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.690370421836711,
      "compression/movement_sparsity/importance_threshold": -0.002009540820987558,
      "compression/movement_sparsity/linear_layer_sparsity": 0.706163862197832,
      "compression/movement_sparsity/model_sparsity": 0.6819049611171973,
      "compression_loss": 73.78324127197266,
      "distillation_loss": 3.8662548065185547,
      "epoch": 2.97,
      "learning_rate": 4.454915466499687e-05,
      "loss": 76.4187,
      "step": 3516,
      "task_loss": 2.281369924545288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6907568147765073,
      "compression/movement_sparsity/importance_threshold": -0.0020070330748282027,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7065901154183113,
      "compression/movement_sparsity/model_sparsity": 0.6823165712282449,
      "compression_loss": 73.82408142089844,
      "distillation_loss": 2.3370680809020996,
      "epoch": 2.97,
      "learning_rate": 4.45460237946149e-05,
      "loss": 76.6981,
      "step": 3517,
      "task_loss": 1.5847147703170776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6911428861241957,
      "compression/movement_sparsity/importance_threshold": -0.0020045274158482186,
      "compression/movement_sparsity/linear_layer_sparsity": 0.706985306182099,
      "compression/movement_sparsity/model_sparsity": 0.6826981859735475,
      "compression_loss": 73.8648681640625,
      "distillation_loss": 2.4123175144195557,
      "epoch": 2.97,
      "learning_rate": 4.4542892924232934e-05,
      "loss": 76.5859,
      "step": 3518,
      "task_loss": 1.2742913961410522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6915286360136617,
      "compression/movement_sparsity/importance_threshold": -0.0020020238431786705,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7074553687944724,
      "compression/movement_sparsity/model_sparsity": 0.6831521004891041,
      "compression_loss": 73.90560913085938,
      "distillation_loss": 2.581087589263916,
      "epoch": 2.97,
      "learning_rate": 4.453976205385097e-05,
      "loss": 76.9698,
      "step": 3519,
      "task_loss": 1.7041782140731812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6919140645787898,
      "compression/movement_sparsity/importance_threshold": -0.0019995223559506276,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7079323951207451,
      "compression/movement_sparsity/model_sparsity": 0.6836127394935647,
      "compression_loss": 73.94634246826172,
      "distillation_loss": 2.5981240272521973,
      "epoch": 2.97,
      "learning_rate": 4.4536631183469005e-05,
      "loss": 77.1259,
      "step": 3520,
      "task_loss": 1.0200672149658203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.692299171953466,
      "compression/movement_sparsity/importance_threshold": -0.0019970229532951522,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7083219099807382,
      "compression/movement_sparsity/model_sparsity": 0.6839888733198292,
      "compression_loss": 73.9870376586914,
      "distillation_loss": 2.860292673110962,
      "epoch": 2.98,
      "learning_rate": 4.453350031308704e-05,
      "loss": 76.872,
      "step": 3521,
      "task_loss": 1.818167805671692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6926839582715747,
      "compression/movement_sparsity/importance_threshold": -0.0019945256343433136,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7088866981808108,
      "compression/movement_sparsity/model_sparsity": 0.6845342593077376,
      "compression_loss": 74.02765655517578,
      "distillation_loss": 2.705292224884033,
      "epoch": 2.98,
      "learning_rate": 4.4530369442705075e-05,
      "loss": 76.1496,
      "step": 3522,
      "task_loss": 1.0087873935699463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6930684236670016,
      "compression/movement_sparsity/importance_threshold": -0.001992030398226175,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7092646823707001,
      "compression/movement_sparsity/model_sparsity": 0.6848992585778887,
      "compression_loss": 74.06829833984375,
      "distillation_loss": 2.954558849334717,
      "epoch": 2.98,
      "learning_rate": 4.452723857232311e-05,
      "loss": 77.0909,
      "step": 3523,
      "task_loss": 1.8050638437271118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6934525682736313,
      "compression/movement_sparsity/importance_threshold": -0.001989537244074805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.709619521751208,
      "compression/movement_sparsity/model_sparsity": 0.6852419081340627,
      "compression_loss": 74.10892486572266,
      "distillation_loss": 3.013004779815674,
      "epoch": 2.98,
      "learning_rate": 4.4524107701941145e-05,
      "loss": 76.7687,
      "step": 3524,
      "task_loss": 1.6245458126068115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6938363922253495,
      "compression/movement_sparsity/importance_threshold": -0.0019870461710202675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7100131862215384,
      "compression/movement_sparsity/model_sparsity": 0.6856220490187837,
      "compression_loss": 74.14942932128906,
      "distillation_loss": 3.5251286029815674,
      "epoch": 2.98,
      "learning_rate": 4.452097683155918e-05,
      "loss": 77.3235,
      "step": 3525,
      "task_loss": 2.137641429901123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6942198956560408,
      "compression/movement_sparsity/importance_threshold": -0.0019845571781936305,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7104578742051827,
      "compression/movement_sparsity/model_sparsity": 0.6860514606021695,
      "compression_loss": 74.18992614746094,
      "distillation_loss": 3.193653106689453,
      "epoch": 2.98,
      "learning_rate": 4.451784596117721e-05,
      "loss": 77.2529,
      "step": 3526,
      "task_loss": 2.2450642585754395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6946030786995907,
      "compression/movement_sparsity/importance_threshold": -0.001982070264725959,
      "compression/movement_sparsity/linear_layer_sparsity": 0.711056336254659,
      "compression/movement_sparsity/model_sparsity": 0.6866293636391617,
      "compression_loss": 74.23037719726562,
      "distillation_loss": 4.018220901489258,
      "epoch": 2.98,
      "learning_rate": 4.451471509079525e-05,
      "loss": 77.1756,
      "step": 3527,
      "task_loss": 2.2401669025421143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6949859414898842,
      "compression/movement_sparsity/importance_threshold": -0.0019795854297483192,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7115071294121328,
      "compression/movement_sparsity/model_sparsity": 0.6870646706648743,
      "compression_loss": 74.27081298828125,
      "distillation_loss": 2.871913433074951,
      "epoch": 2.98,
      "learning_rate": 4.451158422041328e-05,
      "loss": 77.5523,
      "step": 3528,
      "task_loss": 1.8632984161376953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6953684841608067,
      "compression/movement_sparsity/importance_threshold": -0.0019771026723917765,
      "compression/movement_sparsity/linear_layer_sparsity": 0.71198872269461,
      "compression/movement_sparsity/model_sparsity": 0.6875297197365442,
      "compression_loss": 74.31121063232422,
      "distillation_loss": 2.115792751312256,
      "epoch": 2.98,
      "learning_rate": 4.450845335003131e-05,
      "loss": 77.4673,
      "step": 3529,
      "task_loss": 0.44072240591049194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.695750706846243,
      "compression/movement_sparsity/importance_threshold": -0.001974621991787397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7122646837062069,
      "compression/movement_sparsity/model_sparsity": 0.6877962006384373,
      "compression_loss": 74.3515625,
      "distillation_loss": 2.9175357818603516,
      "epoch": 2.98,
      "learning_rate": 4.450532247964935e-05,
      "loss": 77.8658,
      "step": 3530,
      "task_loss": 2.922213554382324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6961326096800781,
      "compression/movement_sparsity/importance_threshold": -0.0019721433870662497,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7126099479801032,
      "compression/movement_sparsity/model_sparsity": 0.6881296040223682,
      "compression_loss": 74.39190673828125,
      "distillation_loss": 2.8734731674194336,
      "epoch": 2.98,
      "learning_rate": 4.450219160926738e-05,
      "loss": 77.4339,
      "step": 3531,
      "task_loss": 1.9276787042617798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6965141927961978,
      "compression/movement_sparsity/importance_threshold": -0.0019696668573593954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7130769103088913,
      "compression/movement_sparsity/model_sparsity": 0.6885805247586182,
      "compression_loss": 74.4322280883789,
      "distillation_loss": 2.6408824920654297,
      "epoch": 2.99,
      "learning_rate": 4.449906073888541e-05,
      "loss": 77.2825,
      "step": 3532,
      "task_loss": 1.2518035173416138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6968954563284865,
      "compression/movement_sparsity/importance_threshold": -0.0019671924017979044,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7135052383345392,
      "compression/movement_sparsity/model_sparsity": 0.6889941383988939,
      "compression_loss": 74.4725112915039,
      "distillation_loss": 2.8946454524993896,
      "epoch": 2.99,
      "learning_rate": 4.4495929868503445e-05,
      "loss": 78.0734,
      "step": 3533,
      "task_loss": 1.5071238279342651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6972764004108299,
      "compression/movement_sparsity/importance_threshold": -0.0019647200195128407,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7139514883841437,
      "compression/movement_sparsity/model_sparsity": 0.6894250583864688,
      "compression_loss": 74.51275634765625,
      "distillation_loss": 5.037074089050293,
      "epoch": 2.99,
      "learning_rate": 4.4492798998121483e-05,
      "loss": 79.4306,
      "step": 3534,
      "task_loss": 3.1248936653137207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6976570251771128,
      "compression/movement_sparsity/importance_threshold": -0.0019622497096352717,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7143852419060658,
      "compression/movement_sparsity/model_sparsity": 0.689843911140531,
      "compression_loss": 74.5529556274414,
      "distillation_loss": 4.346115589141846,
      "epoch": 2.99,
      "learning_rate": 4.4489668127739515e-05,
      "loss": 77.8447,
      "step": 3535,
      "task_loss": 1.912516474723816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6980373307612205,
      "compression/movement_sparsity/importance_threshold": -0.0019597814712962623,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7146896420574741,
      "compression/movement_sparsity/model_sparsity": 0.690137854210294,
      "compression_loss": 74.59321594238281,
      "distillation_loss": 2.6569290161132812,
      "epoch": 2.99,
      "learning_rate": 4.448653725735755e-05,
      "loss": 77.9436,
      "step": 3536,
      "task_loss": 1.3835315704345703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6984173172970382,
      "compression/movement_sparsity/importance_threshold": -0.0019573153036268783,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7151400894140865,
      "compression/movement_sparsity/model_sparsity": 0.6905728273144686,
      "compression_loss": 74.63337707519531,
      "distillation_loss": 2.603781223297119,
      "epoch": 2.99,
      "learning_rate": 4.448340638697558e-05,
      "loss": 77.3829,
      "step": 3537,
      "task_loss": 1.6564371585845947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6987969849184509,
      "compression/movement_sparsity/importance_threshold": -0.001954851205758187,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7156041899426419,
      "compression/movement_sparsity/model_sparsity": 0.6910209845621279,
      "compression_loss": 74.67350769042969,
      "distillation_loss": 2.7781929969787598,
      "epoch": 2.99,
      "learning_rate": 4.448027551659362e-05,
      "loss": 77.4528,
      "step": 3538,
      "task_loss": 1.9029725790023804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6991763337593437,
      "compression/movement_sparsity/importance_threshold": -0.0019523891768212535,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7159700591782131,
      "compression/movement_sparsity/model_sparsity": 0.6913742850639119,
      "compression_loss": 74.71356201171875,
      "distillation_loss": 2.772839069366455,
      "epoch": 2.99,
      "learning_rate": 4.447714464621165e-05,
      "loss": 77.6149,
      "step": 3539,
      "task_loss": 2.278661012649536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6995553639536018,
      "compression/movement_sparsity/importance_threshold": -0.0019499292159471443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7163714862816744,
      "compression/movement_sparsity/model_sparsity": 0.691761921911435,
      "compression_loss": 74.75360107421875,
      "distillation_loss": 4.295535087585449,
      "epoch": 2.99,
      "learning_rate": 4.447401377582968e-05,
      "loss": 78.3678,
      "step": 3540,
      "task_loss": 1.6903754472732544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.6999340756351107,
      "compression/movement_sparsity/importance_threshold": -0.0019474713222669242,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7167762521520737,
      "compression/movement_sparsity/model_sparsity": 0.6921527828289807,
      "compression_loss": 74.79360961914062,
      "distillation_loss": 3.9907779693603516,
      "epoch": 2.99,
      "learning_rate": 4.447088290544771e-05,
      "loss": 77.8046,
      "step": 3541,
      "task_loss": 2.940697193145752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7003124689377547,
      "compression/movement_sparsity/importance_threshold": -0.0019450154949116625,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7173506870037638,
      "compression/movement_sparsity/model_sparsity": 0.692707484076347,
      "compression_loss": 74.83362579345703,
      "distillation_loss": 3.0434093475341797,
      "epoch": 2.99,
      "learning_rate": 4.446775203506575e-05,
      "loss": 78.1133,
      "step": 3542,
      "task_loss": 2.682593584060669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7006905439954199,
      "compression/movement_sparsity/importance_threshold": -0.0019425617330124205,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7177157215476005,
      "compression/movement_sparsity/model_sparsity": 0.6930599785606252,
      "compression_loss": 74.8735580444336,
      "distillation_loss": 4.390281677246094,
      "epoch": 2.99,
      "learning_rate": 4.446462116468378e-05,
      "loss": 77.5065,
      "step": 3543,
      "task_loss": 2.8565256595611572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7010683009419907,
      "compression/movement_sparsity/importance_threshold": -0.0019401100357002692,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7181882882351774,
      "compression/movement_sparsity/model_sparsity": 0.6935163111286987,
      "compression_loss": 74.91343688964844,
      "distillation_loss": 2.669041872024536,
      "epoch": 3.0,
      "learning_rate": 4.4461490294301815e-05,
      "loss": 77.8592,
      "step": 3544,
      "task_loss": 1.6854088306427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7014457399113527,
      "compression/movement_sparsity/importance_threshold": -0.00193766040210627,
      "compression/movement_sparsity/linear_layer_sparsity": 0.718601234084575,
      "compression/movement_sparsity/model_sparsity": 0.6939150710177994,
      "compression_loss": 74.9532699584961,
      "distillation_loss": 3.8379297256469727,
      "epoch": 3.0,
      "learning_rate": 4.445835942391985e-05,
      "loss": 78.3395,
      "step": 3545,
      "task_loss": 1.7481732368469238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7018228610373907,
      "compression/movement_sparsity/importance_threshold": -0.001935212831361493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7190161235732971,
      "compression/movement_sparsity/model_sparsity": 0.6943157077762346,
      "compression_loss": 74.99308013916016,
      "distillation_loss": 3.211388111114502,
      "epoch": 3.0,
      "learning_rate": 4.4455228553537885e-05,
      "loss": 78.0,
      "step": 3546,
      "task_loss": 1.6500170230865479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7021996644539901,
      "compression/movement_sparsity/importance_threshold": -0.0019327673225970022,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7194532516346603,
      "compression/movement_sparsity/model_sparsity": 0.6947378191439267,
      "compression_loss": 75.03292083740234,
      "distillation_loss": 3.938809633255005,
      "epoch": 3.0,
      "learning_rate": 4.445209768315592e-05,
      "loss": 78.397,
      "step": 3547,
      "task_loss": 2.9108588695526123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7025761502950361,
      "compression/movement_sparsity/importance_threshold": -0.0019303238749438624,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7198173799417567,
      "compression/movement_sparsity/model_sparsity": 0.6950894385234846,
      "compression_loss": 75.07262420654297,
      "distillation_loss": 3.241940498352051,
      "epoch": 3.0,
      "learning_rate": 4.444896681277395e-05,
      "loss": 78.5123,
      "step": 3548,
      "task_loss": 1.7612582445144653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7029523186944135,
      "compression/movement_sparsity/importance_threshold": -0.0019278824875331411,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7202036633523204,
      "compression/movement_sparsity/model_sparsity": 0.6954624519105488,
      "compression_loss": 75.1123275756836,
      "distillation_loss": 3.398658275604248,
      "epoch": 3.0,
      "learning_rate": 4.444583594239199e-05,
      "loss": 78.3085,
      "step": 3549,
      "task_loss": 2.4252264499664307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7037037037037036,
      "compression/movement_sparsity/importance_threshold": -0.0019230058899632214,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7209359622593416,
      "compression/movement_sparsity/model_sparsity": 0.696169594097299,
      "compression_loss": 75.192138671875,
      "distillation_loss": 4.477725982666016,
      "epoch": 3.0,
      "learning_rate": 4.444270507201002e-05,
      "loss": 137.9143,
      "step": 3550,
      "task_loss": 2.224550485610962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7040789205813869,
      "compression/movement_sparsity/importance_threshold": -0.0019205706780661509,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7212956905485804,
      "compression/movement_sparsity/model_sparsity": 0.6965169646131486,
      "compression_loss": 75.23170471191406,
      "distillation_loss": 2.2986462116241455,
      "epoch": 3.0,
      "learning_rate": 4.443957420162805e-05,
      "loss": 77.8979,
      "step": 3551,
      "task_loss": 1.2223762273788452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7044538205529419,
      "compression/movement_sparsity/importance_threshold": -0.0019181375229357662,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7215581176299105,
      "compression/movement_sparsity/model_sparsity": 0.6967703765169149,
      "compression_loss": 75.27127838134766,
      "distillation_loss": 3.045870065689087,
      "epoch": 3.0,
      "learning_rate": 4.443644333124608e-05,
      "loss": 78.3945,
      "step": 3552,
      "task_loss": 1.491921067237854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7048284037522546,
      "compression/movement_sparsity/importance_threshold": -0.0019157064237031278,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7218198531095177,
      "compression/movement_sparsity/model_sparsity": 0.6970231205776051,
      "compression_loss": 75.31088256835938,
      "distillation_loss": 3.336623430252075,
      "epoch": 3.0,
      "learning_rate": 4.443331246086412e-05,
      "loss": 78.5461,
      "step": 3553,
      "task_loss": 1.8978300094604492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7052026703132095,
      "compression/movement_sparsity/importance_threshold": -0.0019132773794993058,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7223921416110333,
      "compression/movement_sparsity/model_sparsity": 0.6975757492085283,
      "compression_loss": 75.3503189086914,
      "distillation_loss": 3.766842842102051,
      "epoch": 3.0,
      "learning_rate": 4.443018159048215e-05,
      "loss": 78.7087,
      "step": 3554,
      "task_loss": 2.5866219997406006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7055766203696922,
      "compression/movement_sparsity/importance_threshold": -0.0019108503894553625,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7227893833316544,
      "compression/movement_sparsity/model_sparsity": 0.6979593444539876,
      "compression_loss": 75.3897476196289,
      "distillation_loss": 1.8641656637191772,
      "epoch": 3.01,
      "learning_rate": 4.442705072010019e-05,
      "loss": 78.059,
      "step": 3555,
      "task_loss": 1.3319326639175415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7059502540555873,
      "compression/movement_sparsity/importance_threshold": -0.0019084254527023678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7231029531679747,
      "compression/movement_sparsity/model_sparsity": 0.6982621422017766,
      "compression_loss": 75.42918395996094,
      "distillation_loss": 2.7768731117248535,
      "epoch": 3.01,
      "learning_rate": 4.442391984971822e-05,
      "loss": 78.2639,
      "step": 3556,
      "task_loss": 1.9650377035140991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7063235715047802,
      "compression/movement_sparsity/importance_threshold": -0.0019060025683713868,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7234131723131894,
      "compression/movement_sparsity/model_sparsity": 0.6985617043650074,
      "compression_loss": 75.46857452392578,
      "distillation_loss": 3.131680488586426,
      "epoch": 3.01,
      "learning_rate": 4.442078897933626e-05,
      "loss": 78.8576,
      "step": 3557,
      "task_loss": 1.8010410070419312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7066965728511565,
      "compression/movement_sparsity/importance_threshold": -0.0019035817355934825,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7238358482833778,
      "compression/movement_sparsity/model_sparsity": 0.6989698601153165,
      "compression_loss": 75.50786590576172,
      "distillation_loss": 4.752490043640137,
      "epoch": 3.01,
      "learning_rate": 4.4417658108954294e-05,
      "loss": 79.4735,
      "step": 3558,
      "task_loss": 3.149632692337036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7070692582286007,
      "compression/movement_sparsity/importance_threshold": -0.0019011629534997241,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7240215910426416,
      "compression/movement_sparsity/model_sparsity": 0.699149222039388,
      "compression_loss": 75.54719543457031,
      "distillation_loss": 2.4303901195526123,
      "epoch": 3.01,
      "learning_rate": 4.4414527238572325e-05,
      "loss": 78.5913,
      "step": 3559,
      "task_loss": 1.0420986413955688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7074416277709983,
      "compression/movement_sparsity/importance_threshold": -0.0018987462212211766,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7243874722023804,
      "compression/movement_sparsity/model_sparsity": 0.6995025340557077,
      "compression_loss": 75.58644104003906,
      "distillation_loss": 5.05695915222168,
      "epoch": 3.01,
      "learning_rate": 4.4411396368190364e-05,
      "loss": 78.8881,
      "step": 3560,
      "task_loss": 2.9575765132904053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7078136816122341,
      "compression/movement_sparsity/importance_threshold": -0.0018963315378889064,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7246876511984456,
      "compression/movement_sparsity/model_sparsity": 0.6997924009797994,
      "compression_loss": 75.62561798095703,
      "distillation_loss": 3.978353500366211,
      "epoch": 3.01,
      "learning_rate": 4.4408265497808396e-05,
      "loss": 78.7751,
      "step": 3561,
      "task_loss": 2.339336395263672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7081854198861938,
      "compression/movement_sparsity/importance_threshold": -0.0018939189026339785,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7249872459102967,
      "compression/movement_sparsity/model_sparsity": 0.7000817036916374,
      "compression_loss": 75.6648178100586,
      "distillation_loss": 2.4307589530944824,
      "epoch": 3.01,
      "learning_rate": 4.440513462742643e-05,
      "loss": 79.0102,
      "step": 3562,
      "task_loss": 1.7913055419921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7085568427267619,
      "compression/movement_sparsity/importance_threshold": -0.0018915083145874603,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7253363259178366,
      "compression/movement_sparsity/model_sparsity": 0.7004187917270225,
      "compression_loss": 75.7039566040039,
      "distillation_loss": 3.564100980758667,
      "epoch": 3.01,
      "learning_rate": 4.440200375704446e-05,
      "loss": 78.6702,
      "step": 3563,
      "task_loss": 2.6619672775268555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7089279502678241,
      "compression/movement_sparsity/importance_threshold": -0.001889099772880416,
      "compression/movement_sparsity/linear_layer_sparsity": 0.725709456971498,
      "compression/movement_sparsity/model_sparsity": 0.7007791045811053,
      "compression_loss": 75.7430191040039,
      "distillation_loss": 3.104269504547119,
      "epoch": 3.01,
      "learning_rate": 4.43988728866625e-05,
      "loss": 78.808,
      "step": 3564,
      "task_loss": 2.1763858795166016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.709298742643265,
      "compression/movement_sparsity/importance_threshold": -0.0018866932766439144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7261858274685508,
      "compression/movement_sparsity/model_sparsity": 0.7012391102860972,
      "compression_loss": 75.78218078613281,
      "distillation_loss": 2.5635428428649902,
      "epoch": 3.01,
      "learning_rate": 4.439574201628053e-05,
      "loss": 78.5337,
      "step": 3565,
      "task_loss": 1.1061581373214722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7096692199869703,
      "compression/movement_sparsity/importance_threshold": -0.001884288825009019,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7265532468459146,
      "compression/movement_sparsity/model_sparsity": 0.7015939076775344,
      "compression_loss": 75.82121276855469,
      "distillation_loss": 3.045382499694824,
      "epoch": 3.01,
      "learning_rate": 4.439261114589856e-05,
      "loss": 78.9692,
      "step": 3566,
      "task_loss": 2.1024227142333984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7100393824328246,
      "compression/movement_sparsity/importance_threshold": -0.001881886417106798,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7269741461151252,
      "compression/movement_sparsity/model_sparsity": 0.70200034776201,
      "compression_loss": 75.86022186279297,
      "distillation_loss": 3.1634793281555176,
      "epoch": 3.02,
      "learning_rate": 4.43894802755166e-05,
      "loss": 79.167,
      "step": 3567,
      "task_loss": 1.5554254055023193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7104092301147134,
      "compression/movement_sparsity/importance_threshold": -0.0018794860520683155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7273990161321587,
      "compression/movement_sparsity/model_sparsity": 0.7024106221869053,
      "compression_loss": 75.89920043945312,
      "distillation_loss": 2.642212390899658,
      "epoch": 3.02,
      "learning_rate": 4.438634940513463e-05,
      "loss": 79.3303,
      "step": 3568,
      "task_loss": 3.131093978881836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7107787631665219,
      "compression/movement_sparsity/importance_threshold": -0.001877087729024638,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7276161552248077,
      "compression/movement_sparsity/model_sparsity": 0.7026203018837239,
      "compression_loss": 75.93812561035156,
      "distillation_loss": 4.578335762023926,
      "epoch": 3.02,
      "learning_rate": 4.4383218534752664e-05,
      "loss": 79.3734,
      "step": 3569,
      "task_loss": 2.2910420894622803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7111479817221347,
      "compression/movement_sparsity/importance_threshold": -0.0018746914471068337,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7280066240182117,
      "compression/movement_sparsity/model_sparsity": 0.7029973568728519,
      "compression_loss": 75.97703552246094,
      "distillation_loss": 2.911383867263794,
      "epoch": 3.02,
      "learning_rate": 4.4380087664370695e-05,
      "loss": 78.8617,
      "step": 3570,
      "task_loss": 2.3898024559020996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7115168859154377,
      "compression/movement_sparsity/importance_threshold": -0.0018722972054459643,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7283742222580901,
      "compression/movement_sparsity/model_sparsity": 0.7033523269823261,
      "compression_loss": 76.01588439941406,
      "distillation_loss": 3.844820976257324,
      "epoch": 3.02,
      "learning_rate": 4.4376956793988734e-05,
      "loss": 79.3759,
      "step": 3571,
      "task_loss": 3.2330288887023926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7118854758803155,
      "compression/movement_sparsity/importance_threshold": -0.0018699050031731005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7288508550868308,
      "compression/movement_sparsity/model_sparsity": 0.7038125860071055,
      "compression_loss": 76.05479431152344,
      "distillation_loss": 3.176790714263916,
      "epoch": 3.02,
      "learning_rate": 4.4373825923606766e-05,
      "loss": 79.2416,
      "step": 3572,
      "task_loss": 2.46520733833313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7122537517506536,
      "compression/movement_sparsity/importance_threshold": -0.0018675148394193038,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7291628032363526,
      "compression/movement_sparsity/model_sparsity": 0.7041138177780264,
      "compression_loss": 76.09361267089844,
      "distillation_loss": 5.269916534423828,
      "epoch": 3.02,
      "learning_rate": 4.43706950532248e-05,
      "loss": 79.6783,
      "step": 3573,
      "task_loss": 4.3259429931640625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7126217136603368,
      "compression/movement_sparsity/importance_threshold": -0.0018651267133156443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7295040609899234,
      "compression/movement_sparsity/model_sparsity": 0.7044433522779304,
      "compression_loss": 76.13240051269531,
      "distillation_loss": 3.723994731903076,
      "epoch": 3.02,
      "learning_rate": 4.436756418284283e-05,
      "loss": 79.4293,
      "step": 3574,
      "task_loss": 2.431001663208008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7129893617432504,
      "compression/movement_sparsity/importance_threshold": -0.0018627406239931851,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7299178653793907,
      "compression/movement_sparsity/model_sparsity": 0.7048429412136084,
      "compression_loss": 76.1711654663086,
      "distillation_loss": 3.392322063446045,
      "epoch": 3.02,
      "learning_rate": 4.436443331246087e-05,
      "loss": 79.5901,
      "step": 3575,
      "task_loss": 2.1494698524475098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7133566961332795,
      "compression/movement_sparsity/importance_threshold": -0.0018603565705829954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7303075233293955,
      "compression/movement_sparsity/model_sparsity": 0.7052192132143024,
      "compression_loss": 76.2099380493164,
      "distillation_loss": 3.890594244003296,
      "epoch": 3.02,
      "learning_rate": 4.43613024420789e-05,
      "loss": 79.2564,
      "step": 3576,
      "task_loss": 3.4002721309661865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7137237169643091,
      "compression/movement_sparsity/importance_threshold": -0.0018579745522161392,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7306921015839873,
      "compression/movement_sparsity/model_sparsity": 0.7055905800227479,
      "compression_loss": 76.24860382080078,
      "distillation_loss": 3.0819597244262695,
      "epoch": 3.02,
      "learning_rate": 4.435817157169693e-05,
      "loss": 79.744,
      "step": 3577,
      "task_loss": 1.1270776987075806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7140904243702249,
      "compression/movement_sparsity/importance_threshold": -0.0018555945680236814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7309685872589601,
      "compression/movement_sparsity/model_sparsity": 0.7058575675642159,
      "compression_loss": 76.28731536865234,
      "distillation_loss": 3.532421588897705,
      "epoch": 3.02,
      "learning_rate": 4.435504070131496e-05,
      "loss": 79.3156,
      "step": 3578,
      "task_loss": 1.0204206705093384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7144568184849114,
      "compression/movement_sparsity/importance_threshold": -0.0018532166171366894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7313384749390246,
      "compression/movement_sparsity/model_sparsity": 0.7062147484645626,
      "compression_loss": 76.3259048461914,
      "distillation_loss": 3.268002986907959,
      "epoch": 3.03,
      "learning_rate": 4.4351909830933e-05,
      "loss": 79.4378,
      "step": 3579,
      "task_loss": 2.5027732849121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7148228994422541,
      "compression/movement_sparsity/importance_threshold": -0.001850840698686229,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7317478435381314,
      "compression/movement_sparsity/model_sparsity": 0.706610053992925,
      "compression_loss": 76.36453247070312,
      "distillation_loss": 3.6075427532196045,
      "epoch": 3.03,
      "learning_rate": 4.4348778960551033e-05,
      "loss": 80.0413,
      "step": 3580,
      "task_loss": 2.1746864318847656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7151886673761378,
      "compression/movement_sparsity/importance_threshold": -0.0018484668118033684,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7320803489526574,
      "compression/movement_sparsity/model_sparsity": 0.7069311368235557,
      "compression_loss": 76.40311431884766,
      "distillation_loss": 4.750518798828125,
      "epoch": 3.03,
      "learning_rate": 4.4345648090169065e-05,
      "loss": 80.0529,
      "step": 3581,
      "task_loss": 2.503535747528076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7155541224204482,
      "compression/movement_sparsity/importance_threshold": -0.0018460949556191692,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7325848843336661,
      "compression/movement_sparsity/model_sparsity": 0.7074183398620943,
      "compression_loss": 76.44166564941406,
      "distillation_loss": 4.435973167419434,
      "epoch": 3.03,
      "learning_rate": 4.4342517219787104e-05,
      "loss": 80.189,
      "step": 3582,
      "task_loss": 1.866907000541687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.71591926470907,
      "compression/movement_sparsity/importance_threshold": -0.0018437251292647006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7328573515641456,
      "compression/movement_sparsity/model_sparsity": 0.7076814470049996,
      "compression_loss": 76.48021697998047,
      "distillation_loss": 3.8892765045166016,
      "epoch": 3.03,
      "learning_rate": 4.4339386349405136e-05,
      "loss": 80.3519,
      "step": 3583,
      "task_loss": 2.674386501312256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7162840943758886,
      "compression/movement_sparsity/importance_threshold": -0.0018413573318710273,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7332012445587638,
      "compression/movement_sparsity/model_sparsity": 0.7080135262173142,
      "compression_loss": 76.51872253417969,
      "distillation_loss": 6.001250267028809,
      "epoch": 3.03,
      "learning_rate": 4.433625547902317e-05,
      "loss": 80.4919,
      "step": 3584,
      "task_loss": 3.027952194213867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7166486115547885,
      "compression/movement_sparsity/importance_threshold": -0.0018389915625692185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7335777978485367,
      "compression/movement_sparsity/model_sparsity": 0.70837714374317,
      "compression_loss": 76.55717468261719,
      "distillation_loss": 3.8857197761535645,
      "epoch": 3.03,
      "learning_rate": 4.43331246086412e-05,
      "loss": 80.5512,
      "step": 3585,
      "task_loss": 2.725917100906372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7170128163796559,
      "compression/movement_sparsity/importance_threshold": -0.001836627820490335,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7338257966870274,
      "compression/movement_sparsity/model_sparsity": 0.7086166230586248,
      "compression_loss": 76.59563446044922,
      "distillation_loss": 4.7574286460876465,
      "epoch": 3.03,
      "learning_rate": 4.432999373825924e-05,
      "loss": 79.6996,
      "step": 3586,
      "task_loss": 2.382452964782715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.717376708984375,
      "compression/movement_sparsity/importance_threshold": -0.0018342661047654474,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7340709456494531,
      "compression/movement_sparsity/model_sparsity": 0.7088533504000247,
      "compression_loss": 76.63407897949219,
      "distillation_loss": 2.4635610580444336,
      "epoch": 3.03,
      "learning_rate": 4.432686286787727e-05,
      "loss": 79.8647,
      "step": 3587,
      "task_loss": 2.811174154281616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7177402895028313,
      "compression/movement_sparsity/importance_threshold": -0.00183190641452562,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7343791973070078,
      "compression/movement_sparsity/model_sparsity": 0.7091510126648495,
      "compression_loss": 76.67244720458984,
      "distillation_loss": 3.478736639022827,
      "epoch": 3.03,
      "learning_rate": 4.432373199749531e-05,
      "loss": 79.924,
      "step": 3588,
      "task_loss": 1.9901273250579834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7181035580689104,
      "compression/movement_sparsity/importance_threshold": -0.0018295487489019165,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7346927909916634,
      "compression/movement_sparsity/model_sparsity": 0.7094538334417101,
      "compression_loss": 76.71080017089844,
      "distillation_loss": 3.0574965476989746,
      "epoch": 3.03,
      "learning_rate": 4.432060112711334e-05,
      "loss": 79.3303,
      "step": 3589,
      "task_loss": 1.308659315109253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7184665148164965,
      "compression/movement_sparsity/importance_threshold": -0.0018271931070254072,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7350477973105183,
      "compression/movement_sparsity/model_sparsity": 0.7097966442013851,
      "compression_loss": 76.74909973144531,
      "distillation_loss": 3.3358030319213867,
      "epoch": 3.03,
      "learning_rate": 4.431747025673137e-05,
      "loss": 79.7473,
      "step": 3590,
      "task_loss": 1.9157742261886597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7188291598794756,
      "compression/movement_sparsity/importance_threshold": -0.0018248394880271543,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7355050175943478,
      "compression/movement_sparsity/model_sparsity": 0.710238157561891,
      "compression_loss": 76.78739166259766,
      "distillation_loss": 2.5562069416046143,
      "epoch": 3.04,
      "learning_rate": 4.431433938634941e-05,
      "loss": 80.1827,
      "step": 3591,
      "task_loss": 1.9325644969940186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7191914933917322,
      "compression/movement_sparsity/importance_threshold": -0.0018224878910382278,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7358003673025205,
      "compression/movement_sparsity/model_sparsity": 0.710523361098986,
      "compression_loss": 76.8255615234375,
      "distillation_loss": 3.8533387184143066,
      "epoch": 3.04,
      "learning_rate": 4.431120851596744e-05,
      "loss": 79.9994,
      "step": 3592,
      "task_loss": 2.904550313949585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.719553515487152,
      "compression/movement_sparsity/importance_threshold": -0.0018201383151896901,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7362236156327555,
      "compression/movement_sparsity/model_sparsity": 0.7109320695470132,
      "compression_loss": 76.86372375488281,
      "distillation_loss": 2.5310556888580322,
      "epoch": 3.04,
      "learning_rate": 4.430807764558548e-05,
      "loss": 79.8879,
      "step": 3593,
      "task_loss": 1.107737421989441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7199152262996196,
      "compression/movement_sparsity/importance_threshold": -0.0018177907596126095,
      "compression/movement_sparsity/linear_layer_sparsity": 0.736587278897314,
      "compression/movement_sparsity/model_sparsity": 0.7112832398596751,
      "compression_loss": 76.90182495117188,
      "distillation_loss": 3.9728596210479736,
      "epoch": 3.04,
      "learning_rate": 4.430494677520351e-05,
      "loss": 80.0161,
      "step": 3594,
      "task_loss": 1.8572592735290527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7202766259630206,
      "compression/movement_sparsity/importance_threshold": -0.0018154452234380508,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7370370346522035,
      "compression/movement_sparsity/model_sparsity": 0.7117175451207736,
      "compression_loss": 76.93992614746094,
      "distillation_loss": 3.798469066619873,
      "epoch": 3.04,
      "learning_rate": 4.4301815904821544e-05,
      "loss": 80.159,
      "step": 3595,
      "task_loss": 1.8126416206359863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7206377146112397,
      "compression/movement_sparsity/importance_threshold": -0.0018131017057970815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7374322850368294,
      "compression/movement_sparsity/model_sparsity": 0.7120992174387553,
      "compression_loss": 76.97797393798828,
      "distillation_loss": 3.0008544921875,
      "epoch": 3.04,
      "learning_rate": 4.4298685034439576e-05,
      "loss": 80.1493,
      "step": 3596,
      "task_loss": 1.3953158855438232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7209984923781626,
      "compression/movement_sparsity/importance_threshold": -0.0018107602058207647,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7378746835802876,
      "compression/movement_sparsity/model_sparsity": 0.7125264182312685,
      "compression_loss": 77.01590728759766,
      "distillation_loss": 2.7801480293273926,
      "epoch": 3.04,
      "learning_rate": 4.4295554164057614e-05,
      "loss": 79.5896,
      "step": 3597,
      "task_loss": 3.260056972503662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7213589593976738,
      "compression/movement_sparsity/importance_threshold": -0.0018084207226401706,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7383018788100101,
      "compression/movement_sparsity/model_sparsity": 0.7129389379906437,
      "compression_loss": 77.05386352539062,
      "distillation_loss": 2.7070093154907227,
      "epoch": 3.04,
      "learning_rate": 4.4292423293675646e-05,
      "loss": 79.7216,
      "step": 3598,
      "task_loss": 2.8922271728515625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7217191158036588,
      "compression/movement_sparsity/importance_threshold": -0.001806083255386363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7386246183312423,
      "compression/movement_sparsity/model_sparsity": 0.7132505904164588,
      "compression_loss": 77.09180450439453,
      "distillation_loss": 3.265291690826416,
      "epoch": 3.04,
      "learning_rate": 4.428929242329368e-05,
      "loss": 80.7942,
      "step": 3599,
      "task_loss": 1.9105757474899292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.722078961730003,
      "compression/movement_sparsity/importance_threshold": -0.0018037478031904053,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7389951499163592,
      "compression/movement_sparsity/model_sparsity": 0.7136083931017383,
      "compression_loss": 77.12969970703125,
      "distillation_loss": 3.6068105697631836,
      "epoch": 3.04,
      "learning_rate": 4.428616155291171e-05,
      "loss": 80.269,
      "step": 3600,
      "task_loss": 2.2278811931610107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7224384973105908,
      "compression/movement_sparsity/importance_threshold": -0.001801414365183369,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7394678716181152,
      "compression/movement_sparsity/model_sparsity": 0.714064875358777,
      "compression_loss": 77.16756439208984,
      "distillation_loss": 2.752007484436035,
      "epoch": 3.04,
      "learning_rate": 4.428303068252975e-05,
      "loss": 79.9602,
      "step": 3601,
      "task_loss": 2.7462007999420166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7227977226793083,
      "compression/movement_sparsity/importance_threshold": -0.001799082940496315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7399603635898117,
      "compression/movement_sparsity/model_sparsity": 0.7145404487161632,
      "compression_loss": 77.2054214477539,
      "distillation_loss": 4.3529052734375,
      "epoch": 3.04,
      "learning_rate": 4.427989981214778e-05,
      "loss": 81.2421,
      "step": 3602,
      "task_loss": 2.9055633544921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7231566379700398,
      "compression/movement_sparsity/importance_threshold": -0.0017967535282603139,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7402950511270151,
      "compression/movement_sparsity/model_sparsity": 0.7148636387068444,
      "compression_loss": 77.24327087402344,
      "distillation_loss": 3.955024242401123,
      "epoch": 3.05,
      "learning_rate": 4.427676894176581e-05,
      "loss": 80.7427,
      "step": 3603,
      "task_loss": 2.586437463760376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7235152433166709,
      "compression/movement_sparsity/importance_threshold": -0.001794426127606428,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7405455898132122,
      "compression/movement_sparsity/model_sparsity": 0.7151055706184235,
      "compression_loss": 77.28106689453125,
      "distillation_loss": 3.918201446533203,
      "epoch": 3.05,
      "learning_rate": 4.427363807138385e-05,
      "loss": 80.5166,
      "step": 3604,
      "task_loss": 2.3276305198669434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7238735388530865,
      "compression/movement_sparsity/importance_threshold": -0.0017921007376657258,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7408995706536504,
      "compression/movement_sparsity/model_sparsity": 0.7154473911280202,
      "compression_loss": 77.31881713867188,
      "distillation_loss": 2.534377336502075,
      "epoch": 3.05,
      "learning_rate": 4.427050720100188e-05,
      "loss": 80.1353,
      "step": 3605,
      "task_loss": 1.0602240562438965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7242315247131721,
      "compression/movement_sparsity/importance_threshold": -0.0017897773575692713,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7412304901538809,
      "compression/movement_sparsity/model_sparsity": 0.7157669425253903,
      "compression_loss": 77.35657501220703,
      "distillation_loss": 3.181241035461426,
      "epoch": 3.05,
      "learning_rate": 4.4267376330619914e-05,
      "loss": 80.2621,
      "step": 3606,
      "task_loss": 1.4473333358764648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7245892010308121,
      "compression/movement_sparsity/importance_threshold": -0.0017874559864481335,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7415379071197011,
      "compression/movement_sparsity/model_sparsity": 0.7160637987727094,
      "compression_loss": 77.39427185058594,
      "distillation_loss": 6.215128421783447,
      "epoch": 3.05,
      "learning_rate": 4.4264245460237946e-05,
      "loss": 81.0523,
      "step": 3607,
      "task_loss": 2.7484066486358643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7249465679398923,
      "compression/movement_sparsity/importance_threshold": -0.0017851366234333766,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7419823804683279,
      "compression/movement_sparsity/model_sparsity": 0.7164930030944509,
      "compression_loss": 77.43197631835938,
      "distillation_loss": 5.144721984863281,
      "epoch": 3.05,
      "learning_rate": 4.4261114589855984e-05,
      "loss": 80.8959,
      "step": 3608,
      "task_loss": 2.2884976863861084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.725303625574298,
      "compression/movement_sparsity/importance_threshold": -0.0017828192676560646,
      "compression/movement_sparsity/linear_layer_sparsity": 0.742273163220296,
      "compression/movement_sparsity/model_sparsity": 0.7167737965643366,
      "compression_loss": 77.46965789794922,
      "distillation_loss": 1.9961227178573608,
      "epoch": 3.05,
      "learning_rate": 4.4257983719474016e-05,
      "loss": 80.2964,
      "step": 3609,
      "task_loss": 1.066470980644226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7256603740679137,
      "compression/movement_sparsity/importance_threshold": -0.0017805039182472665,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7426088523875809,
      "compression/movement_sparsity/model_sparsity": 0.7170979537760245,
      "compression_loss": 77.50731658935547,
      "distillation_loss": 3.7969813346862793,
      "epoch": 3.05,
      "learning_rate": 4.425485284909205e-05,
      "loss": 80.6433,
      "step": 3610,
      "task_loss": 1.7196377515792847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7260168135546251,
      "compression/movement_sparsity/importance_threshold": -0.0017781905743380465,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7429856441607064,
      "compression/movement_sparsity/model_sparsity": 0.7174618015925962,
      "compression_loss": 77.54489135742188,
      "distillation_loss": 2.9429688453674316,
      "epoch": 3.05,
      "learning_rate": 4.425172197871008e-05,
      "loss": 80.1422,
      "step": 3611,
      "task_loss": 1.6612135171890259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7263729441683169,
      "compression/movement_sparsity/importance_threshold": -0.001775879235059473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7434042778380664,
      "compression/movement_sparsity/model_sparsity": 0.7178660539152709,
      "compression_loss": 77.58243560791016,
      "distillation_loss": 4.491946697235107,
      "epoch": 3.05,
      "learning_rate": 4.424859110832812e-05,
      "loss": 80.9363,
      "step": 3612,
      "task_loss": 2.8611388206481934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7267287660428745,
      "compression/movement_sparsity/importance_threshold": -0.0017735698995426097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7436950844383698,
      "compression/movement_sparsity/model_sparsity": 0.7181468704142282,
      "compression_loss": 77.61996459960938,
      "distillation_loss": 2.316256284713745,
      "epoch": 3.05,
      "learning_rate": 4.424546023794615e-05,
      "loss": 81.0116,
      "step": 3613,
      "task_loss": 1.3472588062286377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7270842793121828,
      "compression/movement_sparsity/importance_threshold": -0.0017712625669185252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7440707195672348,
      "compression/movement_sparsity/model_sparsity": 0.7185096013208278,
      "compression_loss": 77.65746307373047,
      "distillation_loss": 3.6571590900421143,
      "epoch": 3.05,
      "learning_rate": 4.424232936756418e-05,
      "loss": 80.2153,
      "step": 3614,
      "task_loss": 2.135869026184082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7274394841101275,
      "compression/movement_sparsity/importance_threshold": -0.0017689572363182807,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7444206581148445,
      "compression/movement_sparsity/model_sparsity": 0.7188475184027902,
      "compression_loss": 77.6948471069336,
      "distillation_loss": 2.35872745513916,
      "epoch": 3.06,
      "learning_rate": 4.423919849718222e-05,
      "loss": 80.289,
      "step": 3615,
      "task_loss": 1.5825508832931519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7277943805705929,
      "compression/movement_sparsity/importance_threshold": -0.001766653906872949,
      "compression/movement_sparsity/linear_layer_sparsity": 0.744724724389559,
      "compression/movement_sparsity/model_sparsity": 0.719141139065551,
      "compression_loss": 77.73225402832031,
      "distillation_loss": 2.9137988090515137,
      "epoch": 3.06,
      "learning_rate": 4.423606762680025e-05,
      "loss": 80.8079,
      "step": 3616,
      "task_loss": 1.3599717617034912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7281489688274649,
      "compression/movement_sparsity/importance_threshold": -0.00176435257771359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7452265052878437,
      "compression/movement_sparsity/model_sparsity": 0.7196256822463211,
      "compression_loss": 77.76960754394531,
      "distillation_loss": 4.037845611572266,
      "epoch": 3.06,
      "learning_rate": 4.4232936756418284e-05,
      "loss": 81.0236,
      "step": 3617,
      "task_loss": 2.941525459289551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7285032490146282,
      "compression/movement_sparsity/importance_threshold": -0.0017620532479712741,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7456410012790339,
      "compression/movement_sparsity/model_sparsity": 0.7200259390250751,
      "compression_loss": 77.80686950683594,
      "distillation_loss": 2.7546355724334717,
      "epoch": 3.06,
      "learning_rate": 4.4229805886036316e-05,
      "loss": 80.5209,
      "step": 3618,
      "task_loss": 1.7317492961883545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7288572212659681,
      "compression/movement_sparsity/importance_threshold": -0.0017597559167770649,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7458633512329399,
      "compression/movement_sparsity/model_sparsity": 0.7202406505740359,
      "compression_loss": 77.8442153930664,
      "distillation_loss": 3.032512664794922,
      "epoch": 3.06,
      "learning_rate": 4.4226675015654354e-05,
      "loss": 82.2569,
      "step": 3619,
      "task_loss": 1.0733007192611694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7292108857153698,
      "compression/movement_sparsity/importance_threshold": -0.0017574605832620278,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7462441733747264,
      "compression/movement_sparsity/model_sparsity": 0.7206083903037062,
      "compression_loss": 77.88151550292969,
      "distillation_loss": 3.2697787284851074,
      "epoch": 3.06,
      "learning_rate": 4.4223544145272386e-05,
      "loss": 80.582,
      "step": 3620,
      "task_loss": 1.898140549659729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7295642424967181,
      "compression/movement_sparsity/importance_threshold": -0.0017551672465572323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7464630653200179,
      "compression/movement_sparsity/model_sparsity": 0.7208197626372865,
      "compression_loss": 77.918701171875,
      "distillation_loss": 4.518433570861816,
      "epoch": 3.06,
      "learning_rate": 4.422041327489042e-05,
      "loss": 82.3394,
      "step": 3621,
      "task_loss": 2.8371496200561523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7299172917438987,
      "compression/movement_sparsity/importance_threshold": -0.0017528759057937405,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7468326548958916,
      "compression/movement_sparsity/model_sparsity": 0.7211766556742383,
      "compression_loss": 77.9559097290039,
      "distillation_loss": 4.580798625946045,
      "epoch": 3.06,
      "learning_rate": 4.4217282404508456e-05,
      "loss": 81.2667,
      "step": 3622,
      "task_loss": 2.728023052215576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7302700335907963,
      "compression/movement_sparsity/importance_threshold": -0.0017505865601026207,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7472672192612129,
      "compression/movement_sparsity/model_sparsity": 0.7215962914167345,
      "compression_loss": 77.99307250976562,
      "distillation_loss": 3.4792189598083496,
      "epoch": 3.06,
      "learning_rate": 4.421415153412649e-05,
      "loss": 81.188,
      "step": 3623,
      "task_loss": 2.0538363456726074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7306224681712964,
      "compression/movement_sparsity/importance_threshold": -0.0017482992086149379,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7475362404072456,
      "compression/movement_sparsity/model_sparsity": 0.7218560708587952,
      "compression_loss": 78.03022003173828,
      "distillation_loss": 4.547062873840332,
      "epoch": 3.06,
      "learning_rate": 4.421102066374453e-05,
      "loss": 81.5491,
      "step": 3624,
      "task_loss": 3.381809711456299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7309745956192836,
      "compression/movement_sparsity/importance_threshold": -0.0017460138504617603,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7478673506941582,
      "compression/movement_sparsity/model_sparsity": 0.722175806488738,
      "compression_loss": 78.06736755371094,
      "distillation_loss": 3.141965389251709,
      "epoch": 3.06,
      "learning_rate": 4.420788979336256e-05,
      "loss": 81.8488,
      "step": 3625,
      "task_loss": 1.4020389318466187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7313264160686437,
      "compression/movement_sparsity/importance_threshold": -0.0017437304847741503,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7482394324210677,
      "compression/movement_sparsity/model_sparsity": 0.7225351060636709,
      "compression_loss": 78.10445404052734,
      "distillation_loss": 4.267266273498535,
      "epoch": 3.07,
      "learning_rate": 4.420475892298059e-05,
      "loss": 81.3185,
      "step": 3626,
      "task_loss": 2.6754324436187744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7316779296532612,
      "compression/movement_sparsity/importance_threshold": -0.001741449110683177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7486269559450657,
      "compression/movement_sparsity/model_sparsity": 0.7229093169624576,
      "compression_loss": 78.14151000976562,
      "distillation_loss": 3.3589515686035156,
      "epoch": 3.07,
      "learning_rate": 4.420162805259863e-05,
      "loss": 81.1748,
      "step": 3627,
      "task_loss": 1.999585509300232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7320291365070214,
      "compression/movement_sparsity/importance_threshold": -0.001739169727319907,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7489918235505554,
      "compression/movement_sparsity/model_sparsity": 0.7232616502432347,
      "compression_loss": 78.17847442626953,
      "distillation_loss": 3.133018970489502,
      "epoch": 3.07,
      "learning_rate": 4.419849718221666e-05,
      "loss": 81.442,
      "step": 3628,
      "task_loss": 2.3964903354644775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.73238003676381,
      "compression/movement_sparsity/importance_threshold": -0.0017368923338154018,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7492888068696942,
      "compression/movement_sparsity/model_sparsity": 0.7235484312717336,
      "compression_loss": 78.21541595458984,
      "distillation_loss": 3.956521987915039,
      "epoch": 3.07,
      "learning_rate": 4.419536631183469e-05,
      "loss": 81.5547,
      "step": 3629,
      "task_loss": 2.651926279067993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7327306305575114,
      "compression/movement_sparsity/importance_threshold": -0.0017346169293007332,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7494779360925666,
      "compression/movement_sparsity/model_sparsity": 0.7237310633239709,
      "compression_loss": 78.25236511230469,
      "distillation_loss": 3.3483009338378906,
      "epoch": 3.07,
      "learning_rate": 4.419223544145273e-05,
      "loss": 81.0787,
      "step": 3630,
      "task_loss": 1.2515430450439453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7330809180220114,
      "compression/movement_sparsity/importance_threshold": -0.0017323435129069616,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7499490480316919,
      "compression/movement_sparsity/model_sparsity": 0.7241859911186773,
      "compression_loss": 78.28919982910156,
      "distillation_loss": 3.8082053661346436,
      "epoch": 3.07,
      "learning_rate": 4.418910457107076e-05,
      "loss": 81.7366,
      "step": 3631,
      "task_loss": 3.145416498184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7334308992911944,
      "compression/movement_sparsity/importance_threshold": -0.001730072083765158,
      "compression/movement_sparsity/linear_layer_sparsity": 0.750161536698963,
      "compression/movement_sparsity/model_sparsity": 0.724391180146536,
      "compression_loss": 78.32604217529297,
      "distillation_loss": 4.595346927642822,
      "epoch": 3.07,
      "learning_rate": 4.4185973700688794e-05,
      "loss": 82.6242,
      "step": 3632,
      "task_loss": 2.02565860748291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7337805744989463,
      "compression/movement_sparsity/importance_threshold": -0.0017278026410063848,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7506908862728219,
      "compression/movement_sparsity/model_sparsity": 0.7249023449340631,
      "compression_loss": 78.36288452148438,
      "distillation_loss": 5.433276176452637,
      "epoch": 3.07,
      "learning_rate": 4.4182842830306826e-05,
      "loss": 82.4369,
      "step": 3633,
      "task_loss": 2.8843348026275635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7341299437791516,
      "compression/movement_sparsity/importance_threshold": -0.001725535183761711,
      "compression/movement_sparsity/linear_layer_sparsity": 0.751044807492422,
      "compression/movement_sparsity/model_sparsity": 0.7252441078709809,
      "compression_loss": 78.3996353149414,
      "distillation_loss": 4.625478744506836,
      "epoch": 3.07,
      "learning_rate": 4.4179711959924865e-05,
      "loss": 82.0365,
      "step": 3634,
      "task_loss": 3.2120397090911865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.734479007265696,
      "compression/movement_sparsity/importance_threshold": -0.0017232697111621998,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7514867409933423,
      "compression/movement_sparsity/model_sparsity": 0.7256708595965982,
      "compression_loss": 78.4363784790039,
      "distillation_loss": 4.03125524520874,
      "epoch": 3.07,
      "learning_rate": 4.41765810895429e-05,
      "loss": 81.6831,
      "step": 3635,
      "task_loss": 2.158158540725708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7348277650924642,
      "compression/movement_sparsity/importance_threshold": -0.0017210062223389196,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7517871465485926,
      "compression/movement_sparsity/model_sparsity": 0.72596094529687,
      "compression_loss": 78.47310638427734,
      "distillation_loss": 3.0152032375335693,
      "epoch": 3.07,
      "learning_rate": 4.417345021916093e-05,
      "loss": 81.7813,
      "step": 3636,
      "task_loss": 1.5624889135360718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7351762173933416,
      "compression/movement_sparsity/importance_threshold": -0.0017187447164229343,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7520464614221697,
      "compression/movement_sparsity/model_sparsity": 0.7262113519067939,
      "compression_loss": 78.509765625,
      "distillation_loss": 2.4387426376342773,
      "epoch": 3.07,
      "learning_rate": 4.417031934877896e-05,
      "loss": 81.7479,
      "step": 3637,
      "task_loss": 1.45798659324646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7355243643022131,
      "compression/movement_sparsity/importance_threshold": -0.0017164851925453124,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7524807276833002,
      "compression/movement_sparsity/model_sparsity": 0.7266306997858952,
      "compression_loss": 78.54641723632812,
      "distillation_loss": 4.960605621337891,
      "epoch": 3.08,
      "learning_rate": 4.4167188478397e-05,
      "loss": 82.1377,
      "step": 3638,
      "task_loss": 2.9077093601226807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7358722059529639,
      "compression/movement_sparsity/importance_threshold": -0.0017142276498371203,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7527407699311031,
      "compression/movement_sparsity/model_sparsity": 0.7268818087825026,
      "compression_loss": 78.58311462402344,
      "distillation_loss": 3.8493051528930664,
      "epoch": 3.08,
      "learning_rate": 4.416405760801503e-05,
      "loss": 81.9104,
      "step": 3639,
      "task_loss": 1.7890443801879883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7362197424794796,
      "compression/movement_sparsity/importance_threshold": -0.0017119720874294187,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7530880732376652,
      "compression/movement_sparsity/model_sparsity": 0.7272171811520544,
      "compression_loss": 78.6197280883789,
      "distillation_loss": 3.4963693618774414,
      "epoch": 3.08,
      "learning_rate": 4.416092673763306e-05,
      "loss": 82.2736,
      "step": 3640,
      "task_loss": 2.3061511516571045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7365669740156446,
      "compression/movement_sparsity/importance_threshold": -0.0017097185044532793,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7534272800344026,
      "compression/movement_sparsity/model_sparsity": 0.7275447351518017,
      "compression_loss": 78.65621948242188,
      "distillation_loss": 3.5803723335266113,
      "epoch": 3.08,
      "learning_rate": 4.41577958672511e-05,
      "loss": 82.3065,
      "step": 3641,
      "task_loss": 2.5603771209716797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7369139006953448,
      "compression/movement_sparsity/importance_threshold": -0.0017074669000397653,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7536776994789234,
      "compression/movement_sparsity/model_sparsity": 0.7277865519180229,
      "compression_loss": 78.69279479980469,
      "distillation_loss": 2.1467814445495605,
      "epoch": 3.08,
      "learning_rate": 4.415466499686913e-05,
      "loss": 82.2824,
      "step": 3642,
      "task_loss": 2.1186931133270264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7372605226524647,
      "compression/movement_sparsity/importance_threshold": -0.0017052172733199441,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7540574365214551,
      "compression/movement_sparsity/model_sparsity": 0.7281532438249358,
      "compression_loss": 78.72930145263672,
      "distillation_loss": 2.767716884613037,
      "epoch": 3.08,
      "learning_rate": 4.4151534126487164e-05,
      "loss": 82.2642,
      "step": 3643,
      "task_loss": 1.7852729558944702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7376068400208897,
      "compression/movement_sparsity/importance_threshold": -0.0017029696234248815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.754507144579674,
      "compression/movement_sparsity/model_sparsity": 0.7285875030278911,
      "compression_loss": 78.76571655273438,
      "distillation_loss": 2.541390895843506,
      "epoch": 3.08,
      "learning_rate": 4.4148403256105196e-05,
      "loss": 81.4408,
      "step": 3644,
      "task_loss": 1.2581161260604858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.737952852934505,
      "compression/movement_sparsity/importance_threshold": -0.0017007239494856424,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7548059165239582,
      "compression/movement_sparsity/model_sparsity": 0.7288760112367592,
      "compression_loss": 78.80220794677734,
      "distillation_loss": 3.9758291244506836,
      "epoch": 3.08,
      "learning_rate": 4.4145272385723235e-05,
      "loss": 81.8343,
      "step": 3645,
      "task_loss": 1.8818309307098389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7382985615271958,
      "compression/movement_sparsity/importance_threshold": -0.0016984802506332932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7550658037575818,
      "compression/movement_sparsity/model_sparsity": 0.7291269705444011,
      "compression_loss": 78.83858489990234,
      "distillation_loss": 4.803963661193848,
      "epoch": 3.08,
      "learning_rate": 4.4142141515341267e-05,
      "loss": 82.8147,
      "step": 3646,
      "task_loss": 2.4096415042877197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7386439659328468,
      "compression/movement_sparsity/importance_threshold": -0.0016962385259989034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7553587924805627,
      "compression/movement_sparsity/model_sparsity": 0.7294098942034088,
      "compression_loss": 78.8749771118164,
      "distillation_loss": 3.9560742378234863,
      "epoch": 3.08,
      "learning_rate": 4.41390106449593e-05,
      "loss": 81.7611,
      "step": 3647,
      "task_loss": 2.1173205375671387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7389890662853433,
      "compression/movement_sparsity/importance_threshold": -0.001693998774713535,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7557293598381823,
      "compression/movement_sparsity/model_sparsity": 0.7297677314322958,
      "compression_loss": 78.9112777709961,
      "distillation_loss": 3.218472719192505,
      "epoch": 3.08,
      "learning_rate": 4.413587977457733e-05,
      "loss": 82.3833,
      "step": 3648,
      "task_loss": 1.2338536977767944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.739333862718571,
      "compression/movement_sparsity/importance_threshold": -0.001691760995908254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.755987315356649,
      "compression/movement_sparsity/model_sparsity": 0.730016825385139,
      "compression_loss": 78.94752502441406,
      "distillation_loss": 3.422424077987671,
      "epoch": 3.08,
      "learning_rate": 4.413274890419537e-05,
      "loss": 82.6181,
      "step": 3649,
      "task_loss": 2.577562093734741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7396783553664146,
      "compression/movement_sparsity/importance_threshold": -0.0016895251887141284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7562256675435223,
      "compression/movement_sparsity/model_sparsity": 0.7302469894411361,
      "compression_loss": 78.98384857177734,
      "distillation_loss": 4.544760227203369,
      "epoch": 3.09,
      "learning_rate": 4.41296180338134e-05,
      "loss": 82.7533,
      "step": 3650,
      "task_loss": 3.1080689430236816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7400225443627593,
      "compression/movement_sparsity/importance_threshold": -0.0016872913522622225,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7566449808984373,
      "compression/movement_sparsity/model_sparsity": 0.7306518980923512,
      "compression_loss": 79.02005004882812,
      "distillation_loss": 3.372283458709717,
      "epoch": 3.09,
      "learning_rate": 4.412648716343143e-05,
      "loss": 82.4046,
      "step": 3651,
      "task_loss": 2.383744239807129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.74036642984149,
      "compression/movement_sparsity/importance_threshold": -0.0016850594856836036,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7570164783411327,
      "compression/movement_sparsity/model_sparsity": 0.73101063345503,
      "compression_loss": 79.05615234375,
      "distillation_loss": 5.318266868591309,
      "epoch": 3.09,
      "learning_rate": 4.412335629304947e-05,
      "loss": 82.9382,
      "step": 3652,
      "task_loss": 3.052161693572998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7407100119364922,
      "compression/movement_sparsity/importance_threshold": -0.0016828295881093375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7574635988549746,
      "compression/movement_sparsity/model_sparsity": 0.731442394003718,
      "compression_loss": 79.09239959716797,
      "distillation_loss": 3.7698822021484375,
      "epoch": 3.09,
      "learning_rate": 4.41202254226675e-05,
      "loss": 81.911,
      "step": 3653,
      "task_loss": 2.9255530834198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7410532907816508,
      "compression/movement_sparsity/importance_threshold": -0.0016806016586704909,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7577788976956021,
      "compression/movement_sparsity/model_sparsity": 0.7317468613591972,
      "compression_loss": 79.12848663330078,
      "distillation_loss": 3.2716548442840576,
      "epoch": 3.09,
      "learning_rate": 4.4117094552285534e-05,
      "loss": 82.8463,
      "step": 3654,
      "task_loss": 3.150697708129883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7413962665108513,
      "compression/movement_sparsity/importance_threshold": -0.0016783756964981276,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7581371116155511,
      "compression/movement_sparsity/model_sparsity": 0.732092769529001,
      "compression_loss": 79.16453552246094,
      "distillation_loss": 2.530327320098877,
      "epoch": 3.09,
      "learning_rate": 4.411396368190357e-05,
      "loss": 82.5172,
      "step": 3655,
      "task_loss": 1.299980878829956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7417389392579783,
      "compression/movement_sparsity/importance_threshold": -0.001676151700723317,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7585439642152867,
      "compression/movement_sparsity/model_sparsity": 0.7324856454903107,
      "compression_loss": 79.20056915283203,
      "distillation_loss": 4.691944122314453,
      "epoch": 3.09,
      "learning_rate": 4.4110832811521605e-05,
      "loss": 83.4421,
      "step": 3656,
      "task_loss": 2.584045171737671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7420813091569174,
      "compression/movement_sparsity/importance_threshold": -0.001673929670477122,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7587832584114033,
      "compression/movement_sparsity/model_sparsity": 0.7327167191946355,
      "compression_loss": 79.23651885986328,
      "distillation_loss": 3.3267219066619873,
      "epoch": 3.09,
      "learning_rate": 4.4107701941139636e-05,
      "loss": 83.1716,
      "step": 3657,
      "task_loss": 2.096855401992798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7424233763415533,
      "compression/movement_sparsity/importance_threshold": -0.001671709604890611,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7591695179736317,
      "compression/movement_sparsity/model_sparsity": 0.7330897095526282,
      "compression_loss": 79.27247619628906,
      "distillation_loss": 5.384352684020996,
      "epoch": 3.09,
      "learning_rate": 4.4104571070757675e-05,
      "loss": 83.2762,
      "step": 3658,
      "task_loss": 3.6306674480438232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7427651409457716,
      "compression/movement_sparsity/importance_threshold": -0.0016694915030948474,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7594971464035948,
      "compression/movement_sparsity/model_sparsity": 0.7334060829381189,
      "compression_loss": 79.3084487915039,
      "distillation_loss": 4.304891586303711,
      "epoch": 3.09,
      "learning_rate": 4.410144020037571e-05,
      "loss": 84.0403,
      "step": 3659,
      "task_loss": 2.5461270809173584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7431066031034573,
      "compression/movement_sparsity/importance_threshold": -0.0016672753642208993,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7596897694075845,
      "compression/movement_sparsity/model_sparsity": 0.733592088749344,
      "compression_loss": 79.34426879882812,
      "distillation_loss": 4.082357406616211,
      "epoch": 3.09,
      "learning_rate": 4.4098309329993745e-05,
      "loss": 83.1144,
      "step": 3660,
      "task_loss": 1.9327523708343506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7434477629484952,
      "compression/movement_sparsity/importance_threshold": -0.0016650611873998342,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7600288450384779,
      "compression/movement_sparsity/model_sparsity": 0.7339195160891976,
      "compression_loss": 79.38018798828125,
      "distillation_loss": 3.8783211708068848,
      "epoch": 3.09,
      "learning_rate": 4.409517845961178e-05,
      "loss": 82.8906,
      "step": 3661,
      "task_loss": 2.8718295097351074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7437886206147711,
      "compression/movement_sparsity/importance_threshold": -0.0016628489717627126,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7604045278640134,
      "compression/movement_sparsity/model_sparsity": 0.7342822930539403,
      "compression_loss": 79.416015625,
      "distillation_loss": 4.645908355712891,
      "epoch": 3.1,
      "learning_rate": 4.409204758922981e-05,
      "loss": 83.2292,
      "step": 3662,
      "task_loss": 3.1600096225738525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7441291762361695,
      "compression/movement_sparsity/importance_threshold": -0.0016606387164406072,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7606623760649712,
      "compression/movement_sparsity/model_sparsity": 0.7345312833759615,
      "compression_loss": 79.45179748535156,
      "distillation_loss": 3.173125743865967,
      "epoch": 3.1,
      "learning_rate": 4.408891671884784e-05,
      "loss": 83.4151,
      "step": 3663,
      "task_loss": 2.545177936553955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7444694299465761,
      "compression/movement_sparsity/importance_threshold": -0.0016584304205645786,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7611267746977176,
      "compression/movement_sparsity/model_sparsity": 0.7349797284870156,
      "compression_loss": 79.48751068115234,
      "distillation_loss": 3.406477689743042,
      "epoch": 3.1,
      "learning_rate": 4.408578584846588e-05,
      "loss": 83.5961,
      "step": 3664,
      "task_loss": 3.434521436691284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7448093818798753,
      "compression/movement_sparsity/importance_threshold": -0.0016562240832656968,
      "compression/movement_sparsity/linear_layer_sparsity": 0.76156955481454,
      "compression/movement_sparsity/model_sparsity": 0.7354072977446744,
      "compression_loss": 79.52322387695312,
      "distillation_loss": 2.5624570846557617,
      "epoch": 3.1,
      "learning_rate": 4.408265497808391e-05,
      "loss": 82.5398,
      "step": 3665,
      "task_loss": 2.164654016494751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7451490321699531,
      "compression/movement_sparsity/importance_threshold": -0.001654019703675025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7619380592911588,
      "compression/movement_sparsity/model_sparsity": 0.7357631429588688,
      "compression_loss": 79.55890655517578,
      "distillation_loss": 3.937011241912842,
      "epoch": 3.1,
      "learning_rate": 4.407952410770194e-05,
      "loss": 83.2215,
      "step": 3666,
      "task_loss": 1.3899091482162476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7454883809506939,
      "compression/movement_sparsity/importance_threshold": -0.0016518172809236323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7623019014182318,
      "compression/movement_sparsity/model_sparsity": 0.7361144859895676,
      "compression_loss": 79.5946044921875,
      "distillation_loss": 4.280656337738037,
      "epoch": 3.1,
      "learning_rate": 4.407639323731998e-05,
      "loss": 83.6135,
      "step": 3667,
      "task_loss": 2.2733960151672363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7458274283559831,
      "compression/movement_sparsity/importance_threshold": -0.0016496168141425828,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7625494113658495,
      "compression/movement_sparsity/model_sparsity": 0.736353493209055,
      "compression_loss": 79.63018798828125,
      "distillation_loss": 3.334233283996582,
      "epoch": 3.1,
      "learning_rate": 4.407326236693801e-05,
      "loss": 83.1563,
      "step": 3668,
      "task_loss": 1.1691131591796875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7461661745197063,
      "compression/movement_sparsity/importance_threshold": -0.0016474183024629404,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7628626354013084,
      "compression/movement_sparsity/model_sparsity": 0.736655957035306,
      "compression_loss": 79.66580963134766,
      "distillation_loss": 2.3165364265441895,
      "epoch": 3.1,
      "learning_rate": 4.4070131496556045e-05,
      "loss": 82.3712,
      "step": 3669,
      "task_loss": 1.834657073020935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7465046195757481,
      "compression/movement_sparsity/importance_threshold": -0.0016452217450157753,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7632159365641913,
      "compression/movement_sparsity/model_sparsity": 0.7369971212163624,
      "compression_loss": 79.70130157470703,
      "distillation_loss": 3.246070384979248,
      "epoch": 3.1,
      "learning_rate": 4.406700062617408e-05,
      "loss": 83.1234,
      "step": 3670,
      "task_loss": 1.8414052724838257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7468427636579938,
      "compression/movement_sparsity/importance_threshold": -0.0016430271409321505,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7636269864709347,
      "compression/movement_sparsity/model_sparsity": 0.7373940502942719,
      "compression_loss": 79.73682403564453,
      "distillation_loss": 5.045353889465332,
      "epoch": 3.1,
      "learning_rate": 4.4063869755792115e-05,
      "loss": 83.2871,
      "step": 3671,
      "task_loss": 2.4401562213897705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7471806069003284,
      "compression/movement_sparsity/importance_threshold": -0.0016408344893431345,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7640790316660103,
      "compression/movement_sparsity/model_sparsity": 0.7378305663462429,
      "compression_loss": 79.77230072021484,
      "distillation_loss": 4.251863479614258,
      "epoch": 3.1,
      "learning_rate": 4.406073888541015e-05,
      "loss": 83.6949,
      "step": 3672,
      "task_loss": 2.6148390769958496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7475181494366374,
      "compression/movement_sparsity/importance_threshold": -0.0016386437893797902,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7644647665648628,
      "compression/movement_sparsity/model_sparsity": 0.7382030500646605,
      "compression_loss": 79.80770111083984,
      "distillation_loss": 3.5415124893188477,
      "epoch": 3.1,
      "learning_rate": 4.405760801502818e-05,
      "loss": 82.9713,
      "step": 3673,
      "task_loss": 1.532615303993225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7478553914008055,
      "compression/movement_sparsity/importance_threshold": -0.001636455040173187,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7648526358897223,
      "compression/movement_sparsity/model_sparsity": 0.7385775948849853,
      "compression_loss": 79.8431167602539,
      "distillation_loss": 3.8313987255096436,
      "epoch": 3.11,
      "learning_rate": 4.405447714464621e-05,
      "loss": 82.9057,
      "step": 3674,
      "task_loss": 1.7587419748306274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7481923329267182,
      "compression/movement_sparsity/importance_threshold": -0.001634268240854388,
      "compression/movement_sparsity/linear_layer_sparsity": 0.76518266107738,
      "compression/movement_sparsity/model_sparsity": 0.7388962826921708,
      "compression_loss": 79.87845611572266,
      "distillation_loss": 3.3148670196533203,
      "epoch": 3.11,
      "learning_rate": 4.405134627426425e-05,
      "loss": 83.5179,
      "step": 3675,
      "task_loss": 2.120429754257202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7485289741482603,
      "compression/movement_sparsity/importance_threshold": -0.0016320833905544624,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7654730861043191,
      "compression/movement_sparsity/model_sparsity": 0.7391767307259827,
      "compression_loss": 79.91378784179688,
      "distillation_loss": 4.630916595458984,
      "epoch": 3.11,
      "learning_rate": 4.404821540388228e-05,
      "loss": 83.8915,
      "step": 3676,
      "task_loss": 2.0117106437683105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7488653151993174,
      "compression/movement_sparsity/importance_threshold": -0.0016299004884044723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7657063228232766,
      "compression/movement_sparsity/model_sparsity": 0.7394019550461238,
      "compression_loss": 79.94906616210938,
      "distillation_loss": 3.438753604888916,
      "epoch": 3.11,
      "learning_rate": 4.404508453350031e-05,
      "loss": 83.7234,
      "step": 3677,
      "task_loss": 2.7705938816070557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.749201356213774,
      "compression/movement_sparsity/importance_threshold": -0.001627719533535488,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7660492738086516,
      "compression/movement_sparsity/model_sparsity": 0.7397331246101106,
      "compression_loss": 79.98436737060547,
      "distillation_loss": 3.276404619216919,
      "epoch": 3.11,
      "learning_rate": 4.404195366311835e-05,
      "loss": 83.0831,
      "step": 3678,
      "task_loss": 2.0047852993011475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7495370973255158,
      "compression/movement_sparsity/importance_threshold": -0.0016255405250785735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.76641752787775,
      "compression/movement_sparsity/model_sparsity": 0.7400887280190535,
      "compression_loss": 80.01956939697266,
      "distillation_loss": 3.0435895919799805,
      "epoch": 3.11,
      "learning_rate": 4.403882279273638e-05,
      "loss": 83.6447,
      "step": 3679,
      "task_loss": 1.2687549591064453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7498725386684278,
      "compression/movement_sparsity/importance_threshold": -0.0016233634621647935,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7668000670996761,
      "compression/movement_sparsity/model_sparsity": 0.7404581258418781,
      "compression_loss": 80.0547866821289,
      "distillation_loss": 3.9168543815612793,
      "epoch": 3.11,
      "learning_rate": 4.4035691922354415e-05,
      "loss": 83.7836,
      "step": 3680,
      "task_loss": 2.455794334411621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7502076803763951,
      "compression/movement_sparsity/importance_threshold": -0.0016211883439252155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7671961283277013,
      "compression/movement_sparsity/model_sparsity": 0.7408405811482938,
      "compression_loss": 80.09001159667969,
      "distillation_loss": 3.7727737426757812,
      "epoch": 3.11,
      "learning_rate": 4.403256105197245e-05,
      "loss": 83.486,
      "step": 3681,
      "task_loss": 2.5561752319335938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7505425225833029,
      "compression/movement_sparsity/importance_threshold": -0.0016190151694909054,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7676324932423357,
      "compression/movement_sparsity/model_sparsity": 0.741261955585695,
      "compression_loss": 80.12516021728516,
      "distillation_loss": 3.9887285232543945,
      "epoch": 3.11,
      "learning_rate": 4.4029430181590485e-05,
      "loss": 84.4056,
      "step": 3682,
      "task_loss": 2.1028285026550293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.750877065423036,
      "compression/movement_sparsity/importance_threshold": -0.0016168439379929305,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7680301165363213,
      "compression/movement_sparsity/model_sparsity": 0.7416459192962997,
      "compression_loss": 80.16032409667969,
      "distillation_loss": 3.049469232559204,
      "epoch": 3.11,
      "learning_rate": 4.402629931120852e-05,
      "loss": 83.8679,
      "step": 3683,
      "task_loss": 1.6021056175231934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7512113090294802,
      "compression/movement_sparsity/importance_threshold": -0.001614674648562353,
      "compression/movement_sparsity/linear_layer_sparsity": 0.768340526468218,
      "compression/movement_sparsity/model_sparsity": 0.7419456656921032,
      "compression_loss": 80.19541931152344,
      "distillation_loss": 2.464712619781494,
      "epoch": 3.11,
      "learning_rate": 4.402316844082655e-05,
      "loss": 84.0245,
      "step": 3684,
      "task_loss": 1.8267407417297363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7515452535365199,
      "compression/movement_sparsity/importance_threshold": -0.0016125073003302442,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7686498513008599,
      "compression/movement_sparsity/model_sparsity": 0.7422443642651494,
      "compression_loss": 80.23050689697266,
      "distillation_loss": 2.8290176391601562,
      "epoch": 3.11,
      "learning_rate": 4.402003757044458e-05,
      "loss": 83.9359,
      "step": 3685,
      "task_loss": 1.4678432941436768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.751878899078041,
      "compression/movement_sparsity/importance_threshold": -0.0016103418924276651,
      "compression/movement_sparsity/linear_layer_sparsity": 0.769009567665931,
      "compression/movement_sparsity/model_sparsity": 0.7425917232664633,
      "compression_loss": 80.26555633544922,
      "distillation_loss": 4.162856578826904,
      "epoch": 3.12,
      "learning_rate": 4.401690670006262e-05,
      "loss": 83.7872,
      "step": 3686,
      "task_loss": 1.9911335706710815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7522122457879278,
      "compression/movement_sparsity/importance_threshold": -0.001608178423985686,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7694101481534902,
      "compression/movement_sparsity/model_sparsity": 0.7429785425819451,
      "compression_loss": 80.30059814453125,
      "distillation_loss": 5.2794189453125,
      "epoch": 3.12,
      "learning_rate": 4.401377582968065e-05,
      "loss": 83.8648,
      "step": 3687,
      "task_loss": 2.595512628555298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7525452938000659,
      "compression/movement_sparsity/importance_threshold": -0.0016060168941353717,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7697044485349109,
      "compression/movement_sparsity/model_sparsity": 0.7432627328398902,
      "compression_loss": 80.33560943603516,
      "distillation_loss": 3.9007928371429443,
      "epoch": 3.12,
      "learning_rate": 4.401064495929868e-05,
      "loss": 84.1333,
      "step": 3688,
      "task_loss": 2.3016064167022705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7528780432483407,
      "compression/movement_sparsity/importance_threshold": -0.0016038573020077853,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7699603292482089,
      "compression/movement_sparsity/model_sparsity": 0.7435098232635052,
      "compression_loss": 80.37051391601562,
      "distillation_loss": 3.5751657485961914,
      "epoch": 3.12,
      "learning_rate": 4.400751408891672e-05,
      "loss": 83.4597,
      "step": 3689,
      "task_loss": 2.757793426513672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7532104942666369,
      "compression/movement_sparsity/importance_threshold": -0.001601699646733996,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7702165199898654,
      "compression/movement_sparsity/model_sparsity": 0.7437572130650509,
      "compression_loss": 80.40544128417969,
      "distillation_loss": 3.503779411315918,
      "epoch": 3.12,
      "learning_rate": 4.400438321853475e-05,
      "loss": 83.8099,
      "step": 3690,
      "task_loss": 2.3303747177124023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.75354264698884,
      "compression/movement_sparsity/importance_threshold": -0.001599543927445068,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7703614343991441,
      "compression/movement_sparsity/model_sparsity": 0.743897149218562,
      "compression_loss": 80.4402847290039,
      "distillation_loss": 3.9433696269989014,
      "epoch": 3.12,
      "learning_rate": 4.400125234815279e-05,
      "loss": 84.2687,
      "step": 3691,
      "task_loss": 2.2165632247924805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7538745015488346,
      "compression/movement_sparsity/importance_threshold": -0.0015973901432720702,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7706575591782131,
      "compression/movement_sparsity/model_sparsity": 0.7441831012004836,
      "compression_loss": 80.47509765625,
      "distillation_loss": 3.4335734844207764,
      "epoch": 3.12,
      "learning_rate": 4.399812147777082e-05,
      "loss": 84.0797,
      "step": 3692,
      "task_loss": 2.3353664875030518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7542060580805066,
      "compression/movement_sparsity/importance_threshold": -0.001595238293346065,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7709988407801192,
      "compression/movement_sparsity/model_sparsity": 0.7445126587294592,
      "compression_loss": 80.50992584228516,
      "distillation_loss": 3.0164272785186768,
      "epoch": 3.12,
      "learning_rate": 4.3994990607388855e-05,
      "loss": 83.8617,
      "step": 3693,
      "task_loss": 2.840391159057617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7545373167177403,
      "compression/movement_sparsity/importance_threshold": -0.0015930883767981217,
      "compression/movement_sparsity/linear_layer_sparsity": 0.771369467758577,
      "compression/movement_sparsity/model_sparsity": 0.744870553531025,
      "compression_loss": 80.54463958740234,
      "distillation_loss": 3.2417004108428955,
      "epoch": 3.12,
      "learning_rate": 4.3991859737006894e-05,
      "loss": 84.017,
      "step": 3694,
      "task_loss": 1.2790828943252563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7548682775944217,
      "compression/movement_sparsity/importance_threshold": -0.0015909403927593024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.771666904196086,
      "compression/movement_sparsity/model_sparsity": 0.7451577721118842,
      "compression_loss": 80.57938385009766,
      "distillation_loss": 4.243828296661377,
      "epoch": 3.12,
      "learning_rate": 4.3988728866624925e-05,
      "loss": 84.1222,
      "step": 3695,
      "task_loss": 3.792475461959839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7551989408444351,
      "compression/movement_sparsity/importance_threshold": -0.0015887943403606782,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7719995765489589,
      "compression/movement_sparsity/model_sparsity": 0.745479016146016,
      "compression_loss": 80.6141357421875,
      "distillation_loss": 3.4061670303344727,
      "epoch": 3.12,
      "learning_rate": 4.398559799624296e-05,
      "loss": 83.6181,
      "step": 3696,
      "task_loss": 2.622199773788452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7555293066016664,
      "compression/movement_sparsity/importance_threshold": -0.0015866502187333103,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7723224353118675,
      "compression/movement_sparsity/model_sparsity": 0.745790783717189,
      "compression_loss": 80.64875030517578,
      "distillation_loss": 3.389481544494629,
      "epoch": 3.13,
      "learning_rate": 4.3982467125860996e-05,
      "loss": 84.8651,
      "step": 3697,
      "task_loss": 2.837864398956299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.755859375,
      "compression/movement_sparsity/importance_threshold": -0.001584508027008269,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7724519913932312,
      "compression/movement_sparsity/model_sparsity": 0.7459158891485966,
      "compression_loss": 80.68341064453125,
      "distillation_loss": 5.482818126678467,
      "epoch": 3.13,
      "learning_rate": 4.397933625547903e-05,
      "loss": 84.9671,
      "step": 3698,
      "task_loss": 3.283541202545166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7561891461733214,
      "compression/movement_sparsity/importance_threshold": -0.0015823677643166181,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7727140845978675,
      "compression/movement_sparsity/model_sparsity": 0.7461689786453607,
      "compression_loss": 80.718017578125,
      "distillation_loss": 4.195858001708984,
      "epoch": 3.13,
      "learning_rate": 4.397620538509706e-05,
      "loss": 84.579,
      "step": 3699,
      "task_loss": 3.3106727600097656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7565186202555162,
      "compression/movement_sparsity/importance_threshold": -0.0015802294297894218,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7729689159844135,
      "compression/movement_sparsity/model_sparsity": 0.7464150557898258,
      "compression_loss": 80.75260162353516,
      "distillation_loss": 5.171049118041992,
      "epoch": 3.13,
      "learning_rate": 4.397307451471509e-05,
      "loss": 84.9316,
      "step": 3700,
      "task_loss": 2.9310286045074463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7568477973804688,
      "compression/movement_sparsity/importance_threshold": -0.00157809302255775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7732636933325396,
      "compression/movement_sparsity/model_sparsity": 0.7466997066292027,
      "compression_loss": 80.78717041015625,
      "distillation_loss": 4.509161949157715,
      "epoch": 3.13,
      "learning_rate": 4.396994364433313e-05,
      "loss": 84.8987,
      "step": 3701,
      "task_loss": 3.5827865600585938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7571766776820649,
      "compression/movement_sparsity/importance_threshold": -0.0015759585417526659,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7735390819840899,
      "compression/movement_sparsity/model_sparsity": 0.7469656348333776,
      "compression_loss": 80.82174682617188,
      "distillation_loss": 2.8409318923950195,
      "epoch": 3.13,
      "learning_rate": 4.396681277395116e-05,
      "loss": 84.0792,
      "step": 3702,
      "task_loss": 2.199186086654663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.757505261294189,
      "compression/movement_sparsity/importance_threshold": -0.0015738259865052378,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7738903918109777,
      "compression/movement_sparsity/model_sparsity": 0.7473048760869564,
      "compression_loss": 80.85620880126953,
      "distillation_loss": 2.8194642066955566,
      "epoch": 3.13,
      "learning_rate": 4.396368190356919e-05,
      "loss": 84.4015,
      "step": 3703,
      "task_loss": 1.4352034330368042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.757833548350727,
      "compression/movement_sparsity/importance_threshold": -0.001571695355946528,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7742059410591255,
      "compression/movement_sparsity/model_sparsity": 0.7476095852476873,
      "compression_loss": 80.89073181152344,
      "distillation_loss": 5.176558971405029,
      "epoch": 3.13,
      "learning_rate": 4.396055103318723e-05,
      "loss": 85.5846,
      "step": 3704,
      "task_loss": 3.094977378845215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7581615389855635,
      "compression/movement_sparsity/importance_threshold": -0.0015695666492076075,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7744694651638782,
      "compression/movement_sparsity/model_sparsity": 0.7478640564887467,
      "compression_loss": 80.9251937866211,
      "distillation_loss": 3.3718836307525635,
      "epoch": 3.13,
      "learning_rate": 4.3957420162805264e-05,
      "loss": 85.1505,
      "step": 3705,
      "task_loss": 2.215773582458496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.758489233332584,
      "compression/movement_sparsity/importance_threshold": -0.0015674398654195376,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7748650851977008,
      "compression/movement_sparsity/model_sparsity": 0.7482460857573379,
      "compression_loss": 80.95954895019531,
      "distillation_loss": 4.87458610534668,
      "epoch": 3.13,
      "learning_rate": 4.3954289292423295e-05,
      "loss": 84.498,
      "step": 3706,
      "task_loss": 2.872258424758911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7588166315256731,
      "compression/movement_sparsity/importance_threshold": -0.0015653150037133884,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7751661704305063,
      "compression/movement_sparsity/model_sparsity": 0.74853682778615,
      "compression_loss": 80.99388885498047,
      "distillation_loss": 3.691584587097168,
      "epoch": 3.13,
      "learning_rate": 4.395115842204133e-05,
      "loss": 84.5891,
      "step": 3707,
      "task_loss": 2.344271183013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7591437336987167,
      "compression/movement_sparsity/importance_threshold": -0.0015631920632202222,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7754583721584232,
      "compression/movement_sparsity/model_sparsity": 0.7488189914857953,
      "compression_loss": 81.02827453613281,
      "distillation_loss": 2.6076674461364746,
      "epoch": 3.13,
      "learning_rate": 4.3948027551659366e-05,
      "loss": 84.1358,
      "step": 3708,
      "task_loss": 0.6204352378845215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7594705399855991,
      "compression/movement_sparsity/importance_threshold": -0.0015610710430711099,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7758891207901011,
      "compression/movement_sparsity/model_sparsity": 0.7492349425768373,
      "compression_loss": 81.06254577636719,
      "distillation_loss": 3.276416778564453,
      "epoch": 3.14,
      "learning_rate": 4.39448966812774e-05,
      "loss": 84.299,
      "step": 3709,
      "task_loss": 1.9272433519363403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.759797050520206,
      "compression/movement_sparsity/importance_threshold": -0.0015589519423971137,
      "compression/movement_sparsity/linear_layer_sparsity": 0.776115727671853,
      "compression/movement_sparsity/model_sparsity": 0.7494537648150768,
      "compression_loss": 81.09688568115234,
      "distillation_loss": 3.6314175128936768,
      "epoch": 3.14,
      "learning_rate": 4.394176581089543e-05,
      "loss": 84.6382,
      "step": 3710,
      "task_loss": 2.0691781044006348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7601232654364226,
      "compression/movement_sparsity/importance_threshold": -0.0015568347603292986,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7763680430590278,
      "compression/movement_sparsity/model_sparsity": 0.7496974123924892,
      "compression_loss": 81.13113403320312,
      "distillation_loss": 3.0310287475585938,
      "epoch": 3.14,
      "learning_rate": 4.393863494051346e-05,
      "loss": 84.8128,
      "step": 3711,
      "task_loss": 2.5577585697174072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7604491848681336,
      "compression/movement_sparsity/importance_threshold": -0.0015547194959987347,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7767791168141066,
      "compression/movement_sparsity/model_sparsity": 0.7500943644994702,
      "compression_loss": 81.16535949707031,
      "distillation_loss": 4.442193031311035,
      "epoch": 3.14,
      "learning_rate": 4.39355040701315e-05,
      "loss": 84.3362,
      "step": 3712,
      "task_loss": 1.9692318439483643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7607748089492248,
      "compression/movement_sparsity/importance_threshold": -0.001552606148536484,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7770833142546651,
      "compression/movement_sparsity/model_sparsity": 0.7503881118221247,
      "compression_loss": 81.1995620727539,
      "distillation_loss": 3.6526315212249756,
      "epoch": 3.14,
      "learning_rate": 4.393237319974953e-05,
      "loss": 84.5568,
      "step": 3713,
      "task_loss": 2.017167091369629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7611001378135805,
      "compression/movement_sparsity/importance_threshold": -0.0015504947170736161,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7773856157525695,
      "compression/movement_sparsity/model_sparsity": 0.7506800283335879,
      "compression_loss": 81.23367309570312,
      "distillation_loss": 3.1547865867614746,
      "epoch": 3.14,
      "learning_rate": 4.392924232936756e-05,
      "loss": 84.3721,
      "step": 3714,
      "task_loss": 1.007944107055664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7614251715950866,
      "compression/movement_sparsity/importance_threshold": -0.0015483852007411947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7777822612648089,
      "compression/movement_sparsity/model_sparsity": 0.7510630478522575,
      "compression_loss": 81.26779174804688,
      "distillation_loss": 3.8923192024230957,
      "epoch": 3.14,
      "learning_rate": 4.39261114589856e-05,
      "loss": 84.9871,
      "step": 3715,
      "task_loss": 1.9376229047775269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7617499104276276,
      "compression/movement_sparsity/importance_threshold": -0.0015462775986702874,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7780789822522597,
      "compression/movement_sparsity/model_sparsity": 0.7513495755609689,
      "compression_loss": 81.30188751220703,
      "distillation_loss": 3.5644702911376953,
      "epoch": 3.14,
      "learning_rate": 4.3922980588603634e-05,
      "loss": 84.472,
      "step": 3716,
      "task_loss": 2.471728563308716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7620743544450893,
      "compression/movement_sparsity/importance_threshold": -0.0015441719099919572,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7783296163317979,
      "compression/movement_sparsity/model_sparsity": 0.7515915995888344,
      "compression_loss": 81.33592987060547,
      "distillation_loss": 3.27058744430542,
      "epoch": 3.14,
      "learning_rate": 4.3919849718221665e-05,
      "loss": 85.1086,
      "step": 3717,
      "task_loss": 1.8563690185546875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7623985037813562,
      "compression/movement_sparsity/importance_threshold": -0.0015420681338372752,
      "compression/movement_sparsity/linear_layer_sparsity": 0.778597838558599,
      "compression/movement_sparsity/model_sparsity": 0.7518506075569967,
      "compression_loss": 81.36996459960938,
      "distillation_loss": 3.71075439453125,
      "epoch": 3.14,
      "learning_rate": 4.39167188478397e-05,
      "loss": 85.3029,
      "step": 3718,
      "task_loss": 2.2643015384674072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7627223585703138,
      "compression/movement_sparsity/importance_threshold": -0.0015399662693373036,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7790141231749346,
      "compression/movement_sparsity/model_sparsity": 0.75225259151612,
      "compression_loss": 81.40399169921875,
      "distillation_loss": 3.370454788208008,
      "epoch": 3.14,
      "learning_rate": 4.3913587977457736e-05,
      "loss": 85.2853,
      "step": 3719,
      "task_loss": 2.3660244941711426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7630459189458474,
      "compression/movement_sparsity/importance_threshold": -0.001537866315623108,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7793357299002415,
      "compression/movement_sparsity/model_sparsity": 0.7525631500610345,
      "compression_loss": 81.43799591064453,
      "distillation_loss": 3.639441967010498,
      "epoch": 3.14,
      "learning_rate": 4.391045710707577e-05,
      "loss": 84.6225,
      "step": 3720,
      "task_loss": 2.156487226486206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7633691850418416,
      "compression/movement_sparsity/importance_threshold": -0.001535768271825758,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7796421571601478,
      "compression/movement_sparsity/model_sparsity": 0.7528590506018826,
      "compression_loss": 81.47196197509766,
      "distillation_loss": 4.3593573570251465,
      "epoch": 3.15,
      "learning_rate": 4.39073262366938e-05,
      "loss": 84.938,
      "step": 3721,
      "task_loss": 2.688934564590454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7636921569921822,
      "compression/movement_sparsity/importance_threshold": -0.0015336721370763145,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7799590657634062,
      "compression/movement_sparsity/model_sparsity": 0.7531650724196941,
      "compression_loss": 81.50591278076172,
      "distillation_loss": 2.511467456817627,
      "epoch": 3.15,
      "learning_rate": 4.390419536631184e-05,
      "loss": 84.9606,
      "step": 3722,
      "task_loss": 2.484342336654663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7640148349307536,
      "compression/movement_sparsity/importance_threshold": -0.0015315779105058496,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7801509852415054,
      "compression/movement_sparsity/model_sparsity": 0.7533503988733072,
      "compression_loss": 81.53987121582031,
      "distillation_loss": 3.4028987884521484,
      "epoch": 3.15,
      "learning_rate": 4.390106449592987e-05,
      "loss": 84.608,
      "step": 3723,
      "task_loss": 1.4678404331207275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7643372189914417,
      "compression/movement_sparsity/importance_threshold": -0.0015294855912454247,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7804389538899115,
      "compression/movement_sparsity/model_sparsity": 0.7536284749127454,
      "compression_loss": 81.57369995117188,
      "distillation_loss": 3.353816032409668,
      "epoch": 3.15,
      "learning_rate": 4.38979336255479e-05,
      "loss": 85.3898,
      "step": 3724,
      "task_loss": 1.4579589366912842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7646593093081311,
      "compression/movement_sparsity/importance_threshold": -0.001527395178426108,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7806845798190426,
      "compression/movement_sparsity/model_sparsity": 0.7538656628355772,
      "compression_loss": 81.60748291015625,
      "distillation_loss": 2.669013500213623,
      "epoch": 3.15,
      "learning_rate": 4.389480275516594e-05,
      "loss": 85.0796,
      "step": 3725,
      "task_loss": 1.8970823287963867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7649811060147073,
      "compression/movement_sparsity/importance_threshold": -0.0015253066711789637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.781102641136356,
      "compression/movement_sparsity/model_sparsity": 0.7542693624605338,
      "compression_loss": 81.64126586914062,
      "distillation_loss": 6.160707473754883,
      "epoch": 3.15,
      "learning_rate": 4.389167188478397e-05,
      "loss": 85.7938,
      "step": 3726,
      "task_loss": 3.805743455886841
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.765302609245055,
      "compression/movement_sparsity/importance_threshold": -0.0015232200686350608,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7813134484959904,
      "compression/movement_sparsity/model_sparsity": 0.7544729279388455,
      "compression_loss": 81.6749496459961,
      "distillation_loss": 2.1965315341949463,
      "epoch": 3.15,
      "learning_rate": 4.388854101440201e-05,
      "loss": 84.6554,
      "step": 3727,
      "task_loss": 0.6288010478019714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7656238191330595,
      "compression/movement_sparsity/importance_threshold": -0.0015211353699254642,
      "compression/movement_sparsity/linear_layer_sparsity": 0.781695808855402,
      "compression/movement_sparsity/model_sparsity": 0.7548421530436332,
      "compression_loss": 81.70866394042969,
      "distillation_loss": 3.436584949493408,
      "epoch": 3.15,
      "learning_rate": 4.388541014402004e-05,
      "loss": 85.8365,
      "step": 3728,
      "task_loss": 2.0476255416870117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7659447358126066,
      "compression/movement_sparsity/importance_threshold": -0.0015190525741812363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7819804029643671,
      "compression/movement_sparsity/model_sparsity": 0.7551169704694415,
      "compression_loss": 81.74234008789062,
      "distillation_loss": 4.656819820404053,
      "epoch": 3.15,
      "learning_rate": 4.3882279273638074e-05,
      "loss": 86.2033,
      "step": 3729,
      "task_loss": 2.412738084793091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7662653594175803,
      "compression/movement_sparsity/importance_threshold": -0.0015169716805334497,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7820891275248709,
      "compression/movement_sparsity/model_sparsity": 0.7552219600068162,
      "compression_loss": 81.77598571777344,
      "distillation_loss": 4.502987861633301,
      "epoch": 3.15,
      "learning_rate": 4.387914840325611e-05,
      "loss": 85.5906,
      "step": 3730,
      "task_loss": 3.103522539138794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7665856900818668,
      "compression/movement_sparsity/importance_threshold": -0.0015148926881131631,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7823519600279006,
      "compression/movement_sparsity/model_sparsity": 0.7554757634047994,
      "compression_loss": 81.8095932006836,
      "distillation_loss": 4.26683235168457,
      "epoch": 3.15,
      "learning_rate": 4.3876017532874144e-05,
      "loss": 85.886,
      "step": 3731,
      "task_loss": 2.1073224544525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7669057279393504,
      "compression/movement_sparsity/importance_threshold": -0.0015128155960514502,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7826750930466649,
      "compression/movement_sparsity/model_sparsity": 0.7557877958102956,
      "compression_loss": 81.84318542480469,
      "distillation_loss": 5.640399932861328,
      "epoch": 3.15,
      "learning_rate": 4.3872886662492176e-05,
      "loss": 85.942,
      "step": 3732,
      "task_loss": 3.2473011016845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.767225473123917,
      "compression/movement_sparsity/importance_threshold": -0.0015107404034793697,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7829945414976297,
      "compression/movement_sparsity/model_sparsity": 0.7560962702242314,
      "compression_loss": 81.8768081665039,
      "distillation_loss": 2.6043331623077393,
      "epoch": 3.16,
      "learning_rate": 4.386975579211021e-05,
      "loss": 84.6139,
      "step": 3733,
      "task_loss": 1.040607213973999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7675449257694509,
      "compression/movement_sparsity/importance_threshold": -0.0015086671095279952,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7832705859783999,
      "compression/movement_sparsity/model_sparsity": 0.756362831727875,
      "compression_loss": 81.91031646728516,
      "distillation_loss": 5.19129753112793,
      "epoch": 3.16,
      "learning_rate": 4.3866624921728246e-05,
      "loss": 86.4707,
      "step": 3734,
      "task_loss": 3.880425453186035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.767864086009838,
      "compression/movement_sparsity/importance_threshold": -0.0015065957133283854,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7835211127404293,
      "compression/movement_sparsity/model_sparsity": 0.7566047521249183,
      "compression_loss": 81.94384765625,
      "distillation_loss": 4.42138671875,
      "epoch": 3.16,
      "learning_rate": 4.386349405134628e-05,
      "loss": 85.5201,
      "step": 3735,
      "task_loss": 2.370262384414673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.768182953978963,
      "compression/movement_sparsity/importance_threshold": -0.0015045262140116113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7837655581769646,
      "compression/movement_sparsity/model_sparsity": 0.7568408001087065,
      "compression_loss": 81.97736358642578,
      "distillation_loss": 2.4034910202026367,
      "epoch": 3.16,
      "learning_rate": 4.386036318096431e-05,
      "loss": 85.39,
      "step": 3736,
      "task_loss": 1.661028504371643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7685015298107113,
      "compression/movement_sparsity/importance_threshold": -0.001502458610708736,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7840809047142626,
      "compression/movement_sparsity/model_sparsity": 0.7571453135223288,
      "compression_loss": 82.0107650756836,
      "distillation_loss": 3.6904735565185547,
      "epoch": 3.16,
      "learning_rate": 4.385723231058234e-05,
      "loss": 85.2566,
      "step": 3737,
      "task_loss": 2.091057777404785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7688198136389677,
      "compression/movement_sparsity/importance_threshold": -0.001500392902550828,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7842966606034659,
      "compression/movement_sparsity/model_sparsity": 0.7573536575329953,
      "compression_loss": 82.04420471191406,
      "distillation_loss": 4.128425121307373,
      "epoch": 3.16,
      "learning_rate": 4.385410144020038e-05,
      "loss": 85.6986,
      "step": 3738,
      "task_loss": 2.848574638366699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7691378055976175,
      "compression/movement_sparsity/importance_threshold": -0.0014983290886689529,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7845245195228197,
      "compression/movement_sparsity/model_sparsity": 0.7575736887974932,
      "compression_loss": 82.07762145996094,
      "distillation_loss": 2.8554792404174805,
      "epoch": 3.16,
      "learning_rate": 4.385097056981841e-05,
      "loss": 85.5744,
      "step": 3739,
      "task_loss": 1.942143201828003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7694555058205462,
      "compression/movement_sparsity/importance_threshold": -0.0014962671681941738,
      "compression/movement_sparsity/linear_layer_sparsity": 0.78488439090207,
      "compression/movement_sparsity/model_sparsity": 0.7579211974877724,
      "compression_loss": 82.11095428466797,
      "distillation_loss": 4.167574882507324,
      "epoch": 3.16,
      "learning_rate": 4.3847839699436444e-05,
      "loss": 86.0499,
      "step": 3740,
      "task_loss": 2.7877447605133057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7697729144416383,
      "compression/movement_sparsity/importance_threshold": -0.0014942071402575608,
      "compression/movement_sparsity/linear_layer_sparsity": 0.785147771916811,
      "compression/movement_sparsity/model_sparsity": 0.7581755305544022,
      "compression_loss": 82.14427185058594,
      "distillation_loss": 3.002695083618164,
      "epoch": 3.16,
      "learning_rate": 4.384470882905448e-05,
      "loss": 85.2344,
      "step": 3741,
      "task_loss": 1.3274555206298828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7700900315947796,
      "compression/movement_sparsity/importance_threshold": -0.0014921490039901762,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7853598790107177,
      "compression/movement_sparsity/model_sparsity": 0.7583803511171155,
      "compression_loss": 82.177490234375,
      "distillation_loss": 5.300873756408691,
      "epoch": 3.16,
      "learning_rate": 4.3841577958672514e-05,
      "loss": 86.0485,
      "step": 3742,
      "task_loss": 2.6296281814575195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7704068574138547,
      "compression/movement_sparsity/importance_threshold": -0.00149009275852309,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7857001947550452,
      "compression/movement_sparsity/model_sparsity": 0.7587089759686917,
      "compression_loss": 82.21073913574219,
      "distillation_loss": 5.168208122253418,
      "epoch": 3.16,
      "learning_rate": 4.3838447088290546e-05,
      "loss": 86.468,
      "step": 3743,
      "task_loss": 2.497447967529297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7707233920327491,
      "compression/movement_sparsity/importance_threshold": -0.0014880384029873645,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7859788625526953,
      "compression/movement_sparsity/model_sparsity": 0.7589780706702102,
      "compression_loss": 82.24398040771484,
      "distillation_loss": 2.845010280609131,
      "epoch": 3.16,
      "learning_rate": 4.383531621790858e-05,
      "loss": 86.0477,
      "step": 3744,
      "task_loss": 1.7355300188064575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7710396355853476,
      "compression/movement_sparsity/importance_threshold": -0.001485985936514069,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7862053263444356,
      "compression/movement_sparsity/model_sparsity": 0.75919675473402,
      "compression_loss": 82.27716064453125,
      "distillation_loss": 4.6645731925964355,
      "epoch": 3.17,
      "learning_rate": 4.3832185347526616e-05,
      "loss": 85.8447,
      "step": 3745,
      "task_loss": 2.335645914077759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7713555882055358,
      "compression/movement_sparsity/importance_threshold": -0.0014839353582342656,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7863794311160869,
      "compression/movement_sparsity/model_sparsity": 0.7593648784711561,
      "compression_loss": 82.31031036376953,
      "distillation_loss": 4.000650405883789,
      "epoch": 3.17,
      "learning_rate": 4.382905447714465e-05,
      "loss": 85.9412,
      "step": 3746,
      "task_loss": 2.5272538661956787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7716712500271983,
      "compression/movement_sparsity/importance_threshold": -0.0014818866672790254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7866471406036796,
      "compression/movement_sparsity/model_sparsity": 0.7596233913142794,
      "compression_loss": 82.34343719482422,
      "distillation_loss": 2.2042269706726074,
      "epoch": 3.17,
      "learning_rate": 4.382592360676268e-05,
      "loss": 85.6064,
      "step": 3747,
      "task_loss": 1.2427804470062256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7719866211842208,
      "compression/movement_sparsity/importance_threshold": -0.0014798398627794097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7869906401007659,
      "compression/movement_sparsity/model_sparsity": 0.7599550905469127,
      "compression_loss": 82.37654113769531,
      "distillation_loss": 4.138267517089844,
      "epoch": 3.17,
      "learning_rate": 4.382279273638071e-05,
      "loss": 85.9461,
      "step": 3748,
      "task_loss": 2.6045150756835938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7723017018104879,
      "compression/movement_sparsity/importance_threshold": -0.0014777949438664886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7872410356969514,
      "compression/movement_sparsity/model_sparsity": 0.7601968842840623,
      "compression_loss": 82.40953826904297,
      "distillation_loss": 3.2660770416259766,
      "epoch": 3.17,
      "learning_rate": 4.381966186599875e-05,
      "loss": 85.708,
      "step": 3749,
      "task_loss": 2.108560562133789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7726164920398849,
      "compression/movement_sparsity/importance_threshold": -0.0014757519096713252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7874169171695804,
      "compression/movement_sparsity/model_sparsity": 0.7603667236870317,
      "compression_loss": 82.44257354736328,
      "distillation_loss": 3.5812301635742188,
      "epoch": 3.17,
      "learning_rate": 4.381653099561678e-05,
      "loss": 85.9378,
      "step": 3750,
      "task_loss": 1.2557867765426636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7729309920062974,
      "compression/movement_sparsity/importance_threshold": -0.0014737107593249853,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7877060663105824,
      "compression/movement_sparsity/model_sparsity": 0.7606459396655135,
      "compression_loss": 82.47552490234375,
      "distillation_loss": 2.866525173187256,
      "epoch": 3.17,
      "learning_rate": 4.3813400125234814e-05,
      "loss": 85.7209,
      "step": 3751,
      "task_loss": 1.6363738775253296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7732452018436099,
      "compression/movement_sparsity/importance_threshold": -0.001471671491958538,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7878946112492407,
      "compression/movement_sparsity/model_sparsity": 0.7608280075054968,
      "compression_loss": 82.50849914550781,
      "distillation_loss": 3.6934590339660645,
      "epoch": 3.17,
      "learning_rate": 4.381026925485285e-05,
      "loss": 86.2042,
      "step": 3752,
      "task_loss": 1.7451331615447998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7735591216857081,
      "compression/movement_sparsity/importance_threshold": -0.0014696341067030457,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7882758149643916,
      "compression/movement_sparsity/model_sparsity": 0.7611961157003125,
      "compression_loss": 82.54141235351562,
      "distillation_loss": 3.4455032348632812,
      "epoch": 3.17,
      "learning_rate": 4.3807138384470884e-05,
      "loss": 86.4418,
      "step": 3753,
      "task_loss": 1.7903826236724854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7738727516664765,
      "compression/movement_sparsity/importance_threshold": -0.0014675986026895776,
      "compression/movement_sparsity/linear_layer_sparsity": 0.788615808756193,
      "compression/movement_sparsity/model_sparsity": 0.7615244296594222,
      "compression_loss": 82.57429504394531,
      "distillation_loss": 3.2792015075683594,
      "epoch": 3.17,
      "learning_rate": 4.3804007514088916e-05,
      "loss": 86.3827,
      "step": 3754,
      "task_loss": 1.7794232368469238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7741860919198009,
      "compression/movement_sparsity/importance_threshold": -0.0014655649790491967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7888328047588303,
      "compression/movement_sparsity/model_sparsity": 0.7617339711818113,
      "compression_loss": 82.60720825195312,
      "distillation_loss": 3.953794479370117,
      "epoch": 3.17,
      "learning_rate": 4.380087664370695e-05,
      "loss": 86.7646,
      "step": 3755,
      "task_loss": 2.22540020942688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.774499142579566,
      "compression/movement_sparsity/importance_threshold": -0.0014635332349129723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.789066625762002,
      "compression/movement_sparsity/model_sparsity": 0.7619597597142065,
      "compression_loss": 82.64002990722656,
      "distillation_loss": 3.447566032409668,
      "epoch": 3.17,
      "learning_rate": 4.3797745773324986e-05,
      "loss": 85.8306,
      "step": 3756,
      "task_loss": 1.9097049236297607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7748119037796571,
      "compression/movement_sparsity/importance_threshold": -0.0014615033694119674,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7894069653546648,
      "compression/movement_sparsity/model_sparsity": 0.7622884075948543,
      "compression_loss": 82.67284393310547,
      "distillation_loss": 2.6962924003601074,
      "epoch": 3.18,
      "learning_rate": 4.379461490294302e-05,
      "loss": 86.4598,
      "step": 3757,
      "task_loss": 1.4286205768585205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7751243756539593,
      "compression/movement_sparsity/importance_threshold": -0.0014594753816772506,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7896800168693584,
      "compression/movement_sparsity/model_sparsity": 0.7625520789500134,
      "compression_loss": 82.70560455322266,
      "distillation_loss": 3.5418663024902344,
      "epoch": 3.18,
      "learning_rate": 4.3791484032561056e-05,
      "loss": 85.9286,
      "step": 3758,
      "task_loss": 1.515271544456482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7754365583363576,
      "compression/movement_sparsity/importance_threshold": -0.0014574492708398883,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7898275784438522,
      "compression/movement_sparsity/model_sparsity": 0.7626945713304709,
      "compression_loss": 82.73831176757812,
      "distillation_loss": 4.661841869354248,
      "epoch": 3.18,
      "learning_rate": 4.378835316217909e-05,
      "loss": 86.6856,
      "step": 3759,
      "task_loss": 2.7708866596221924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7757484519607377,
      "compression/movement_sparsity/importance_threshold": -0.001455425036030941,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7900619241103999,
      "compression/movement_sparsity/model_sparsity": 0.762920866502441,
      "compression_loss": 82.77098846435547,
      "distillation_loss": 3.522245168685913,
      "epoch": 3.18,
      "learning_rate": 4.378522229179712e-05,
      "loss": 86.2876,
      "step": 3760,
      "task_loss": 2.7381577491760254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.776060056660984,
      "compression/movement_sparsity/importance_threshold": -0.0014534026763814824,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7903216921023472,
      "compression/movement_sparsity/model_sparsity": 0.763171710664725,
      "compression_loss": 82.80365753173828,
      "distillation_loss": 4.747779846191406,
      "epoch": 3.18,
      "learning_rate": 4.378209142141516e-05,
      "loss": 86.5954,
      "step": 3761,
      "task_loss": 2.0556485652923584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7763713725709822,
      "compression/movement_sparsity/importance_threshold": -0.001451382191022572,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7905319151777674,
      "compression/movement_sparsity/model_sparsity": 0.7633747119307828,
      "compression_loss": 82.8363037109375,
      "distillation_loss": 3.680877447128296,
      "epoch": 3.18,
      "learning_rate": 4.377896055103319e-05,
      "loss": 86.9298,
      "step": 3762,
      "task_loss": 2.350839376449585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7766823998246171,
      "compression/movement_sparsity/importance_threshold": -0.001449363579085281,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7908353852441001,
      "compression/movement_sparsity/model_sparsity": 0.7636677568667539,
      "compression_loss": 82.86892700195312,
      "distillation_loss": 3.3014087677001953,
      "epoch": 3.18,
      "learning_rate": 4.377582968065123e-05,
      "loss": 86.2013,
      "step": 3763,
      "task_loss": 2.592341661453247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7769931385557741,
      "compression/movement_sparsity/importance_threshold": -0.0014473468397006714,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7911814603613958,
      "compression/movement_sparsity/model_sparsity": 0.7640019432391189,
      "compression_loss": 82.90155792236328,
      "distillation_loss": 3.4840621948242188,
      "epoch": 3.18,
      "learning_rate": 4.377269881026926e-05,
      "loss": 86.9753,
      "step": 3764,
      "task_loss": 2.1219053268432617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7773035888983381,
      "compression/movement_sparsity/importance_threshold": -0.0014453319719998125,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7914384261739487,
      "compression/movement_sparsity/model_sparsity": 0.7642500814854912,
      "compression_loss": 82.93413543701172,
      "distillation_loss": 5.417972564697266,
      "epoch": 3.18,
      "learning_rate": 4.376956793988729e-05,
      "loss": 87.0307,
      "step": 3765,
      "task_loss": 2.87770414352417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7776137509861945,
      "compression/movement_sparsity/importance_threshold": -0.0014433189751137674,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7917655060922003,
      "compression/movement_sparsity/model_sparsity": 0.7645659252023355,
      "compression_loss": 82.96672058105469,
      "distillation_loss": 5.919469356536865,
      "epoch": 3.18,
      "learning_rate": 4.3766437069505324e-05,
      "loss": 87.3575,
      "step": 3766,
      "task_loss": 3.9351327419281006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.777923624953228,
      "compression/movement_sparsity/importance_threshold": -0.0014413078481736053,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7919911828888767,
      "compression/movement_sparsity/model_sparsity": 0.7647838493067829,
      "compression_loss": 82.99921417236328,
      "distillation_loss": 3.9899425506591797,
      "epoch": 3.18,
      "learning_rate": 4.376330619912336e-05,
      "loss": 86.3216,
      "step": 3767,
      "task_loss": 2.065713405609131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7782332109333243,
      "compression/movement_sparsity/importance_threshold": -0.0014392985903103886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7921427032870256,
      "compression/movement_sparsity/model_sparsity": 0.7649301645131241,
      "compression_loss": 83.0317611694336,
      "distillation_loss": 4.887537002563477,
      "epoch": 3.19,
      "learning_rate": 4.3760175328741395e-05,
      "loss": 87.3933,
      "step": 3768,
      "task_loss": 3.4606988430023193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.778542509060368,
      "compression/movement_sparsity/importance_threshold": -0.0014372912006551872,
      "compression/movement_sparsity/linear_layer_sparsity": 0.792377645161955,
      "compression/movement_sparsity/model_sparsity": 0.765157035411884,
      "compression_loss": 83.06417846679688,
      "distillation_loss": 4.350998878479004,
      "epoch": 3.19,
      "learning_rate": 4.3757044458359426e-05,
      "loss": 86.5883,
      "step": 3769,
      "task_loss": 1.5512999296188354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7788515194682446,
      "compression/movement_sparsity/importance_threshold": -0.0014352856783390652,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7924833767563821,
      "compression/movement_sparsity/model_sparsity": 0.7652591348007742,
      "compression_loss": 83.09668731689453,
      "distillation_loss": 3.2294206619262695,
      "epoch": 3.19,
      "learning_rate": 4.375391358797746e-05,
      "loss": 86.6319,
      "step": 3770,
      "task_loss": 1.3307068347930908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7791602422908394,
      "compression/movement_sparsity/importance_threshold": -0.0014332820224930865,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7928134377165429,
      "compression/movement_sparsity/model_sparsity": 0.7655778571515671,
      "compression_loss": 83.12906646728516,
      "distillation_loss": 3.541947364807129,
      "epoch": 3.19,
      "learning_rate": 4.37507827175955e-05,
      "loss": 86.7095,
      "step": 3771,
      "task_loss": 2.8751637935638428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.779468677662037,
      "compression/movement_sparsity/importance_threshold": -0.0014312802322483213,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7930600175790848,
      "compression/movement_sparsity/model_sparsity": 0.7658159662372623,
      "compression_loss": 83.16149139404297,
      "distillation_loss": 3.5815091133117676,
      "epoch": 3.19,
      "learning_rate": 4.374765184721353e-05,
      "loss": 87.1205,
      "step": 3772,
      "task_loss": 1.729410171508789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.779776825715723,
      "compression/movement_sparsity/importance_threshold": -0.0014292803067358327,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7933271308582959,
      "compression/movement_sparsity/model_sparsity": 0.7660739033535959,
      "compression_loss": 83.19378662109375,
      "distillation_loss": 4.562980651855469,
      "epoch": 3.19,
      "learning_rate": 4.374452097683156e-05,
      "loss": 88.028,
      "step": 3773,
      "task_loss": 2.961336851119995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7800846865857822,
      "compression/movement_sparsity/importance_threshold": -0.0014272822450866881,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7935392856488731,
      "compression/movement_sparsity/model_sparsity": 0.7662787699744523,
      "compression_loss": 83.22610473632812,
      "distillation_loss": 3.4020814895629883,
      "epoch": 3.19,
      "learning_rate": 4.374139010644959e-05,
      "loss": 86.8487,
      "step": 3774,
      "task_loss": 1.8931678533554077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7803922604061002,
      "compression/movement_sparsity/importance_threshold": -0.0014252860464319525,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7938007468726247,
      "compression/movement_sparsity/model_sparsity": 0.7665312492008193,
      "compression_loss": 83.25837707519531,
      "distillation_loss": 3.5560786724090576,
      "epoch": 3.19,
      "learning_rate": 4.373825923606763e-05,
      "loss": 87.2846,
      "step": 3775,
      "task_loss": 2.006788969039917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7806995473105616,
      "compression/movement_sparsity/importance_threshold": -0.001423291709902694,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7940942841073168,
      "compression/movement_sparsity/model_sparsity": 0.7668147025284735,
      "compression_loss": 83.29058074951172,
      "distillation_loss": 5.8420305252075195,
      "epoch": 3.19,
      "learning_rate": 4.373512836568566e-05,
      "loss": 87.2167,
      "step": 3776,
      "task_loss": 2.6306285858154297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7810065474330519,
      "compression/movement_sparsity/importance_threshold": -0.001421299234629976,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7943793313346521,
      "compression/movement_sparsity/model_sparsity": 0.767089957506642,
      "compression_loss": 83.32279205322266,
      "distillation_loss": 4.215404510498047,
      "epoch": 3.19,
      "learning_rate": 4.3731997495303694e-05,
      "loss": 87.2159,
      "step": 3777,
      "task_loss": 3.01944637298584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.781313260907456,
      "compression/movement_sparsity/importance_threshold": -0.0014193086197448659,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7946254461546562,
      "compression/movement_sparsity/model_sparsity": 0.7673276175254413,
      "compression_loss": 83.35488891601562,
      "distillation_loss": 4.833314895629883,
      "epoch": 3.19,
      "learning_rate": 4.372886662492173e-05,
      "loss": 87.3687,
      "step": 3778,
      "task_loss": 2.04854154586792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7816196878676595,
      "compression/movement_sparsity/importance_threshold": -0.0014173198643784293,
      "compression/movement_sparsity/linear_layer_sparsity": 0.79485638150926,
      "compression/movement_sparsity/model_sparsity": 0.7675506195401741,
      "compression_loss": 83.38707733154297,
      "distillation_loss": 2.6800687313079834,
      "epoch": 3.19,
      "learning_rate": 4.3725735754539764e-05,
      "loss": 86.7098,
      "step": 3779,
      "task_loss": 1.555122971534729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7819258284475468,
      "compression/movement_sparsity/importance_threshold": -0.0014153329676617338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7950181089949052,
      "compression/movement_sparsity/model_sparsity": 0.7677067911891555,
      "compression_loss": 83.41915893554688,
      "distillation_loss": 3.730412483215332,
      "epoch": 3.2,
      "learning_rate": 4.3722604884157796e-05,
      "loss": 87.3103,
      "step": 3780,
      "task_loss": 2.980163812637329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7822316827810035,
      "compression/movement_sparsity/importance_threshold": -0.0014133479287258442,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7951853096734953,
      "compression/movement_sparsity/model_sparsity": 0.7678682480100666,
      "compression_loss": 83.4511947631836,
      "distillation_loss": 4.245500087738037,
      "epoch": 3.2,
      "learning_rate": 4.371947401377583e-05,
      "loss": 87.2575,
      "step": 3781,
      "task_loss": 2.865241289138794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7825372510019151,
      "compression/movement_sparsity/importance_threshold": -0.0014113647467018237,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7954767482546834,
      "compression/movement_sparsity/model_sparsity": 0.768149674779421,
      "compression_loss": 83.48320007324219,
      "distillation_loss": 4.041949272155762,
      "epoch": 3.2,
      "learning_rate": 4.371634314339387e-05,
      "loss": 87.5327,
      "step": 3782,
      "task_loss": 2.4600138664245605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.782842533244166,
      "compression/movement_sparsity/importance_threshold": -0.001409383420720744,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7956745224990919,
      "compression/movement_sparsity/model_sparsity": 0.7683406548701092,
      "compression_loss": 83.51521301269531,
      "distillation_loss": 4.427818298339844,
      "epoch": 3.2,
      "learning_rate": 4.37132122730119e-05,
      "loss": 87.7097,
      "step": 3783,
      "task_loss": 2.762794017791748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7831475296416418,
      "compression/movement_sparsity/importance_threshold": -0.0014074039499136666,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7960862163108876,
      "compression/movement_sparsity/model_sparsity": 0.7687382057329515,
      "compression_loss": 83.54713439941406,
      "distillation_loss": 4.814364433288574,
      "epoch": 3.2,
      "learning_rate": 4.371008140262993e-05,
      "loss": 87.3983,
      "step": 3784,
      "task_loss": 1.9057234525680542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7834522403282274,
      "compression/movement_sparsity/importance_threshold": -0.0014054263334116607,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7963014713850503,
      "compression/movement_sparsity/model_sparsity": 0.7689460661331146,
      "compression_loss": 83.57905578613281,
      "distillation_loss": 4.24348258972168,
      "epoch": 3.2,
      "learning_rate": 4.370695053224796e-05,
      "loss": 87.2738,
      "step": 3785,
      "task_loss": 2.275540828704834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7837566654378082,
      "compression/movement_sparsity/importance_threshold": -0.0014034505703457894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7966027235562027,
      "compression/movement_sparsity/model_sparsity": 0.7692369693654278,
      "compression_loss": 83.6109619140625,
      "distillation_loss": 4.154793739318848,
      "epoch": 3.2,
      "learning_rate": 4.3703819661866e-05,
      "loss": 87.2455,
      "step": 3786,
      "task_loss": 2.0068085193634033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.784060805104269,
      "compression/movement_sparsity/importance_threshold": -0.0014014766598471218,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7967533496417789,
      "compression/movement_sparsity/model_sparsity": 0.7693824209815845,
      "compression_loss": 83.6427993774414,
      "distillation_loss": 3.389193058013916,
      "epoch": 3.2,
      "learning_rate": 4.370068879148403e-05,
      "loss": 87.2311,
      "step": 3787,
      "task_loss": 1.802321195602417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7843646594614955,
      "compression/movement_sparsity/importance_threshold": -0.0013995046010467204,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7970430830669951,
      "compression/movement_sparsity/model_sparsity": 0.7696622011723202,
      "compression_loss": 83.67467498779297,
      "distillation_loss": 4.725925922393799,
      "epoch": 3.2,
      "learning_rate": 4.3697557921102064e-05,
      "loss": 87.6207,
      "step": 3788,
      "task_loss": 2.5372354984283447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7846682286433722,
      "compression/movement_sparsity/importance_threshold": -0.0013975343930756551,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7973803700727431,
      "compression/movement_sparsity/model_sparsity": 0.7699879013318046,
      "compression_loss": 83.70652770996094,
      "distillation_loss": 4.379236221313477,
      "epoch": 3.2,
      "learning_rate": 4.36944270507201e-05,
      "loss": 87.2583,
      "step": 3789,
      "task_loss": 2.486888885498047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7849715127837844,
      "compression/movement_sparsity/importance_threshold": -0.00139556603506499,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7975888641438562,
      "compression/movement_sparsity/model_sparsity": 0.7701892329901722,
      "compression_loss": 83.73831939697266,
      "distillation_loss": 3.489227771759033,
      "epoch": 3.2,
      "learning_rate": 4.3691296180338134e-05,
      "loss": 87.518,
      "step": 3790,
      "task_loss": 1.2321891784667969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7852745120166177,
      "compression/movement_sparsity/importance_threshold": -0.0013935995261457898,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7978083165250266,
      "compression/movement_sparsity/model_sparsity": 0.7704011465069349,
      "compression_loss": 83.77009582519531,
      "distillation_loss": 3.249908924102783,
      "epoch": 3.2,
      "learning_rate": 4.3688165309956166e-05,
      "loss": 87.4641,
      "step": 3791,
      "task_loss": 1.9028083086013794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7855772264757566,
      "compression/movement_sparsity/importance_threshold": -0.001391634865449123,
      "compression/movement_sparsity/linear_layer_sparsity": 0.798085863450919,
      "compression/movement_sparsity/model_sparsity": 0.7706691588420886,
      "compression_loss": 83.8018569946289,
      "distillation_loss": 3.539057493209839,
      "epoch": 3.21,
      "learning_rate": 4.3685034439574205e-05,
      "loss": 87.12,
      "step": 3792,
      "task_loss": 1.0352365970611572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7858796562950868,
      "compression/movement_sparsity/importance_threshold": -0.0013896720521060536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7983460726370688,
      "compression/movement_sparsity/model_sparsity": 0.770920429042197,
      "compression_loss": 83.83351135253906,
      "distillation_loss": 2.5326294898986816,
      "epoch": 3.21,
      "learning_rate": 4.3681903569192237e-05,
      "loss": 87.1529,
      "step": 3793,
      "task_loss": 0.9876841306686401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.786181801608493,
      "compression/movement_sparsity/importance_threshold": -0.001387711085247649,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7986411838618888,
      "compression/movement_sparsity/model_sparsity": 0.7712054022885761,
      "compression_loss": 83.86515045166016,
      "distillation_loss": 3.568723440170288,
      "epoch": 3.21,
      "learning_rate": 4.3678772698810275e-05,
      "loss": 87.1439,
      "step": 3794,
      "task_loss": 1.5577876567840576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7864836625498608,
      "compression/movement_sparsity/importance_threshold": -0.001385751964004974,
      "compression/movement_sparsity/linear_layer_sparsity": 0.798925348700819,
      "compression/movement_sparsity/model_sparsity": 0.7714798051910958,
      "compression_loss": 83.89675903320312,
      "distillation_loss": 3.827022075653076,
      "epoch": 3.21,
      "learning_rate": 4.367564182842831e-05,
      "loss": 87.7011,
      "step": 3795,
      "task_loss": 2.3786561489105225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7867852392530748,
      "compression/movement_sparsity/importance_threshold": -0.0013837946875090972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7992209965131826,
      "compression/movement_sparsity/model_sparsity": 0.7717652965915857,
      "compression_loss": 83.92828369140625,
      "distillation_loss": 2.4142403602600098,
      "epoch": 3.21,
      "learning_rate": 4.367251095804634e-05,
      "loss": 87.0077,
      "step": 3796,
      "task_loss": 1.500040888786316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7870865318520205,
      "compression/movement_sparsity/importance_threshold": -0.0013818392548910815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7993602588670018,
      "compression/movement_sparsity/model_sparsity": 0.7718997748551302,
      "compression_loss": 83.95982360839844,
      "distillation_loss": 3.709933280944824,
      "epoch": 3.21,
      "learning_rate": 4.366938008766438e-05,
      "loss": 88.1274,
      "step": 3797,
      "task_loss": 1.7202701568603516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7873875404805828,
      "compression/movement_sparsity/importance_threshold": -0.0013798856652819953,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7995838966310125,
      "compression/movement_sparsity/model_sparsity": 0.7721157299739567,
      "compression_loss": 83.99130249023438,
      "distillation_loss": 4.8419694900512695,
      "epoch": 3.21,
      "learning_rate": 4.366624921728241e-05,
      "loss": 87.9126,
      "step": 3798,
      "task_loss": 1.7631484270095825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.787688265272647,
      "compression/movement_sparsity/importance_threshold": -0.0013779339178129043,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7999007933101031,
      "compression/movement_sparsity/model_sparsity": 0.7724217402772325,
      "compression_loss": 84.02281188964844,
      "distillation_loss": 4.384052276611328,
      "epoch": 3.21,
      "learning_rate": 4.366311834690044e-05,
      "loss": 88.0978,
      "step": 3799,
      "task_loss": 2.076523542404175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7879887063620985,
      "compression/movement_sparsity/importance_threshold": -0.0013759840116148716,
      "compression/movement_sparsity/linear_layer_sparsity": 0.7999716586383631,
      "compression/movement_sparsity/model_sparsity": 0.7724901711634594,
      "compression_loss": 84.05427551269531,
      "distillation_loss": 4.88466215133667,
      "epoch": 3.21,
      "learning_rate": 4.365998747651848e-05,
      "loss": 87.9036,
      "step": 3800,
      "task_loss": 3.07263445854187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7882888638828219,
      "compression/movement_sparsity/importance_threshold": -0.0013740359458189674,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8002270266124527,
      "compression/movement_sparsity/model_sparsity": 0.7727367664620354,
      "compression_loss": 84.08566284179688,
      "distillation_loss": 3.9636590480804443,
      "epoch": 3.21,
      "learning_rate": 4.365685660613651e-05,
      "loss": 87.5912,
      "step": 3801,
      "task_loss": 2.128955364227295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7885887379687029,
      "compression/movement_sparsity/importance_threshold": -0.0013720897195562548,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8005423016047449,
      "compression/movement_sparsity/model_sparsity": 0.773041210788443,
      "compression_loss": 84.11703491210938,
      "distillation_loss": 2.6379880905151367,
      "epoch": 3.21,
      "learning_rate": 4.365372573575454e-05,
      "loss": 87.3157,
      "step": 3802,
      "task_loss": 2.350498676300049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.788888328753626,
      "compression/movement_sparsity/importance_threshold": -0.001370145331957802,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8008160089486586,
      "compression/movement_sparsity/model_sparsity": 0.7733055154430709,
      "compression_loss": 84.14835357666016,
      "distillation_loss": 3.645094394683838,
      "epoch": 3.21,
      "learning_rate": 4.3650594865372575e-05,
      "loss": 87.3927,
      "step": 3803,
      "task_loss": 2.0933637619018555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7891876363714769,
      "compression/movement_sparsity/importance_threshold": -0.0013682027821546733,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8010822994603026,
      "compression/movement_sparsity/model_sparsity": 0.7735626580564345,
      "compression_loss": 84.17965698242188,
      "distillation_loss": 4.360992908477783,
      "epoch": 3.22,
      "learning_rate": 4.364746399499061e-05,
      "loss": 87.9708,
      "step": 3804,
      "task_loss": 2.8364760875701904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7894866609561405,
      "compression/movement_sparsity/importance_threshold": -0.0013662620692779359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8013004163346978,
      "compression/movement_sparsity/model_sparsity": 0.7737732819451884,
      "compression_loss": 84.2109603881836,
      "distillation_loss": 3.397578239440918,
      "epoch": 3.22,
      "learning_rate": 4.3644333124608645e-05,
      "loss": 87.6684,
      "step": 3805,
      "task_loss": 1.9506616592407227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7897854026415021,
      "compression/movement_sparsity/importance_threshold": -0.0013643231924586547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8016602877139481,
      "compression/movement_sparsity/model_sparsity": 0.7741207906354676,
      "compression_loss": 84.24217987060547,
      "distillation_loss": 3.6301426887512207,
      "epoch": 3.22,
      "learning_rate": 4.364120225422668e-05,
      "loss": 87.7204,
      "step": 3806,
      "task_loss": 1.5780022144317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7900838615614465,
      "compression/movement_sparsity/importance_threshold": -0.0013623861508278972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8019700656649603,
      "compression/movement_sparsity/model_sparsity": 0.7744199267608739,
      "compression_loss": 84.2734146118164,
      "distillation_loss": 6.274256229400635,
      "epoch": 3.22,
      "learning_rate": 4.363807138384471e-05,
      "loss": 88.5136,
      "step": 3807,
      "task_loss": 3.5995147228240967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7903820378498592,
      "compression/movement_sparsity/importance_threshold": -0.0013604509435167283,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8021372186468798,
      "compression/movement_sparsity/model_sparsity": 0.7745813375236418,
      "compression_loss": 84.30463409423828,
      "distillation_loss": 3.315661907196045,
      "epoch": 3.22,
      "learning_rate": 4.363494051346275e-05,
      "loss": 88.2468,
      "step": 3808,
      "task_loss": 1.7942416667938232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.790679931640625,
      "compression/movement_sparsity/importance_threshold": -0.0013585175696562146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8023424812685636,
      "compression/movement_sparsity/model_sparsity": 0.774779548742809,
      "compression_loss": 84.33583068847656,
      "distillation_loss": 5.113038063049316,
      "epoch": 3.22,
      "learning_rate": 4.363180964308078e-05,
      "loss": 88.7048,
      "step": 3809,
      "task_loss": 2.903592109680176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7909775430676292,
      "compression/movement_sparsity/importance_threshold": -0.0013565860283774227,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8026187761568542,
      "compression/movement_sparsity/model_sparsity": 0.7750463520517044,
      "compression_loss": 84.366943359375,
      "distillation_loss": 4.083876609802246,
      "epoch": 3.22,
      "learning_rate": 4.362867877269881e-05,
      "loss": 88.5362,
      "step": 3810,
      "task_loss": 2.5506746768951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7912748722647573,
      "compression/movement_sparsity/importance_threshold": -0.0013546563188114157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8028087877681316,
      "compression/movement_sparsity/model_sparsity": 0.7752298361795903,
      "compression_loss": 84.39806365966797,
      "distillation_loss": 4.847809791564941,
      "epoch": 3.22,
      "learning_rate": 4.362554790231684e-05,
      "loss": 88.6045,
      "step": 3811,
      "task_loss": 2.7054810523986816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7915719193658939,
      "compression/movement_sparsity/importance_threshold": -0.0013527284400892637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8030932984079233,
      "compression/movement_sparsity/model_sparsity": 0.7755045730036481,
      "compression_loss": 84.42919921875,
      "distillation_loss": 2.5901336669921875,
      "epoch": 3.22,
      "learning_rate": 4.362241703193488e-05,
      "loss": 87.7301,
      "step": 3812,
      "task_loss": 1.3163734674453735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7918686845049245,
      "compression/movement_sparsity/importance_threshold": -0.001350802391342029,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8033755553800318,
      "compression/movement_sparsity/model_sparsity": 0.7757771335804406,
      "compression_loss": 84.4601821899414,
      "distillation_loss": 5.294935703277588,
      "epoch": 3.22,
      "learning_rate": 4.361928616155291e-05,
      "loss": 88.5054,
      "step": 3813,
      "task_loss": 2.85512375831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7921651678157339,
      "compression/movement_sparsity/importance_threshold": -0.0013488781717007816,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8036200485132375,
      "compression/movement_sparsity/model_sparsity": 0.7760132276223719,
      "compression_loss": 84.49120330810547,
      "distillation_loss": 3.2664361000061035,
      "epoch": 3.22,
      "learning_rate": 4.3616155291170945e-05,
      "loss": 87.8127,
      "step": 3814,
      "task_loss": 1.9842255115509033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7924613694322076,
      "compression/movement_sparsity/importance_threshold": -0.0013469557802965847,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8039255456880684,
      "compression/movement_sparsity/model_sparsity": 0.7763082300294281,
      "compression_loss": 84.522216796875,
      "distillation_loss": 4.302258491516113,
      "epoch": 3.22,
      "learning_rate": 4.361302442078898e-05,
      "loss": 88.8326,
      "step": 3815,
      "task_loss": 3.7465360164642334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7927572894882304,
      "compression/movement_sparsity/importance_threshold": -0.0013450352162605048,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8041105133764359,
      "compression/movement_sparsity/model_sparsity": 0.7764868435086729,
      "compression_loss": 84.5531234741211,
      "distillation_loss": 3.676725387573242,
      "epoch": 3.23,
      "learning_rate": 4.3609893550407015e-05,
      "loss": 87.781,
      "step": 3816,
      "task_loss": 2.7854528427124023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7930529281176879,
      "compression/movement_sparsity/importance_threshold": -0.0013431164787236077,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8043774597172999,
      "compression/movement_sparsity/model_sparsity": 0.7767446194215053,
      "compression_loss": 84.58406066894531,
      "distillation_loss": 3.8480844497680664,
      "epoch": 3.23,
      "learning_rate": 4.360676268002505e-05,
      "loss": 88.8545,
      "step": 3817,
      "task_loss": 2.150320053100586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7933482854544647,
      "compression/movement_sparsity/importance_threshold": -0.001341199566816961,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8045592078804058,
      "compression/movement_sparsity/model_sparsity": 0.7769201239760858,
      "compression_loss": 84.61498260498047,
      "distillation_loss": 3.3975605964660645,
      "epoch": 3.23,
      "learning_rate": 4.360363180964308e-05,
      "loss": 88.589,
      "step": 3818,
      "task_loss": 1.8679769039154053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7936433616324464,
      "compression/movement_sparsity/importance_threshold": -0.0013392844796716284,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8048567516354235,
      "compression/movement_sparsity/model_sparsity": 0.7772074461877669,
      "compression_loss": 84.64590454101562,
      "distillation_loss": 4.183196067810059,
      "epoch": 3.23,
      "learning_rate": 4.360050093926112e-05,
      "loss": 88.3384,
      "step": 3819,
      "task_loss": 2.28397798538208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7939381567855177,
      "compression/movement_sparsity/importance_threshold": -0.0013373712164186794,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8051220762894891,
      "compression/movement_sparsity/model_sparsity": 0.7774636561237313,
      "compression_loss": 84.6767807006836,
      "distillation_loss": 3.4125051498413086,
      "epoch": 3.23,
      "learning_rate": 4.359737006887915e-05,
      "loss": 88.0735,
      "step": 3820,
      "task_loss": 3.5458414554595947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.794232671047564,
      "compression/movement_sparsity/importance_threshold": -0.001335459776189177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8054958273998675,
      "compression/movement_sparsity/model_sparsity": 0.7778245677336754,
      "compression_loss": 84.7076644897461,
      "distillation_loss": 4.9235334396362305,
      "epoch": 3.23,
      "learning_rate": 4.359423919849718e-05,
      "loss": 88.3002,
      "step": 3821,
      "task_loss": 3.2738828659057617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7945269045524707,
      "compression/movement_sparsity/importance_threshold": -0.0013335501581141869,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8057480831662042,
      "compression/movement_sparsity/model_sparsity": 0.7780681577384089,
      "compression_loss": 84.73851013183594,
      "distillation_loss": 3.390097141265869,
      "epoch": 3.23,
      "learning_rate": 4.359110832811521e-05,
      "loss": 88.4844,
      "step": 3822,
      "task_loss": 2.723334312438965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7948208574341225,
      "compression/movement_sparsity/importance_threshold": -0.0013316423613247775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8060095682382911,
      "compression/movement_sparsity/model_sparsity": 0.7783206599938474,
      "compression_loss": 84.76934051513672,
      "distillation_loss": 4.714110374450684,
      "epoch": 3.23,
      "learning_rate": 4.358797745773325e-05,
      "loss": 88.6622,
      "step": 3823,
      "task_loss": 1.773148775100708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7951145298264047,
      "compression/movement_sparsity/importance_threshold": -0.0013297363849520127,
      "compression/movement_sparsity/linear_layer_sparsity": 0.806277337346722,
      "compression/movement_sparsity/model_sparsity": 0.7785792304096495,
      "compression_loss": 84.80013275146484,
      "distillation_loss": 3.418839931488037,
      "epoch": 3.23,
      "learning_rate": 4.358484658735128e-05,
      "loss": 87.9292,
      "step": 3824,
      "task_loss": 1.603992223739624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7954079218632024,
      "compression/movement_sparsity/importance_threshold": -0.001327832228126961,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8063986776765846,
      "compression/movement_sparsity/model_sparsity": 0.7786964023258948,
      "compression_loss": 84.83088684082031,
      "distillation_loss": 4.064653396606445,
      "epoch": 3.23,
      "learning_rate": 4.358171571696932e-05,
      "loss": 87.973,
      "step": 3825,
      "task_loss": 1.5593812465667725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.795701033678401,
      "compression/movement_sparsity/importance_threshold": -0.0013259298899806855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.806692202987109,
      "compression/movement_sparsity/model_sparsity": 0.7789798441390132,
      "compression_loss": 84.86157989501953,
      "distillation_loss": 3.0239126682281494,
      "epoch": 3.23,
      "learning_rate": 4.357858484658735e-05,
      "loss": 88.4998,
      "step": 3826,
      "task_loss": 1.8976010084152222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.795993865405885,
      "compression/movement_sparsity/importance_threshold": -0.0013240293696442553,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8069478094445512,
      "compression/movement_sparsity/model_sparsity": 0.779226669728305,
      "compression_loss": 84.8922119140625,
      "distillation_loss": 2.9869577884674072,
      "epoch": 3.23,
      "learning_rate": 4.3575453976205385e-05,
      "loss": 88.8509,
      "step": 3827,
      "task_loss": 1.6134488582611084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7962864171795404,
      "compression/movement_sparsity/importance_threshold": -0.0013221306662487328,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8070828864155304,
      "compression/movement_sparsity/model_sparsity": 0.7793571063897855,
      "compression_loss": 84.92285919189453,
      "distillation_loss": 5.790309906005859,
      "epoch": 3.24,
      "learning_rate": 4.3572323105823423e-05,
      "loss": 88.9342,
      "step": 3828,
      "task_loss": 3.77681827545166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7965786891332516,
      "compression/movement_sparsity/importance_threshold": -0.0013202337789251879,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8073408180856617,
      "compression/movement_sparsity/model_sparsity": 0.7796061773135572,
      "compression_loss": 84.95350646972656,
      "distillation_loss": 4.185464382171631,
      "epoch": 3.24,
      "learning_rate": 4.3569192235441455e-05,
      "loss": 89.4671,
      "step": 3829,
      "task_loss": 2.0793468952178955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7968706814009041,
      "compression/movement_sparsity/importance_threshold": -0.0013183387068046847,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8074765628100283,
      "compression/movement_sparsity/model_sparsity": 0.7797372587890423,
      "compression_loss": 84.98406982421875,
      "distillation_loss": 3.3836236000061035,
      "epoch": 3.24,
      "learning_rate": 4.3566061365059494e-05,
      "loss": 88.7265,
      "step": 3830,
      "task_loss": 1.9048395156860352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7971623941163832,
      "compression/movement_sparsity/importance_threshold": -0.0013164454490182881,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8077464782686338,
      "compression/movement_sparsity/model_sparsity": 0.7799979018212875,
      "compression_loss": 85.01464080810547,
      "distillation_loss": 2.7353830337524414,
      "epoch": 3.24,
      "learning_rate": 4.3562930494677526e-05,
      "loss": 88.212,
      "step": 3831,
      "task_loss": 1.4454268217086792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7974538274135735,
      "compression/movement_sparsity/importance_threshold": -0.0013145540046970673,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8079936901120605,
      "compression/movement_sparsity/model_sparsity": 0.7802366211773799,
      "compression_loss": 85.04515075683594,
      "distillation_loss": 6.1675639152526855,
      "epoch": 3.24,
      "learning_rate": 4.355979962429556e-05,
      "loss": 89.0643,
      "step": 3832,
      "task_loss": 2.4130935668945312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7977449814263609,
      "compression/movement_sparsity/importance_threshold": -0.0013126643729720845,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8083204719261213,
      "compression/movement_sparsity/model_sparsity": 0.7805521770308294,
      "compression_loss": 85.07565307617188,
      "distillation_loss": 4.024234294891357,
      "epoch": 3.24,
      "learning_rate": 4.355666875391359e-05,
      "loss": 88.7409,
      "step": 3833,
      "task_loss": 2.1109867095947266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7980358562886297,
      "compression/movement_sparsity/importance_threshold": -0.001310776552974409,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8084153406038322,
      "compression/movement_sparsity/model_sparsity": 0.7806437866776107,
      "compression_loss": 85.1061782836914,
      "distillation_loss": 5.340185165405273,
      "epoch": 3.24,
      "learning_rate": 4.355353788353163e-05,
      "loss": 89.4317,
      "step": 3834,
      "task_loss": 4.018442153930664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7983264521342657,
      "compression/movement_sparsity/importance_threshold": -0.0013088905438351046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8086485653986221,
      "compression/movement_sparsity/model_sparsity": 0.7808689994832161,
      "compression_loss": 85.1365737915039,
      "distillation_loss": 4.111159324645996,
      "epoch": 3.24,
      "learning_rate": 4.355040701314966e-05,
      "loss": 89.0224,
      "step": 3835,
      "task_loss": 2.020982027053833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7986167690971536,
      "compression/movement_sparsity/importance_threshold": -0.001307006344685239,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8088948352328056,
      "compression/movement_sparsity/model_sparsity": 0.7811068091909807,
      "compression_loss": 85.1670150756836,
      "distillation_loss": 4.027480125427246,
      "epoch": 3.24,
      "learning_rate": 4.354727614276769e-05,
      "loss": 88.6136,
      "step": 3836,
      "task_loss": 1.8155384063720703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.798906807311179,
      "compression/movement_sparsity/importance_threshold": -0.001305123954655877,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8091333066613552,
      "compression/movement_sparsity/model_sparsity": 0.7813370883923358,
      "compression_loss": 85.1974868774414,
      "distillation_loss": 4.765969753265381,
      "epoch": 3.24,
      "learning_rate": 4.354414527238573e-05,
      "loss": 88.8596,
      "step": 3837,
      "task_loss": 2.0147860050201416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7991965669102266,
      "compression/movement_sparsity/importance_threshold": -0.001303243372878086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8093694051805452,
      "compression/movement_sparsity/model_sparsity": 0.7815650762010677,
      "compression_loss": 85.22784423828125,
      "distillation_loss": 4.259750843048096,
      "epoch": 3.24,
      "learning_rate": 4.354101440200376e-05,
      "loss": 89.2729,
      "step": 3838,
      "task_loss": 2.1506028175354004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7994860480281816,
      "compression/movement_sparsity/importance_threshold": -0.001301364598482931,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8097744572309679,
      "compression/movement_sparsity/model_sparsity": 0.7819562134674725,
      "compression_loss": 85.2582015991211,
      "distillation_loss": 4.023374557495117,
      "epoch": 3.24,
      "learning_rate": 4.353788353162179e-05,
      "loss": 88.8609,
      "step": 3839,
      "task_loss": 1.8266702890396118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.7997752507989294,
      "compression/movement_sparsity/importance_threshold": -0.0012994876306014775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8098905032304001,
      "compression/movement_sparsity/model_sparsity": 0.782068272929825,
      "compression_loss": 85.28853607177734,
      "distillation_loss": 3.0768375396728516,
      "epoch": 3.25,
      "learning_rate": 4.3534752661239825e-05,
      "loss": 88.23,
      "step": 3840,
      "task_loss": 1.4302870035171509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8000641753563549,
      "compression/movement_sparsity/importance_threshold": -0.0012976124683647932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8101868068719836,
      "compression/movement_sparsity/model_sparsity": 0.7823543976297834,
      "compression_loss": 85.31877136230469,
      "distillation_loss": 6.2855329513549805,
      "epoch": 3.25,
      "learning_rate": 4.3531621790857864e-05,
      "loss": 89.6141,
      "step": 3841,
      "task_loss": 3.804384231567383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8003528218343435,
      "compression/movement_sparsity/importance_threshold": -0.001295739110903942,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8104431884003224,
      "compression/movement_sparsity/model_sparsity": 0.7826019716639019,
      "compression_loss": 85.34904479980469,
      "distillation_loss": 4.333503723144531,
      "epoch": 3.25,
      "learning_rate": 4.3528490920475895e-05,
      "loss": 89.9863,
      "step": 3842,
      "task_loss": 2.6990628242492676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8006411903667799,
      "compression/movement_sparsity/importance_threshold": -0.0012938675573499932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8106029603224753,
      "compression/movement_sparsity/model_sparsity": 0.7827562549290129,
      "compression_loss": 85.37931060791016,
      "distillation_loss": 5.459375381469727,
      "epoch": 3.25,
      "learning_rate": 4.352536005009393e-05,
      "loss": 89.6308,
      "step": 3843,
      "task_loss": 2.6345577239990234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8009292810875499,
      "compression/movement_sparsity/importance_threshold": -0.001291997806834008,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8107678357883764,
      "compression/movement_sparsity/model_sparsity": 0.7829154664154441,
      "compression_loss": 85.4095458984375,
      "distillation_loss": 3.0848135948181152,
      "epoch": 3.25,
      "learning_rate": 4.352222917971196e-05,
      "loss": 89.5896,
      "step": 3844,
      "task_loss": 2.267569065093994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8012170941305379,
      "compression/movement_sparsity/importance_threshold": -0.0012901298584870576,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8110920181338925,
      "compression/movement_sparsity/model_sparsity": 0.7832285121000903,
      "compression_loss": 85.43973541259766,
      "distillation_loss": 3.854504108428955,
      "epoch": 3.25,
      "learning_rate": 4.351909830933e-05,
      "loss": 89.4359,
      "step": 3845,
      "task_loss": 1.8507663011550903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8015046296296298,
      "compression/movement_sparsity/importance_threshold": -0.0012882637114402032,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8112738378420042,
      "compression/movement_sparsity/model_sparsity": 0.7834040857418854,
      "compression_loss": 85.4698715209961,
      "distillation_loss": 3.213432788848877,
      "epoch": 3.25,
      "learning_rate": 4.351596743894803e-05,
      "loss": 89.3834,
      "step": 3846,
      "task_loss": 1.6765257120132446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8017918877187099,
      "compression/movement_sparsity/importance_threshold": -0.0012863993648245167,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8115227786897381,
      "compression/movement_sparsity/model_sparsity": 0.783644474705668,
      "compression_loss": 85.5000228881836,
      "distillation_loss": 4.9170355796813965,
      "epoch": 3.25,
      "learning_rate": 4.351283656856606e-05,
      "loss": 89.0048,
      "step": 3847,
      "task_loss": 3.706254720687866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8020788685316641,
      "compression/movement_sparsity/importance_threshold": -0.0012845368177710577,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8116546122871202,
      "compression/movement_sparsity/model_sparsity": 0.7837717794134125,
      "compression_loss": 85.5301284790039,
      "distillation_loss": 3.7830729484558105,
      "epoch": 3.25,
      "learning_rate": 4.35097056981841e-05,
      "loss": 89.12,
      "step": 3848,
      "task_loss": 2.2166600227355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8023655722023769,
      "compression/movement_sparsity/importance_threshold": -0.001282676069410898,
      "compression/movement_sparsity/linear_layer_sparsity": 0.811807313177865,
      "compression/movement_sparsity/model_sparsity": 0.7839192345587973,
      "compression_loss": 85.56021118164062,
      "distillation_loss": 4.279556751251221,
      "epoch": 3.25,
      "learning_rate": 4.350657482780213e-05,
      "loss": 89.842,
      "step": 3849,
      "task_loss": 3.0454111099243164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.802651998864734,
      "compression/movement_sparsity/importance_threshold": -0.001280817118875099,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8121702490681978,
      "compression/movement_sparsity/model_sparsity": 0.7842697024847758,
      "compression_loss": 85.59017944335938,
      "distillation_loss": 3.8417630195617676,
      "epoch": 3.25,
      "learning_rate": 4.350344395742016e-05,
      "loss": 88.9822,
      "step": 3850,
      "task_loss": 1.399146318435669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8029381486526203,
      "compression/movement_sparsity/importance_threshold": -0.0012789599652947292,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8124042727822193,
      "compression/movement_sparsity/model_sparsity": 0.7844956867642795,
      "compression_loss": 85.62015533447266,
      "distillation_loss": 6.126126766204834,
      "epoch": 3.26,
      "learning_rate": 4.3500313087038195e-05,
      "loss": 90.0695,
      "step": 3851,
      "task_loss": 3.8916678428649902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8032240216999207,
      "compression/movement_sparsity/importance_threshold": -0.001277104607800855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8126011050173845,
      "compression/movement_sparsity/model_sparsity": 0.7846857572066399,
      "compression_loss": 85.65007781982422,
      "distillation_loss": 4.733682632446289,
      "epoch": 3.26,
      "learning_rate": 4.3497182216656234e-05,
      "loss": 89.9214,
      "step": 3852,
      "task_loss": 2.012526512145996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8035096181405209,
      "compression/movement_sparsity/importance_threshold": -0.0012752510455245397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.812871342428516,
      "compression/movement_sparsity/model_sparsity": 0.7849467111313516,
      "compression_loss": 85.68001556396484,
      "distillation_loss": 3.6934170722961426,
      "epoch": 3.26,
      "learning_rate": 4.3494051346274265e-05,
      "loss": 89.5187,
      "step": 3853,
      "task_loss": 1.3038341999053955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8037949381083055,
      "compression/movement_sparsity/importance_threshold": -0.0012733992775968532,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8130234590350468,
      "compression/movement_sparsity/model_sparsity": 0.7850936020644825,
      "compression_loss": 85.70986938476562,
      "distillation_loss": 4.145567417144775,
      "epoch": 3.26,
      "learning_rate": 4.34909204758923e-05,
      "loss": 90.3762,
      "step": 3854,
      "task_loss": 2.2323107719421387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.80407998173716,
      "compression/movement_sparsity/importance_threshold": -0.0012715493031488579,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8132621450986138,
      "compression/movement_sparsity/model_sparsity": 0.7853240885274819,
      "compression_loss": 85.73973846435547,
      "distillation_loss": 3.54253888130188,
      "epoch": 3.26,
      "learning_rate": 4.348778960551033e-05,
      "loss": 88.8834,
      "step": 3855,
      "task_loss": 2.3486838340759277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8043647491609693,
      "compression/movement_sparsity/importance_threshold": -0.001269701121311622,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8132775153506965,
      "compression/movement_sparsity/model_sparsity": 0.7853389307641211,
      "compression_loss": 85.7695541381836,
      "distillation_loss": 3.0010581016540527,
      "epoch": 3.26,
      "learning_rate": 4.348465873512837e-05,
      "loss": 89.1709,
      "step": 3856,
      "task_loss": 3.0481648445129395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8046492405136187,
      "compression/movement_sparsity/importance_threshold": -0.0012678547312162114,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8134820029014839,
      "compression/movement_sparsity/model_sparsity": 0.7855363935384616,
      "compression_loss": 85.79932403564453,
      "distillation_loss": 3.671555757522583,
      "epoch": 3.26,
      "learning_rate": 4.34815278647464e-05,
      "loss": 89.1039,
      "step": 3857,
      "task_loss": 2.639066457748413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8049334559289932,
      "compression/movement_sparsity/importance_threshold": -0.0012660101319936917,
      "compression/movement_sparsity/linear_layer_sparsity": 0.813693048744471,
      "compression/movement_sparsity/model_sparsity": 0.7857401893074892,
      "compression_loss": 85.82904052734375,
      "distillation_loss": 2.368487596511841,
      "epoch": 3.26,
      "learning_rate": 4.347839699436443e-05,
      "loss": 89.0983,
      "step": 3858,
      "task_loss": 1.7626569271087646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8052173955409783,
      "compression/movement_sparsity/importance_threshold": -0.0012641673227751287,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8139710368645658,
      "compression/movement_sparsity/model_sparsity": 0.7860086276804673,
      "compression_loss": 85.85870361328125,
      "distillation_loss": 5.308958053588867,
      "epoch": 3.26,
      "learning_rate": 4.347526612398247e-05,
      "loss": 90.5179,
      "step": 3859,
      "task_loss": 2.5066640377044678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8055010594834585,
      "compression/movement_sparsity/importance_threshold": -0.001262326302691589,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8141804729449221,
      "compression/movement_sparsity/model_sparsity": 0.7862108689871626,
      "compression_loss": 85.88839721679688,
      "distillation_loss": 4.007132530212402,
      "epoch": 3.26,
      "learning_rate": 4.34721352536005e-05,
      "loss": 90.2084,
      "step": 3860,
      "task_loss": 2.0864479541778564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8057844478903194,
      "compression/movement_sparsity/importance_threshold": -0.0012604870708741393,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8144438658838308,
      "compression/movement_sparsity/model_sparsity": 0.7864652135683283,
      "compression_loss": 85.91801452636719,
      "distillation_loss": 4.0522141456604,
      "epoch": 3.26,
      "learning_rate": 4.346900438321854e-05,
      "loss": 89.2583,
      "step": 3861,
      "task_loss": 2.573652505874634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8060675608954462,
      "compression/movement_sparsity/importance_threshold": -0.0012586496264538434,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8147086181778498,
      "compression/movement_sparsity/model_sparsity": 0.7867208708065745,
      "compression_loss": 85.94766235351562,
      "distillation_loss": 2.813418388366699,
      "epoch": 3.26,
      "learning_rate": 4.346587351283657e-05,
      "loss": 89.1213,
      "step": 3862,
      "task_loss": 1.7635328769683838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8063503986327237,
      "compression/movement_sparsity/importance_threshold": -0.0012568139685617697,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8149782832289348,
      "compression/movement_sparsity/model_sparsity": 0.786981272033568,
      "compression_loss": 85.9771957397461,
      "distillation_loss": 3.043480396270752,
      "epoch": 3.27,
      "learning_rate": 4.346274264245461e-05,
      "loss": 90.2685,
      "step": 3863,
      "task_loss": 0.9518271088600159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8066329612360374,
      "compression/movement_sparsity/importance_threshold": -0.0012549800963289814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8151450069408195,
      "compression/movement_sparsity/model_sparsity": 0.7871422682730472,
      "compression_loss": 86.0066909790039,
      "distillation_loss": 3.2677416801452637,
      "epoch": 3.27,
      "learning_rate": 4.345961177207264e-05,
      "loss": 89.5639,
      "step": 3864,
      "task_loss": 1.4678560495376587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8069152488392721,
      "compression/movement_sparsity/importance_threshold": -0.0012531480088865486,
      "compression/movement_sparsity/linear_layer_sparsity": 0.815338750816567,
      "compression/movement_sparsity/model_sparsity": 0.787329356450637,
      "compression_loss": 86.0361557006836,
      "distillation_loss": 3.1342668533325195,
      "epoch": 3.27,
      "learning_rate": 4.3456480901690674e-05,
      "loss": 89.6114,
      "step": 3865,
      "task_loss": 1.3278528451919556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8071972615763134,
      "compression/movement_sparsity/importance_threshold": -0.0012513177053655325,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8154871113102924,
      "compression/movement_sparsity/model_sparsity": 0.7874726203049927,
      "compression_loss": 86.06564331054688,
      "distillation_loss": 2.928405523300171,
      "epoch": 3.27,
      "learning_rate": 4.3453350031308706e-05,
      "loss": 89.6424,
      "step": 3866,
      "task_loss": 1.8039101362228394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8074789995810459,
      "compression/movement_sparsity/importance_threshold": -0.0012494891848970043,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8157053831988669,
      "compression/movement_sparsity/model_sparsity": 0.7876833938827117,
      "compression_loss": 86.09504699707031,
      "distillation_loss": 4.7323899269104,
      "epoch": 3.27,
      "learning_rate": 4.3450219160926744e-05,
      "loss": 90.1703,
      "step": 3867,
      "task_loss": 2.8476650714874268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8077604629873552,
      "compression/movement_sparsity/importance_threshold": -0.0012476624466120252,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8159702070378918,
      "compression/movement_sparsity/model_sparsity": 0.7879391202081727,
      "compression_loss": 86.12445831298828,
      "distillation_loss": 4.4475417137146,
      "epoch": 3.27,
      "learning_rate": 4.3447088290544776e-05,
      "loss": 89.8566,
      "step": 3868,
      "task_loss": 1.5177602767944336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8080416519291259,
      "compression/movement_sparsity/importance_threshold": -0.0012458374896416654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8161087897141558,
      "compression/movement_sparsity/model_sparsity": 0.7880729421431768,
      "compression_loss": 86.15388488769531,
      "distillation_loss": 5.564089775085449,
      "epoch": 3.27,
      "learning_rate": 4.344395742016281e-05,
      "loss": 90.5112,
      "step": 3869,
      "task_loss": 2.812685251235962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8083225665402436,
      "compression/movement_sparsity/importance_threshold": -0.0012440143131169888,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8163043579875515,
      "compression/movement_sparsity/model_sparsity": 0.7882617920447431,
      "compression_loss": 86.18326568603516,
      "distillation_loss": 6.386137008666992,
      "epoch": 3.27,
      "learning_rate": 4.344082654978084e-05,
      "loss": 90.4801,
      "step": 3870,
      "task_loss": 3.124272108078003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8086032069545934,
      "compression/movement_sparsity/importance_threshold": -0.0012421929161690612,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8165019295211101,
      "compression/movement_sparsity/model_sparsity": 0.7884525763883229,
      "compression_loss": 86.212646484375,
      "distillation_loss": 3.467851161956787,
      "epoch": 3.27,
      "learning_rate": 4.343769567939888e-05,
      "loss": 89.5143,
      "step": 3871,
      "task_loss": 2.3756535053253174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8088835733060602,
      "compression/movement_sparsity/importance_threshold": -0.00124037329792895,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8166116914841983,
      "compression/movement_sparsity/model_sparsity": 0.7885585676903116,
      "compression_loss": 86.24186706542969,
      "distillation_loss": 4.594011306762695,
      "epoch": 3.27,
      "learning_rate": 4.343456480901691e-05,
      "loss": 90.7712,
      "step": 3872,
      "task_loss": 2.7722079753875732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8091636657285296,
      "compression/movement_sparsity/importance_threshold": -0.0012385554575277185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8168153443432512,
      "compression/movement_sparsity/model_sparsity": 0.7887552244471465,
      "compression_loss": 86.27118682861328,
      "distillation_loss": 4.311746597290039,
      "epoch": 3.27,
      "learning_rate": 4.343143393863494e-05,
      "loss": 90.0962,
      "step": 3873,
      "task_loss": 2.836796998977661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8094434843558862,
      "compression/movement_sparsity/importance_threshold": -0.0012367393940964358,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8169836062727609,
      "compression/movement_sparsity/model_sparsity": 0.7889177060617433,
      "compression_loss": 86.30043029785156,
      "distillation_loss": 4.756231307983398,
      "epoch": 3.27,
      "learning_rate": 4.342830306825298e-05,
      "loss": 90.2284,
      "step": 3874,
      "task_loss": 2.1445376873016357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8097230293220155,
      "compression/movement_sparsity/importance_threshold": -0.0012349251067661658,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8170487480005556,
      "compression/movement_sparsity/model_sparsity": 0.7889806099707889,
      "compression_loss": 86.32965087890625,
      "distillation_loss": 3.9638192653656006,
      "epoch": 3.28,
      "learning_rate": 4.342517219787101e-05,
      "loss": 90.3917,
      "step": 3875,
      "task_loss": 1.8411422967910767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8100023007608024,
      "compression/movement_sparsity/importance_threshold": -0.001233112594667977,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8172858839223299,
      "compression/movement_sparsity/model_sparsity": 0.7892095995441349,
      "compression_loss": 86.35884857177734,
      "distillation_loss": 3.9312593936920166,
      "epoch": 3.28,
      "learning_rate": 4.3422041327489044e-05,
      "loss": 90.0061,
      "step": 3876,
      "task_loss": 2.442305564880371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8102812988061322,
      "compression/movement_sparsity/importance_threshold": -0.0012313018569329332,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8175040127208928,
      "compression/movement_sparsity/model_sparsity": 0.7894202349474244,
      "compression_loss": 86.38801574707031,
      "distillation_loss": 3.940225124359131,
      "epoch": 3.28,
      "learning_rate": 4.3418910457107076e-05,
      "loss": 90.1629,
      "step": 3877,
      "task_loss": 2.2102694511413574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8105600235918899,
      "compression/movement_sparsity/importance_threshold": -0.0012294928926921012,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8177827401393811,
      "compression/movement_sparsity/model_sparsity": 0.7896893872216219,
      "compression_loss": 86.41719055175781,
      "distillation_loss": 4.7032341957092285,
      "epoch": 3.28,
      "learning_rate": 4.3415779586725114e-05,
      "loss": 90.3257,
      "step": 3878,
      "task_loss": 3.4721083641052246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8108384752519607,
      "compression/movement_sparsity/importance_threshold": -0.0012276857010765476,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8179859518042315,
      "compression/movement_sparsity/model_sparsity": 0.7898856179406324,
      "compression_loss": 86.44628143310547,
      "distillation_loss": 3.692560911178589,
      "epoch": 3.28,
      "learning_rate": 4.3412648716343146e-05,
      "loss": 90.0874,
      "step": 3879,
      "task_loss": 1.6042381525039673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.81111665392023,
      "compression/movement_sparsity/importance_threshold": -0.0012258802812173371,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8182683757146869,
      "compression/movement_sparsity/model_sparsity": 0.7901583397209261,
      "compression_loss": 86.47535705566406,
      "distillation_loss": 4.73038387298584,
      "epoch": 3.28,
      "learning_rate": 4.340951784596118e-05,
      "loss": 90.6527,
      "step": 3880,
      "task_loss": 3.3917994499206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8113945597305825,
      "compression/movement_sparsity/importance_threshold": -0.0012240766322455373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8184405726195164,
      "compression/movement_sparsity/model_sparsity": 0.790324621132335,
      "compression_loss": 86.50443267822266,
      "distillation_loss": 2.7732439041137695,
      "epoch": 3.28,
      "learning_rate": 4.340638697557921e-05,
      "loss": 89.9843,
      "step": 3881,
      "task_loss": 0.8700898885726929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8116721928169038,
      "compression/movement_sparsity/importance_threshold": -0.0012222747532922122,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8186168237413421,
      "compression/movement_sparsity/model_sparsity": 0.7904948174859142,
      "compression_loss": 86.53350830078125,
      "distillation_loss": 4.02028751373291,
      "epoch": 3.28,
      "learning_rate": 4.340325610519725e-05,
      "loss": 90.3836,
      "step": 3882,
      "task_loss": 2.2759335041046143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8119495533130786,
      "compression/movement_sparsity/importance_threshold": -0.0012204746434884301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8187957578008859,
      "compression/movement_sparsity/model_sparsity": 0.790667604610047,
      "compression_loss": 86.56245422363281,
      "distillation_loss": 3.8505699634552,
      "epoch": 3.28,
      "learning_rate": 4.340012523481528e-05,
      "loss": 90.4794,
      "step": 3883,
      "task_loss": 2.1540467739105225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8122266413529925,
      "compression/movement_sparsity/importance_threshold": -0.0012186763019652542,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8189844339053881,
      "compression/movement_sparsity/model_sparsity": 0.790849799109924,
      "compression_loss": 86.5914306640625,
      "distillation_loss": 3.4753365516662598,
      "epoch": 3.28,
      "learning_rate": 4.339699436443331e-05,
      "loss": 90.2742,
      "step": 3884,
      "task_loss": 1.5623728036880493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8125034570705301,
      "compression/movement_sparsity/importance_threshold": -0.0012168797278537544,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8192670486025257,
      "compression/movement_sparsity/model_sparsity": 0.7911227051227905,
      "compression_loss": 86.6203842163086,
      "distillation_loss": 3.873098850250244,
      "epoch": 3.28,
      "learning_rate": 4.339386349405135e-05,
      "loss": 90.2662,
      "step": 3885,
      "task_loss": 2.1524300575256348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.812780000599577,
      "compression/movement_sparsity/importance_threshold": -0.001215084920284994,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8194799188431612,
      "compression/movement_sparsity/model_sparsity": 0.7913282626157946,
      "compression_loss": 86.64928436279297,
      "distillation_loss": 3.952699661254883,
      "epoch": 3.28,
      "learning_rate": 4.339073262366938e-05,
      "loss": 90.2874,
      "step": 3886,
      "task_loss": 2.7643043994903564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.813056272074018,
      "compression/movement_sparsity/importance_threshold": -0.0012132918783900404,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8197161723765305,
      "compression/movement_sparsity/model_sparsity": 0.7915564001134918,
      "compression_loss": 86.67810821533203,
      "distillation_loss": 4.497793197631836,
      "epoch": 3.29,
      "learning_rate": 4.3387601753287414e-05,
      "loss": 90.7225,
      "step": 3887,
      "task_loss": 2.2384889125823975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8133322716277386,
      "compression/movement_sparsity/importance_threshold": -0.0012115006012999576,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8198076188181299,
      "compression/movement_sparsity/model_sparsity": 0.7916447050885002,
      "compression_loss": 86.70701599121094,
      "distillation_loss": 3.3626246452331543,
      "epoch": 3.29,
      "learning_rate": 4.3384470882905445e-05,
      "loss": 90.2157,
      "step": 3888,
      "task_loss": 2.083061695098877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8136079993946235,
      "compression/movement_sparsity/importance_threshold": -0.001209711088145815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.819989784327103,
      "compression/movement_sparsity/model_sparsity": 0.7918206126518335,
      "compression_loss": 86.73580169677734,
      "distillation_loss": 4.343718528747559,
      "epoch": 3.29,
      "learning_rate": 4.3381340012523484e-05,
      "loss": 90.8514,
      "step": 3889,
      "task_loss": 2.814337730407715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8138834555085583,
      "compression/movement_sparsity/importance_threshold": -0.0012079233380586736,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8201335897887915,
      "compression/movement_sparsity/model_sparsity": 0.7919594779535155,
      "compression_loss": 86.76456451416016,
      "distillation_loss": 3.236767530441284,
      "epoch": 3.29,
      "learning_rate": 4.3378209142141516e-05,
      "loss": 90.9971,
      "step": 3890,
      "task_loss": 2.2612791061401367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8141586401034278,
      "compression/movement_sparsity/importance_threshold": -0.0012061373501696055,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8203129888908731,
      "compression/movement_sparsity/model_sparsity": 0.7921327141445444,
      "compression_loss": 86.79326629638672,
      "distillation_loss": 3.86181640625,
      "epoch": 3.29,
      "learning_rate": 4.337507827175955e-05,
      "loss": 90.9433,
      "step": 3891,
      "task_loss": 2.404254913330078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8144335533131172,
      "compression/movement_sparsity/importance_threshold": -0.0012043531236096729,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8205763341331112,
      "compression/movement_sparsity/model_sparsity": 0.7923870126675668,
      "compression_loss": 86.82193756103516,
      "distillation_loss": 4.063754558563232,
      "epoch": 3.29,
      "learning_rate": 4.3371947401377586e-05,
      "loss": 91.0126,
      "step": 3892,
      "task_loss": 2.303164005279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8147081952715118,
      "compression/movement_sparsity/importance_threshold": -0.0012025706575099424,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8207901106104869,
      "compression/movement_sparsity/model_sparsity": 0.7925934452652914,
      "compression_loss": 86.85059356689453,
      "distillation_loss": 5.306834697723389,
      "epoch": 3.29,
      "learning_rate": 4.336881653099562e-05,
      "loss": 90.8207,
      "step": 3893,
      "task_loss": 2.6821224689483643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8149825661124966,
      "compression/movement_sparsity/importance_threshold": -0.0012007899510014805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8209526727878665,
      "compression/movement_sparsity/model_sparsity": 0.7927504229317783,
      "compression_loss": 86.8792724609375,
      "distillation_loss": 5.74947452545166,
      "epoch": 3.29,
      "learning_rate": 4.336568566061365e-05,
      "loss": 91.1105,
      "step": 3894,
      "task_loss": 2.1763570308685303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.815256665969957,
      "compression/movement_sparsity/importance_threshold": -0.0011990110032153514,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8212295638845389,
      "compression/movement_sparsity/model_sparsity": 0.7930178019674634,
      "compression_loss": 86.90792083740234,
      "distillation_loss": 3.5070157051086426,
      "epoch": 3.29,
      "learning_rate": 4.336255479023169e-05,
      "loss": 90.808,
      "step": 3895,
      "task_loss": 1.565128207206726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8155304949777777,
      "compression/movement_sparsity/importance_threshold": -0.001197233813282625,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8213955602221978,
      "compression/movement_sparsity/model_sparsity": 0.7931780958202592,
      "compression_loss": 86.93647766113281,
      "distillation_loss": 2.8362417221069336,
      "epoch": 3.29,
      "learning_rate": 4.335942391984972e-05,
      "loss": 90.4715,
      "step": 3896,
      "task_loss": 1.4448102712631226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8158040532698443,
      "compression/movement_sparsity/importance_threshold": -0.0011954583803343638,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8214760006570694,
      "compression/movement_sparsity/model_sparsity": 0.7932557728787292,
      "compression_loss": 86.96501159667969,
      "distillation_loss": 3.2832934856414795,
      "epoch": 3.29,
      "learning_rate": 4.335629304946776e-05,
      "loss": 90.3374,
      "step": 3897,
      "task_loss": 3.0713555812835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8160773409800414,
      "compression/movement_sparsity/importance_threshold": -0.0011936847035016367,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8218868120804601,
      "compression/movement_sparsity/model_sparsity": 0.7936524716659227,
      "compression_loss": 86.99351501464844,
      "distillation_loss": 5.042202472686768,
      "epoch": 3.29,
      "learning_rate": 4.335316217908579e-05,
      "loss": 91.0032,
      "step": 3898,
      "task_loss": 1.6975409984588623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8163503582422547,
      "compression/movement_sparsity/importance_threshold": -0.001191912781915507,
      "compression/movement_sparsity/linear_layer_sparsity": 0.822104511608988,
      "compression/movement_sparsity/model_sparsity": 0.7938626925459237,
      "compression_loss": 87.02205657958984,
      "distillation_loss": 3.8549537658691406,
      "epoch": 3.3,
      "learning_rate": 4.335003130870382e-05,
      "loss": 90.6587,
      "step": 3899,
      "task_loss": 2.0667450428009033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8166231051903688,
      "compression/movement_sparsity/importance_threshold": -0.0011901426147070421,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8222725112068097,
      "compression/movement_sparsity/model_sparsity": 0.794024920840733,
      "compression_loss": 87.05049133300781,
      "distillation_loss": 3.7254252433776855,
      "epoch": 3.3,
      "learning_rate": 4.334690043832186e-05,
      "loss": 90.7561,
      "step": 3900,
      "task_loss": 3.731259822845459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8168955819582693,
      "compression/movement_sparsity/importance_threshold": -0.0011883742010073087,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8224663147033954,
      "compression/movement_sparsity/model_sparsity": 0.7942120665910016,
      "compression_loss": 87.07894134521484,
      "distillation_loss": 4.506944179534912,
      "epoch": 3.3,
      "learning_rate": 4.334376956793989e-05,
      "loss": 90.7585,
      "step": 3901,
      "task_loss": 2.096888542175293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8171677886798413,
      "compression/movement_sparsity/importance_threshold": -0.0011866075399473708,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8226658298762787,
      "compression/movement_sparsity/model_sparsity": 0.7944047278039158,
      "compression_loss": 87.10740661621094,
      "distillation_loss": 4.093010902404785,
      "epoch": 3.3,
      "learning_rate": 4.3340638697557924e-05,
      "loss": 90.8355,
      "step": 3902,
      "task_loss": 2.843141555786133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8174397254889696,
      "compression/movement_sparsity/importance_threshold": -0.0011848426306582966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8229142818331395,
      "compression/movement_sparsity/model_sparsity": 0.7946446446717309,
      "compression_loss": 87.13570404052734,
      "distillation_loss": 3.8430702686309814,
      "epoch": 3.3,
      "learning_rate": 4.3337507827175956e-05,
      "loss": 91.0189,
      "step": 3903,
      "task_loss": 2.1826038360595703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8177113925195397,
      "compression/movement_sparsity/importance_threshold": -0.001183079472271151,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8230192860533408,
      "compression/movement_sparsity/model_sparsity": 0.7947460416739376,
      "compression_loss": 87.16403198242188,
      "distillation_loss": 3.6215457916259766,
      "epoch": 3.3,
      "learning_rate": 4.3334376956793995e-05,
      "loss": 90.3916,
      "step": 3904,
      "task_loss": 3.448094367980957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8179827899054365,
      "compression/movement_sparsity/importance_threshold": -0.001181318063917,
      "compression/movement_sparsity/linear_layer_sparsity": 0.823012048083586,
      "compression/movement_sparsity/model_sparsity": 0.7947390523507103,
      "compression_loss": 87.19232177734375,
      "distillation_loss": 4.607474327087402,
      "epoch": 3.3,
      "learning_rate": 4.3331246086412026e-05,
      "loss": 91.1128,
      "step": 3905,
      "task_loss": 1.77225661277771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8182539177805455,
      "compression/movement_sparsity/importance_threshold": -0.001179558404726909,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8233285751134799,
      "compression/movement_sparsity/model_sparsity": 0.7950447057033764,
      "compression_loss": 87.22061157226562,
      "distillation_loss": 3.668797492980957,
      "epoch": 3.3,
      "learning_rate": 4.332811521603006e-05,
      "loss": 91.3936,
      "step": 3906,
      "task_loss": 1.6493163108825684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8185247762787512,
      "compression/movement_sparsity/importance_threshold": -0.0011778004938319472,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8236101047113626,
      "compression/movement_sparsity/model_sparsity": 0.7953165638934855,
      "compression_loss": 87.24883270263672,
      "distillation_loss": 3.58363676071167,
      "epoch": 3.3,
      "learning_rate": 4.332498434564809e-05,
      "loss": 91.1557,
      "step": 3907,
      "task_loss": 2.331023693084717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8187953655339393,
      "compression/movement_sparsity/importance_threshold": -0.0011760443303631771,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8238374747398433,
      "compression/movement_sparsity/model_sparsity": 0.7955361230620158,
      "compression_loss": 87.27699279785156,
      "distillation_loss": 3.945359230041504,
      "epoch": 3.3,
      "learning_rate": 4.332185347526613e-05,
      "loss": 91.0653,
      "step": 3908,
      "task_loss": 2.270663022994995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8190656856799947,
      "compression/movement_sparsity/importance_threshold": -0.0011742899134516652,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8242032128095704,
      "compression/movement_sparsity/model_sparsity": 0.795889296903906,
      "compression_loss": 87.30522155761719,
      "distillation_loss": 4.392266750335693,
      "epoch": 3.3,
      "learning_rate": 4.331872260488416e-05,
      "loss": 91.1743,
      "step": 3909,
      "task_loss": 2.715712308883667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8193357368508025,
      "compression/movement_sparsity/importance_threshold": -0.0011725372422284807,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8244195410588203,
      "compression/movement_sparsity/model_sparsity": 0.7960981936122905,
      "compression_loss": 87.33338928222656,
      "distillation_loss": 4.622209548950195,
      "epoch": 3.3,
      "learning_rate": 4.331559173450219e-05,
      "loss": 91.7413,
      "step": 3910,
      "task_loss": 2.7690091133117676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8196055191802482,
      "compression/movement_sparsity/importance_threshold": -0.001170786315824685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8246359647014112,
      "compression/movement_sparsity/model_sparsity": 0.7963071824369614,
      "compression_loss": 87.36146545410156,
      "distillation_loss": 4.120675086975098,
      "epoch": 3.31,
      "learning_rate": 4.331246086412023e-05,
      "loss": 91.3939,
      "step": 3911,
      "task_loss": 1.4449084997177124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8198750328022164,
      "compression/movement_sparsity/importance_threshold": -0.0011690371333713482,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8248545585425119,
      "compression/movement_sparsity/model_sparsity": 0.796518266907147,
      "compression_loss": 87.3895492553711,
      "distillation_loss": 3.046053409576416,
      "epoch": 3.31,
      "learning_rate": 4.330932999373826e-05,
      "loss": 91.2312,
      "step": 3912,
      "task_loss": 1.4225794076919556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8201442778505927,
      "compression/movement_sparsity/importance_threshold": -0.0011672896939995334,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8250810342584198,
      "compression/movement_sparsity/model_sparsity": 0.7967369624854926,
      "compression_loss": 87.4175796508789,
      "distillation_loss": 4.011629104614258,
      "epoch": 3.31,
      "learning_rate": 4.3306199123356294e-05,
      "loss": 91.049,
      "step": 3913,
      "task_loss": 2.3447556495666504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8204132544592619,
      "compression/movement_sparsity/importance_threshold": -0.001165543996840308,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8253392521085744,
      "compression/movement_sparsity/model_sparsity": 0.7969863097581235,
      "compression_loss": 87.44560241699219,
      "distillation_loss": 2.796684980392456,
      "epoch": 3.31,
      "learning_rate": 4.3303068252974326e-05,
      "loss": 91.1716,
      "step": 3914,
      "task_loss": 1.5780407190322876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8206819627621096,
      "compression/movement_sparsity/importance_threshold": -0.0011638000410247379,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8255018619826247,
      "compression/movement_sparsity/model_sparsity": 0.7971433334827537,
      "compression_loss": 87.47361755371094,
      "distillation_loss": 4.926808834075928,
      "epoch": 3.31,
      "learning_rate": 4.3299937382592365e-05,
      "loss": 91.3083,
      "step": 3915,
      "task_loss": 2.9893360137939453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8209504028930203,
      "compression/movement_sparsity/importance_threshold": -0.0011620578256838895,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8257524125929895,
      "compression/movement_sparsity/model_sparsity": 0.7973852769088685,
      "compression_loss": 87.50151824951172,
      "distillation_loss": 5.891541481018066,
      "epoch": 3.31,
      "learning_rate": 4.3296806512210396e-05,
      "loss": 92.2765,
      "step": 3916,
      "task_loss": 3.8272228240966797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8212185749858798,
      "compression/movement_sparsity/importance_threshold": -0.001160317349948827,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8259065563080182,
      "compression/movement_sparsity/model_sparsity": 0.7975341253130845,
      "compression_loss": 87.52947998046875,
      "distillation_loss": 4.357071399688721,
      "epoch": 3.31,
      "learning_rate": 4.329367564182843e-05,
      "loss": 91.1771,
      "step": 3917,
      "task_loss": 1.7489439249038696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8214864791745726,
      "compression/movement_sparsity/importance_threshold": -0.0011585786129506203,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8261034362398539,
      "compression/movement_sparsity/model_sparsity": 0.7977242418135883,
      "compression_loss": 87.55738830566406,
      "distillation_loss": 4.7571940422058105,
      "epoch": 3.31,
      "learning_rate": 4.329054477144646e-05,
      "loss": 91.5513,
      "step": 3918,
      "task_loss": 1.8926148414611816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8217541155929845,
      "compression/movement_sparsity/importance_threshold": -0.00115684161382033,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8263340854144344,
      "compression/movement_sparsity/model_sparsity": 0.797946967479462,
      "compression_loss": 87.58527374267578,
      "distillation_loss": 6.058923721313477,
      "epoch": 3.31,
      "learning_rate": 4.32874139010645e-05,
      "loss": 92.7729,
      "step": 3919,
      "task_loss": 3.890106678009033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.822021484375,
      "compression/movement_sparsity/importance_threshold": -0.001155106351689028,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8265405762253847,
      "compression/movement_sparsity/model_sparsity": 0.7981463646958161,
      "compression_loss": 87.61312866210938,
      "distillation_loss": 3.446645736694336,
      "epoch": 3.31,
      "learning_rate": 4.328428303068253e-05,
      "loss": 91.711,
      "step": 3920,
      "task_loss": 1.6339914798736572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8222885856545046,
      "compression/movement_sparsity/importance_threshold": -0.0011533728256877774,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8266789800391342,
      "compression/movement_sparsity/model_sparsity": 0.7982800139127834,
      "compression_loss": 87.64093017578125,
      "distillation_loss": 4.506110191345215,
      "epoch": 3.31,
      "learning_rate": 4.328115216030056e-05,
      "loss": 91.9648,
      "step": 3921,
      "task_loss": 1.7449910640716553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8225554195653835,
      "compression/movement_sparsity/importance_threshold": -0.001151641034947643,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8269320704972054,
      "compression/movement_sparsity/model_sparsity": 0.7985244099350224,
      "compression_loss": 87.66871643066406,
      "distillation_loss": 3.914494037628174,
      "epoch": 3.32,
      "learning_rate": 4.32780212899186e-05,
      "loss": 91.4708,
      "step": 3922,
      "task_loss": 1.8700590133666992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8228219862415216,
      "compression/movement_sparsity/importance_threshold": -0.0011499109785996922,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8271774221704808,
      "compression/movement_sparsity/model_sparsity": 0.7987613330235309,
      "compression_loss": 87.69654083251953,
      "distillation_loss": 7.028143405914307,
      "epoch": 3.32,
      "learning_rate": 4.327489041953663e-05,
      "loss": 93.239,
      "step": 3923,
      "task_loss": 3.697472333908081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8230882858168044,
      "compression/movement_sparsity/importance_threshold": -0.001148182655774991,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8273812061953778,
      "compression/movement_sparsity/model_sparsity": 0.7989581164402596,
      "compression_loss": 87.72428131103516,
      "distillation_loss": 3.292959690093994,
      "epoch": 3.32,
      "learning_rate": 4.3271759549154664e-05,
      "loss": 91.7945,
      "step": 3924,
      "task_loss": 2.673332929611206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8233543184251164,
      "compression/movement_sparsity/importance_threshold": -0.0011464560656046065,
      "compression/movement_sparsity/linear_layer_sparsity": 0.827563204766004,
      "compression/movement_sparsity/model_sparsity": 0.7991338628000917,
      "compression_loss": 87.7520523071289,
      "distillation_loss": 5.022679805755615,
      "epoch": 3.32,
      "learning_rate": 4.3268628678772696e-05,
      "loss": 91.5458,
      "step": 3925,
      "task_loss": 2.6603200435638428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8236200842003436,
      "compression/movement_sparsity/importance_threshold": -0.0011447312072196021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8276649656126084,
      "compression/movement_sparsity/model_sparsity": 0.7992321278485623,
      "compression_loss": 87.77980041503906,
      "distillation_loss": 3.9436240196228027,
      "epoch": 3.32,
      "learning_rate": 4.3265497808390734e-05,
      "loss": 91.7411,
      "step": 3926,
      "task_loss": 2.1330065727233887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8238855832763703,
      "compression/movement_sparsity/importance_threshold": -0.0011430080797510478,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8279279173573144,
      "compression/movement_sparsity/model_sparsity": 0.7994860463919035,
      "compression_loss": 87.8074722290039,
      "distillation_loss": 2.745420455932617,
      "epoch": 3.32,
      "learning_rate": 4.3262366938008766e-05,
      "loss": 90.9395,
      "step": 3927,
      "task_loss": 1.2260640859603882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8241508157870824,
      "compression/movement_sparsity/importance_threshold": -0.0011412866823300042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8281837861464448,
      "compression/movement_sparsity/model_sparsity": 0.7997331253009827,
      "compression_loss": 87.83515930175781,
      "distillation_loss": 5.144534111022949,
      "epoch": 3.32,
      "learning_rate": 4.3259236067626805e-05,
      "loss": 91.8129,
      "step": 3928,
      "task_loss": 3.430816411972046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8244157818663643,
      "compression/movement_sparsity/importance_threshold": -0.001139567014087543,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8284625731857713,
      "compression/movement_sparsity/model_sparsity": 0.8000023351478591,
      "compression_loss": 87.86278533935547,
      "distillation_loss": 4.690457344055176,
      "epoch": 3.32,
      "learning_rate": 4.3256105197244837e-05,
      "loss": 92.415,
      "step": 3929,
      "task_loss": 2.425628662109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8246804816481018,
      "compression/movement_sparsity/importance_threshold": -0.0011378490741547264,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8287196343916652,
      "compression/movement_sparsity/model_sparsity": 0.8002505655105179,
      "compression_loss": 87.89041900634766,
      "distillation_loss": 3.4347591400146484,
      "epoch": 3.32,
      "learning_rate": 4.325297432686287e-05,
      "loss": 91.7017,
      "step": 3930,
      "task_loss": 1.534367561340332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8249449152661795,
      "compression/movement_sparsity/importance_threshold": -0.001136132861662623,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8289612299521354,
      "compression/movement_sparsity/model_sparsity": 0.8004838615202511,
      "compression_loss": 87.91796875,
      "distillation_loss": 3.7788782119750977,
      "epoch": 3.32,
      "learning_rate": 4.324984345648091e-05,
      "loss": 91.9197,
      "step": 3931,
      "task_loss": 2.6203463077545166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8252090828544829,
      "compression/movement_sparsity/importance_threshold": -0.0011344183757422965,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8290971058423461,
      "compression/movement_sparsity/model_sparsity": 0.8006150696556298,
      "compression_loss": 87.94548034667969,
      "distillation_loss": 5.723841190338135,
      "epoch": 3.32,
      "learning_rate": 4.324671258609894e-05,
      "loss": 92.9557,
      "step": 3932,
      "task_loss": 1.764642357826233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8254729845468971,
      "compression/movement_sparsity/importance_threshold": -0.0011327056155248138,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8293411935538522,
      "compression/movement_sparsity/model_sparsity": 0.8008507722033441,
      "compression_loss": 87.97306060791016,
      "distillation_loss": 4.29743766784668,
      "epoch": 3.32,
      "learning_rate": 4.324358171571697e-05,
      "loss": 92.1679,
      "step": 3933,
      "task_loss": 1.8665852546691895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8257366204773071,
      "compression/movement_sparsity/importance_threshold": -0.0011309945801412412,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8295546480787018,
      "compression/movement_sparsity/model_sparsity": 0.8010568939086021,
      "compression_loss": 88.00049591064453,
      "distillation_loss": 4.0361480712890625,
      "epoch": 3.33,
      "learning_rate": 4.324045084533501e-05,
      "loss": 92.5446,
      "step": 3934,
      "task_loss": 2.0032567977905273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8259999907795982,
      "compression/movement_sparsity/importance_threshold": -0.0011292852687226447,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8296777054887039,
      "compression/movement_sparsity/model_sparsity": 0.8011757239180018,
      "compression_loss": 88.02798461914062,
      "distillation_loss": 4.567870140075684,
      "epoch": 3.33,
      "learning_rate": 4.323731997495304e-05,
      "loss": 92.7124,
      "step": 3935,
      "task_loss": 2.7447361946105957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8262630955876553,
      "compression/movement_sparsity/importance_threshold": -0.0011275776804000907,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8299584480915226,
      "compression/movement_sparsity/model_sparsity": 0.8014468221487485,
      "compression_loss": 88.0553970336914,
      "distillation_loss": 2.7738659381866455,
      "epoch": 3.33,
      "learning_rate": 4.323418910457107e-05,
      "loss": 92.084,
      "step": 3936,
      "task_loss": 2.052676200866699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8265259350353639,
      "compression/movement_sparsity/importance_threshold": -0.0011258718143046442,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8301870820817727,
      "compression/movement_sparsity/model_sparsity": 0.801667601858073,
      "compression_loss": 88.08280944824219,
      "distillation_loss": 2.3358583450317383,
      "epoch": 3.33,
      "learning_rate": 4.323105823418911e-05,
      "loss": 92.1462,
      "step": 3937,
      "task_loss": 1.480911374092102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8267885092566086,
      "compression/movement_sparsity/importance_threshold": -0.0011241676695673735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.830470328759795,
      "compression/movement_sparsity/model_sparsity": 0.8019411181413365,
      "compression_loss": 88.11016845703125,
      "distillation_loss": 5.002298355102539,
      "epoch": 3.33,
      "learning_rate": 4.322792736380714e-05,
      "loss": 92.5312,
      "step": 3938,
      "task_loss": 3.2623841762542725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8270508183852753,
      "compression/movement_sparsity/importance_threshold": -0.0011224652453193408,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8308985256195989,
      "compression/movement_sparsity/model_sparsity": 0.8023546051217185,
      "compression_loss": 88.13748168945312,
      "distillation_loss": 5.0642595291137695,
      "epoch": 3.33,
      "learning_rate": 4.3224796493425175e-05,
      "loss": 92.5593,
      "step": 3939,
      "task_loss": 2.407445192337036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8273128625552484,
      "compression/movement_sparsity/importance_threshold": -0.0011207645406916163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8310591203093186,
      "compression/movement_sparsity/model_sparsity": 0.8025096828897994,
      "compression_loss": 88.16487884521484,
      "distillation_loss": 3.0572566986083984,
      "epoch": 3.33,
      "learning_rate": 4.3221665623043207e-05,
      "loss": 92.0596,
      "step": 3940,
      "task_loss": 1.8451941013336182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8275746419004133,
      "compression/movement_sparsity/importance_threshold": -0.0011190655548152639,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8312685802380102,
      "compression/movement_sparsity/model_sparsity": 0.8027119472255663,
      "compression_loss": 88.1921157836914,
      "distillation_loss": 3.4733290672302246,
      "epoch": 3.33,
      "learning_rate": 4.3218534752661245e-05,
      "loss": 92.4622,
      "step": 3941,
      "task_loss": 2.242257833480835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8278361565546555,
      "compression/movement_sparsity/importance_threshold": -0.0011173682868213484,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8313825872047766,
      "compression/movement_sparsity/model_sparsity": 0.8028220377022979,
      "compression_loss": 88.21944427490234,
      "distillation_loss": 4.3063178062438965,
      "epoch": 3.33,
      "learning_rate": 4.321540388227928e-05,
      "loss": 91.6087,
      "step": 3942,
      "task_loss": 2.60442852973938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8280974066518596,
      "compression/movement_sparsity/importance_threshold": -0.0011156727358409392,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8314721019312191,
      "compression/movement_sparsity/model_sparsity": 0.8029084773225075,
      "compression_loss": 88.24663543701172,
      "distillation_loss": 3.0103609561920166,
      "epoch": 3.33,
      "learning_rate": 4.321227301189731e-05,
      "loss": 91.8884,
      "step": 3943,
      "task_loss": 1.3890726566314697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8283583923259111,
      "compression/movement_sparsity/importance_threshold": -0.0011139789010050985,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8316877028062432,
      "compression/movement_sparsity/model_sparsity": 0.8031166716442086,
      "compression_loss": 88.27381896972656,
      "distillation_loss": 3.3015501499176025,
      "epoch": 3.33,
      "learning_rate": 4.320914214151534e-05,
      "loss": 91.5106,
      "step": 3944,
      "task_loss": 2.8351337909698486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.828619113710695,
      "compression/movement_sparsity/importance_threshold": -0.0011122867814448954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8319494621341856,
      "compression/movement_sparsity/model_sparsity": 0.8033694387339704,
      "compression_loss": 88.30106353759766,
      "distillation_loss": 4.229666233062744,
      "epoch": 3.33,
      "learning_rate": 4.320601127113338e-05,
      "loss": 92.8089,
      "step": 3945,
      "task_loss": 2.118103265762329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8288795709400965,
      "compression/movement_sparsity/importance_threshold": -0.001110596376291394,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8320687515072148,
      "compression/movement_sparsity/model_sparsity": 0.8034846301500589,
      "compression_loss": 88.32813262939453,
      "distillation_loss": 3.309422254562378,
      "epoch": 3.34,
      "learning_rate": 4.320288040075141e-05,
      "loss": 91.6194,
      "step": 3946,
      "task_loss": 1.7687904834747314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8291397641480005,
      "compression/movement_sparsity/importance_threshold": -0.0011089076846756626,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8322666807658025,
      "compression/movement_sparsity/model_sparsity": 0.8036757599297125,
      "compression_loss": 88.3552474975586,
      "distillation_loss": 5.751396656036377,
      "epoch": 3.34,
      "learning_rate": 4.319974953036944e-05,
      "loss": 93.3447,
      "step": 3947,
      "task_loss": 2.957625150680542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8293996934682926,
      "compression/movement_sparsity/importance_threshold": -0.0011072207057287644,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8323829414002522,
      "compression/movement_sparsity/model_sparsity": 0.8037880266537093,
      "compression_loss": 88.38230895996094,
      "distillation_loss": 2.9780044555664062,
      "epoch": 3.34,
      "learning_rate": 4.319661865998748e-05,
      "loss": 92.8969,
      "step": 3948,
      "task_loss": 1.6851153373718262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8296593590348574,
      "compression/movement_sparsity/importance_threshold": -0.0011055354385817676,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8326054105958345,
      "compression/movement_sparsity/model_sparsity": 0.804002853348028,
      "compression_loss": 88.4093246459961,
      "distillation_loss": 4.969673156738281,
      "epoch": 3.34,
      "learning_rate": 4.319348778960551e-05,
      "loss": 93.0049,
      "step": 3949,
      "task_loss": 2.4572839736938477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8299187609815805,
      "compression/movement_sparsity/importance_threshold": -0.001103851882365738,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8328413541008453,
      "compression/movement_sparsity/model_sparsity": 0.8042306914677946,
      "compression_loss": 88.43630981445312,
      "distillation_loss": 4.390437126159668,
      "epoch": 3.34,
      "learning_rate": 4.3190356919223545e-05,
      "loss": 92.2123,
      "step": 3950,
      "task_loss": 1.5706473588943481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8301778994423469,
      "compression/movement_sparsity/importance_threshold": -0.0011021700362117397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8330611642070448,
      "compression/movement_sparsity/model_sparsity": 0.8044429504206312,
      "compression_loss": 88.46329498291016,
      "distillation_loss": 3.570308208465576,
      "epoch": 3.34,
      "learning_rate": 4.3187226048841576e-05,
      "loss": 91.374,
      "step": 3951,
      "task_loss": 1.5285487174987793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8304367745510416,
      "compression/movement_sparsity/importance_threshold": -0.001100489899250841,
      "compression/movement_sparsity/linear_layer_sparsity": 0.833075532829046,
      "compression/movement_sparsity/model_sparsity": 0.8044568254362636,
      "compression_loss": 88.49021911621094,
      "distillation_loss": 5.756222724914551,
      "epoch": 3.34,
      "learning_rate": 4.3184095178459615e-05,
      "loss": 92.7654,
      "step": 3952,
      "task_loss": 2.798248529434204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8306953864415499,
      "compression/movement_sparsity/importance_threshold": -0.0010988114706141066,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8332317155767405,
      "compression/movement_sparsity/model_sparsity": 0.8046076428261005,
      "compression_loss": 88.51709747314453,
      "distillation_loss": 4.198023796081543,
      "epoch": 3.34,
      "learning_rate": 4.318096430807765e-05,
      "loss": 92.179,
      "step": 3953,
      "task_loss": 1.9972014427185059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8309537352477568,
      "compression/movement_sparsity/importance_threshold": -0.0010971347494326041,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8334061423009179,
      "compression/movement_sparsity/model_sparsity": 0.804776077455703,
      "compression_loss": 88.54397583007812,
      "distillation_loss": 4.30730676651001,
      "epoch": 3.34,
      "learning_rate": 4.317783343769568e-05,
      "loss": 92.246,
      "step": 3954,
      "task_loss": 1.476380467414856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8312118211035477,
      "compression/movement_sparsity/importance_threshold": -0.0010954597348373967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8334996754718537,
      "compression/movement_sparsity/model_sparsity": 0.8048663974744754,
      "compression_loss": 88.57086181640625,
      "distillation_loss": 4.007308006286621,
      "epoch": 3.34,
      "learning_rate": 4.317470256731371e-05,
      "loss": 92.5318,
      "step": 3955,
      "task_loss": 1.9288029670715332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8314696441428073,
      "compression/movement_sparsity/importance_threshold": -0.0010937864259595543,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8337766261893642,
      "compression/movement_sparsity/model_sparsity": 0.8051338340828395,
      "compression_loss": 88.59764099121094,
      "distillation_loss": 3.8711419105529785,
      "epoch": 3.34,
      "learning_rate": 4.317157169693175e-05,
      "loss": 92.638,
      "step": 3956,
      "task_loss": 2.259958505630493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8317272044994214,
      "compression/movement_sparsity/importance_threshold": -0.0010921148219301385,
      "compression/movement_sparsity/linear_layer_sparsity": 0.833945997066464,
      "compression/movement_sparsity/model_sparsity": 0.8052973865492651,
      "compression_loss": 88.62450408935547,
      "distillation_loss": 3.539682626724243,
      "epoch": 3.34,
      "learning_rate": 4.316844082654978e-05,
      "loss": 91.8669,
      "step": 3957,
      "task_loss": 1.7548984289169312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8319845023072744,
      "compression/movement_sparsity/importance_threshold": -0.00109044492188022,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8341295100063799,
      "compression/movement_sparsity/model_sparsity": 0.8054745952551431,
      "compression_loss": 88.65127563476562,
      "distillation_loss": 4.405172348022461,
      "epoch": 3.35,
      "learning_rate": 4.316530995616781e-05,
      "loss": 93.1835,
      "step": 3958,
      "task_loss": 1.9390153884887695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.832241537700252,
      "compression/movement_sparsity/importance_threshold": -0.0010887767249408604,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8343749332246613,
      "compression/movement_sparsity/model_sparsity": 0.8057115874308663,
      "compression_loss": 88.67803955078125,
      "distillation_loss": 4.411349296569824,
      "epoch": 3.35,
      "learning_rate": 4.316217908578585e-05,
      "loss": 93.5226,
      "step": 3959,
      "task_loss": 2.2001800537109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8324983108122389,
      "compression/movement_sparsity/importance_threshold": -0.0010871102302431298,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8344598332982286,
      "compression/movement_sparsity/model_sparsity": 0.8057935709257235,
      "compression_loss": 88.70478057861328,
      "distillation_loss": 3.9497475624084473,
      "epoch": 3.35,
      "learning_rate": 4.315904821540388e-05,
      "loss": 93.0102,
      "step": 3960,
      "task_loss": 2.1542162895202637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8327548217771207,
      "compression/movement_sparsity/importance_threshold": -0.001085445436918091,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8346575717701341,
      "compression/movement_sparsity/model_sparsity": 0.8059845164728043,
      "compression_loss": 88.73152923583984,
      "distillation_loss": 4.730204105377197,
      "epoch": 3.35,
      "learning_rate": 4.3155917345021915e-05,
      "loss": 92.9902,
      "step": 3961,
      "task_loss": 2.658562421798706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8330110707287821,
      "compression/movement_sparsity/importance_threshold": -0.001083782344096812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8348086867465834,
      "compression/movement_sparsity/model_sparsity": 0.8061304401849285,
      "compression_loss": 88.75819396972656,
      "distillation_loss": 3.174647092819214,
      "epoch": 3.35,
      "learning_rate": 4.315278647463995e-05,
      "loss": 92.7982,
      "step": 3962,
      "task_loss": 2.57258939743042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8332670578011085,
      "compression/movement_sparsity/importance_threshold": -0.001082120950910359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8350681566343398,
      "compression/movement_sparsity/model_sparsity": 0.8063809964838177,
      "compression_loss": 88.78478240966797,
      "distillation_loss": 4.053418159484863,
      "epoch": 3.35,
      "learning_rate": 4.3149655604257985e-05,
      "loss": 92.9112,
      "step": 3963,
      "task_loss": 1.9943886995315552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8335227831279851,
      "compression/movement_sparsity/importance_threshold": -0.001080461256489796,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8352793336431709,
      "compression/movement_sparsity/model_sparsity": 0.8065849189127391,
      "compression_loss": 88.81146240234375,
      "distillation_loss": 3.4394378662109375,
      "epoch": 3.35,
      "learning_rate": 4.3146524733876023e-05,
      "loss": 93.5025,
      "step": 3964,
      "task_loss": 2.5788915157318115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8337782468432968,
      "compression/movement_sparsity/importance_threshold": -0.0010788032599661906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8353816787739895,
      "compression/movement_sparsity/model_sparsity": 0.8066837481734636,
      "compression_loss": 88.83807373046875,
      "distillation_loss": 5.031275272369385,
      "epoch": 3.35,
      "learning_rate": 4.3143393863494055e-05,
      "loss": 93.1384,
      "step": 3965,
      "task_loss": 2.744259834289551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.834033449080929,
      "compression/movement_sparsity/importance_threshold": -0.0010771469604706077,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8355992590608411,
      "compression/movement_sparsity/model_sparsity": 0.8068938539081065,
      "compression_loss": 88.86470794677734,
      "distillation_loss": 3.9868226051330566,
      "epoch": 3.35,
      "learning_rate": 4.314026299311209e-05,
      "loss": 93.0254,
      "step": 3966,
      "task_loss": 2.4922752380371094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8342883899747666,
      "compression/movement_sparsity/importance_threshold": -0.0010754923571341156,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8357160443586668,
      "compression/movement_sparsity/model_sparsity": 0.8070066272716783,
      "compression_loss": 88.8912582397461,
      "distillation_loss": 4.0825090408325195,
      "epoch": 3.35,
      "learning_rate": 4.3137132122730126e-05,
      "loss": 93.0469,
      "step": 3967,
      "task_loss": 2.4417834281921387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8345430696586951,
      "compression/movement_sparsity/importance_threshold": -0.0010738394490877774,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8359916834177373,
      "compression/movement_sparsity/model_sparsity": 0.8072727972811049,
      "compression_loss": 88.91777801513672,
      "distillation_loss": 5.227862358093262,
      "epoch": 3.35,
      "learning_rate": 4.313400125234816e-05,
      "loss": 92.8923,
      "step": 3968,
      "task_loss": 2.9926702976226807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.834797488266599,
      "compression/movement_sparsity/importance_threshold": -0.0010721882354626623,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8361429057116954,
      "compression/movement_sparsity/model_sparsity": 0.8074188246240512,
      "compression_loss": 88.94424438476562,
      "distillation_loss": 5.6753315925598145,
      "epoch": 3.35,
      "learning_rate": 4.313087038196619e-05,
      "loss": 93.4321,
      "step": 3969,
      "task_loss": 3.862779140472412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8350516459323641,
      "compression/movement_sparsity/importance_threshold": -0.0010705387153898335,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8364210846184724,
      "compression/movement_sparsity/model_sparsity": 0.8076874472296021,
      "compression_loss": 88.97073364257812,
      "distillation_loss": 4.12469482421875,
      "epoch": 3.36,
      "learning_rate": 4.312773951158422e-05,
      "loss": 92.9891,
      "step": 3970,
      "task_loss": 1.0273054838180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8353055427898752,
      "compression/movement_sparsity/importance_threshold": -0.0010688908880003584,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8365658320894042,
      "compression/movement_sparsity/model_sparsity": 0.807827222179612,
      "compression_loss": 88.99726867675781,
      "distillation_loss": 4.206568717956543,
      "epoch": 3.36,
      "learning_rate": 4.312460864120226e-05,
      "loss": 92.9007,
      "step": 3971,
      "task_loss": 1.7135863304138184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8355591789730175,
      "compression/movement_sparsity/importance_threshold": -0.0010672447524253037,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8367113546312323,
      "compression/movement_sparsity/model_sparsity": 0.8079677455744486,
      "compression_loss": 89.02364349365234,
      "distillation_loss": 5.141359329223633,
      "epoch": 3.36,
      "learning_rate": 4.312147777082029e-05,
      "loss": 93.472,
      "step": 3972,
      "task_loss": 3.349090576171875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8358125546156762,
      "compression/movement_sparsity/importance_threshold": -0.001065600307795734,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8368357236996743,
      "compression/movement_sparsity/model_sparsity": 0.8080878421827857,
      "compression_loss": 89.0500717163086,
      "distillation_loss": 4.97414493560791,
      "epoch": 3.36,
      "learning_rate": 4.311834690043832e-05,
      "loss": 93.3274,
      "step": 3973,
      "task_loss": 2.894482374191284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8360656698517362,
      "compression/movement_sparsity/importance_threshold": -0.0010639575532427163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8369733405183598,
      "compression/movement_sparsity/model_sparsity": 0.8082207314403905,
      "compression_loss": 89.07647705078125,
      "distillation_loss": 3.761120319366455,
      "epoch": 3.36,
      "learning_rate": 4.311521603005636e-05,
      "loss": 92.894,
      "step": 3974,
      "task_loss": 2.083743095397949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8363185248150832,
      "compression/movement_sparsity/importance_threshold": -0.0010623164878973152,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8370273450735826,
      "compression/movement_sparsity/model_sparsity": 0.808272880773004,
      "compression_loss": 89.10283660888672,
      "distillation_loss": 3.084249973297119,
      "epoch": 3.36,
      "learning_rate": 4.3112085159674393e-05,
      "loss": 93.0585,
      "step": 3975,
      "task_loss": 2.527886390686035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8365711196396016,
      "compression/movement_sparsity/importance_threshold": -0.001060677110890599,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8374076067794903,
      "compression/movement_sparsity/model_sparsity": 0.8086400793194919,
      "compression_loss": 89.12918853759766,
      "distillation_loss": 4.271529197692871,
      "epoch": 3.36,
      "learning_rate": 4.3108954289292425e-05,
      "loss": 92.967,
      "step": 3976,
      "task_loss": 2.570305109024048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8368234544591773,
      "compression/movement_sparsity/importance_threshold": -0.001059039421353632,
      "compression/movement_sparsity/linear_layer_sparsity": 0.837591847093632,
      "compression/movement_sparsity/model_sparsity": 0.8088179904120533,
      "compression_loss": 89.15544891357422,
      "distillation_loss": 3.089662551879883,
      "epoch": 3.36,
      "learning_rate": 4.310582341891046e-05,
      "loss": 92.6679,
      "step": 3977,
      "task_loss": 1.6243504285812378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8370755294076948,
      "compression/movement_sparsity/importance_threshold": -0.0010574034184174805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8378190501837657,
      "compression/movement_sparsity/model_sparsity": 0.8090373883770825,
      "compression_loss": 89.1817398071289,
      "distillation_loss": 4.379918098449707,
      "epoch": 3.36,
      "learning_rate": 4.3102692548528496e-05,
      "loss": 93.8865,
      "step": 3978,
      "task_loss": 2.8854451179504395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8373273446190396,
      "compression/movement_sparsity/importance_threshold": -0.0010557691012132112,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8379532089938369,
      "compression/movement_sparsity/model_sparsity": 0.8091669384193069,
      "compression_loss": 89.20797729492188,
      "distillation_loss": 4.544582843780518,
      "epoch": 3.36,
      "learning_rate": 4.309956167814653e-05,
      "loss": 93.2592,
      "step": 3979,
      "task_loss": 2.216291666030884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8375789002270966,
      "compression/movement_sparsity/importance_threshold": -0.0010541364688718908,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8380486500315942,
      "compression/movement_sparsity/model_sparsity": 0.8092591007638064,
      "compression_loss": 89.23428344726562,
      "distillation_loss": 4.217299938201904,
      "epoch": 3.36,
      "learning_rate": 4.309643080776456e-05,
      "loss": 92.8231,
      "step": 3980,
      "task_loss": 1.9187227487564087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8378301963657511,
      "compression/movement_sparsity/importance_threshold": -0.001052505520524584,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8382560232309496,
      "compression/movement_sparsity/model_sparsity": 0.8094593500558093,
      "compression_loss": 89.26040649414062,
      "distillation_loss": 5.499324798583984,
      "epoch": 3.36,
      "learning_rate": 4.309329993738259e-05,
      "loss": 93.9487,
      "step": 3981,
      "task_loss": 1.9122074842453003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8380812331688884,
      "compression/movement_sparsity/importance_threshold": -0.0010508762553023557,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8384370797923325,
      "compression/movement_sparsity/model_sparsity": 0.8096341867673136,
      "compression_loss": 89.28656005859375,
      "distillation_loss": 6.267455101013184,
      "epoch": 3.37,
      "learning_rate": 4.309016906700063e-05,
      "loss": 93.4223,
      "step": 3982,
      "task_loss": 3.247669219970703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8383320107703933,
      "compression/movement_sparsity/importance_threshold": -0.0010492486723362743,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8385792397188873,
      "compression/movement_sparsity/model_sparsity": 0.809771463063056,
      "compression_loss": 89.31273651123047,
      "distillation_loss": 4.1730055809021,
      "epoch": 3.37,
      "learning_rate": 4.308703819661866e-05,
      "loss": 93.6238,
      "step": 3983,
      "task_loss": 1.3184705972671509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8385825293041512,
      "compression/movement_sparsity/importance_threshold": -0.0010476227707574047,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8387088077244186,
      "compression/movement_sparsity/model_sparsity": 0.8098965800089996,
      "compression_loss": 89.33878326416016,
      "distillation_loss": 4.503450870513916,
      "epoch": 3.37,
      "learning_rate": 4.308390732623669e-05,
      "loss": 92.9409,
      "step": 3984,
      "task_loss": 3.323394775390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.838832788904047,
      "compression/movement_sparsity/importance_threshold": -0.0010459985496968135,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8388548310812873,
      "compression/movement_sparsity/model_sparsity": 0.8100375870143395,
      "compression_loss": 89.36480712890625,
      "distillation_loss": 3.7511191368103027,
      "epoch": 3.37,
      "learning_rate": 4.308077645585473e-05,
      "loss": 93.2051,
      "step": 3985,
      "task_loss": 2.819544553756714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8390827897039662,
      "compression/movement_sparsity/importance_threshold": -0.0010443760082855654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.839091501960524,
      "compression/movement_sparsity/model_sparsity": 0.8102661275207895,
      "compression_loss": 89.39079284667969,
      "distillation_loss": 4.953083038330078,
      "epoch": 3.37,
      "learning_rate": 4.307764558547276e-05,
      "loss": 93.7165,
      "step": 3986,
      "task_loss": 3.5566282272338867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8393325318377935,
      "compression/movement_sparsity/importance_threshold": -0.001042755145654729,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8392046980838912,
      "compression/movement_sparsity/model_sparsity": 0.8103754350090872,
      "compression_loss": 89.41676330566406,
      "distillation_loss": 4.384110450744629,
      "epoch": 3.37,
      "learning_rate": 4.3074514715090795e-05,
      "loss": 94.1783,
      "step": 3987,
      "task_loss": 2.15273380279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8395820154394146,
      "compression/movement_sparsity/importance_threshold": -0.0010411359609353672,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8392807265767375,
      "compression/movement_sparsity/model_sparsity": 0.8104488516893131,
      "compression_loss": 89.44276428222656,
      "distillation_loss": 4.753912925720215,
      "epoch": 3.37,
      "learning_rate": 4.307138384470883e-05,
      "loss": 93.0982,
      "step": 3988,
      "task_loss": 1.9540103673934937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.839831240642714,
      "compression/movement_sparsity/importance_threshold": -0.0010395184532585493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.839301665415106,
      "compression/movement_sparsity/model_sparsity": 0.8104690712141683,
      "compression_loss": 89.46868896484375,
      "distillation_loss": 4.17183256149292,
      "epoch": 3.37,
      "learning_rate": 4.3068252974326865e-05,
      "loss": 93.5264,
      "step": 3989,
      "task_loss": 2.928349018096924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8400802075815771,
      "compression/movement_sparsity/importance_threshold": -0.0010379026217553393,
      "compression/movement_sparsity/linear_layer_sparsity": 0.839417556400359,
      "compression/movement_sparsity/model_sparsity": 0.8105809809875555,
      "compression_loss": 89.49464416503906,
      "distillation_loss": 3.3957772254943848,
      "epoch": 3.37,
      "learning_rate": 4.30651221039449e-05,
      "loss": 93.5864,
      "step": 3990,
      "task_loss": 1.577222228050232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8403289163898893,
      "compression/movement_sparsity/importance_threshold": -0.001036288465556803,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8395357725983009,
      "compression/movement_sparsity/model_sparsity": 0.8106951360954225,
      "compression_loss": 89.5205078125,
      "distillation_loss": 5.7244439125061035,
      "epoch": 3.37,
      "learning_rate": 4.306199123356293e-05,
      "loss": 93.8281,
      "step": 3991,
      "task_loss": 2.531587839126587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8405773672015353,
      "compression/movement_sparsity/importance_threshold": -0.0010346759837940086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8396534879812022,
      "compression/movement_sparsity/model_sparsity": 0.8108088075927863,
      "compression_loss": 89.54634857177734,
      "distillation_loss": 2.6583986282348633,
      "epoch": 3.37,
      "learning_rate": 4.305886036318096e-05,
      "loss": 93.5386,
      "step": 3992,
      "task_loss": 1.6876633167266846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8408255601504008,
      "compression/movement_sparsity/importance_threshold": -0.0010330651755980176,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8397786559688758,
      "compression/movement_sparsity/model_sparsity": 0.8109296756750215,
      "compression_loss": 89.5721435546875,
      "distillation_loss": 5.816449165344238,
      "epoch": 3.38,
      "learning_rate": 4.3055729492799e-05,
      "loss": 93.5349,
      "step": 3993,
      "task_loss": 3.170114517211914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8410734953703702,
      "compression/movement_sparsity/importance_threshold": -0.0010314560400999026,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8399747489056476,
      "compression/movement_sparsity/model_sparsity": 0.8111190322161628,
      "compression_loss": 89.59793090820312,
      "distillation_loss": 4.5987443923950195,
      "epoch": 3.38,
      "learning_rate": 4.305259862241703e-05,
      "loss": 93.5671,
      "step": 3994,
      "task_loss": 1.6401904821395874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8413211729953295,
      "compression/movement_sparsity/importance_threshold": -0.0010298485764307225,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8402276962737072,
      "compression/movement_sparsity/model_sparsity": 0.8113632900639723,
      "compression_loss": 89.62367248535156,
      "distillation_loss": 4.124173164367676,
      "epoch": 3.38,
      "learning_rate": 4.304946775203507e-05,
      "loss": 94.1639,
      "step": 3995,
      "task_loss": 1.9597049951553345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.841568593159163,
      "compression/movement_sparsity/importance_threshold": -0.0010282427837215499,
      "compression/movement_sparsity/linear_layer_sparsity": 0.840392380952926,
      "compression/movement_sparsity/model_sparsity": 0.8115223173178308,
      "compression_loss": 89.64933776855469,
      "distillation_loss": 3.400998830795288,
      "epoch": 3.38,
      "learning_rate": 4.30463368816531e-05,
      "loss": 93.6989,
      "step": 3996,
      "task_loss": 1.9402583837509155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8418157559957565,
      "compression/movement_sparsity/importance_threshold": -0.0010266386611034453,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8406228631891597,
      "compression/movement_sparsity/model_sparsity": 0.8117448817802034,
      "compression_loss": 89.67512512207031,
      "distillation_loss": 4.525179862976074,
      "epoch": 3.38,
      "learning_rate": 4.304320601127113e-05,
      "loss": 93.5663,
      "step": 3997,
      "task_loss": 3.0269675254821777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8420626616389947,
      "compression/movement_sparsity/importance_threshold": -0.0010250362077074797,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8407626502063549,
      "compression/movement_sparsity/model_sparsity": 0.8118798666833228,
      "compression_loss": 89.70074462890625,
      "distillation_loss": 3.6089956760406494,
      "epoch": 3.38,
      "learning_rate": 4.304007514088917e-05,
      "loss": 93.3839,
      "step": 3998,
      "task_loss": 2.1528193950653076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.842309310222763,
      "compression/movement_sparsity/importance_threshold": -0.0010234354226647153,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8408644349012946,
      "compression/movement_sparsity/model_sparsity": 0.811978154760865,
      "compression_loss": 89.72640991210938,
      "distillation_loss": 4.523263931274414,
      "epoch": 3.38,
      "learning_rate": 4.3036944270507204e-05,
      "loss": 92.8959,
      "step": 3999,
      "task_loss": 1.73624849319458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8425557018809464,
      "compression/movement_sparsity/importance_threshold": -0.0010218363051062206,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8409990468297358,
      "compression/movement_sparsity/model_sparsity": 0.8121081423554496,
      "compression_loss": 89.75201416015625,
      "distillation_loss": 4.728519439697266,
      "epoch": 3.38,
      "learning_rate": 4.303381340012524e-05,
      "loss": 93.6153,
      "step": 4000,
      "task_loss": 2.935675859451294
    },
    {
      "epoch": 3.38,
      "eval_accuracy": 0.5928712871287128,
      "eval_loss": 93.30909729003906,
      "eval_runtime": 210.3198,
      "eval_samples_per_second": 120.055,
      "eval_steps_per_second": 0.941,
      "step": 4000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8428018367474303,
      "compression/movement_sparsity/importance_threshold": -0.0010202388541630586,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8411793640927254,
      "compression/movement_sparsity/model_sparsity": 0.8122822651657347,
      "compression_loss": 89.77755737304688,
      "distillation_loss": 4.986965179443359,
      "epoch": 3.38,
      "learning_rate": 4.3030682529743274e-05,
      "loss": 93.3432,
      "step": 4001,
      "task_loss": 2.253070592880249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8430477149560993,
      "compression/movement_sparsity/importance_threshold": -0.0010186430689662993,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8414219493591094,
      "compression/movement_sparsity/model_sparsity": 0.8125165168819388,
      "compression_loss": 89.80308532714844,
      "distillation_loss": 4.920845031738281,
      "epoch": 3.38,
      "learning_rate": 4.3027551659361306e-05,
      "loss": 93.635,
      "step": 4002,
      "task_loss": 3.5277578830718994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8432933366408389,
      "compression/movement_sparsity/importance_threshold": -0.0010170489486470077,
      "compression/movement_sparsity/linear_layer_sparsity": 0.841727255747258,
      "compression/movement_sparsity/model_sparsity": 0.8128113350564222,
      "compression_loss": 89.82856750488281,
      "distillation_loss": 3.9091882705688477,
      "epoch": 3.38,
      "learning_rate": 4.302442078897934e-05,
      "loss": 93.6534,
      "step": 4003,
      "task_loss": 2.8470184803009033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8435387019355345,
      "compression/movement_sparsity/importance_threshold": -0.001015456492336247,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8418631554858039,
      "compression/movement_sparsity/model_sparsity": 0.8129425662208726,
      "compression_loss": 89.85409545898438,
      "distillation_loss": 4.672083377838135,
      "epoch": 3.38,
      "learning_rate": 4.3021289918597376e-05,
      "loss": 93.9763,
      "step": 4004,
      "task_loss": 2.1580212116241455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8437838109740706,
      "compression/movement_sparsity/importance_threshold": -0.0010138656991650861,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8420543356655097,
      "compression/movement_sparsity/model_sparsity": 0.8131271787732665,
      "compression_loss": 89.8795166015625,
      "distillation_loss": 4.222705841064453,
      "epoch": 3.39,
      "learning_rate": 4.301815904821541e-05,
      "loss": 93.7158,
      "step": 4005,
      "task_loss": 2.491119623184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.844028663890333,
      "compression/movement_sparsity/importance_threshold": -0.0010122765682645894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8422475429537136,
      "compression/movement_sparsity/model_sparsity": 0.8133137487967455,
      "compression_loss": 89.90495300292969,
      "distillation_loss": 4.957218170166016,
      "epoch": 3.39,
      "learning_rate": 4.301502817783344e-05,
      "loss": 93.4513,
      "step": 4006,
      "task_loss": 1.9014261960983276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8442732608182064,
      "compression/movement_sparsity/importance_threshold": -0.001010689098765824,
      "compression/movement_sparsity/linear_layer_sparsity": 0.842403367976379,
      "compression/movement_sparsity/model_sparsity": 0.8134642207505085,
      "compression_loss": 89.93043518066406,
      "distillation_loss": 3.229279041290283,
      "epoch": 3.39,
      "learning_rate": 4.301189730745147e-05,
      "loss": 93.7757,
      "step": 4007,
      "task_loss": 1.3677599430084229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8445176018915762,
      "compression/movement_sparsity/importance_threshold": -0.001009103289799855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8426212225190863,
      "compression/movement_sparsity/model_sparsity": 0.8136745913194747,
      "compression_loss": 89.9557876586914,
      "distillation_loss": 3.7227132320404053,
      "epoch": 3.39,
      "learning_rate": 4.300876643706951e-05,
      "loss": 94.607,
      "step": 4008,
      "task_loss": 2.137270212173462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8447616872443272,
      "compression/movement_sparsity/importance_threshold": -0.0010075191404977507,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8427353964241997,
      "compression/movement_sparsity/model_sparsity": 0.8137848429997074,
      "compression_loss": 89.98114776611328,
      "distillation_loss": 4.192074298858643,
      "epoch": 3.39,
      "learning_rate": 4.300563556668754e-05,
      "loss": 93.7879,
      "step": 4009,
      "task_loss": 2.215996742248535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.845005517010345,
      "compression/movement_sparsity/importance_threshold": -0.0010059366499905742,
      "compression/movement_sparsity/linear_layer_sparsity": 0.842839947526031,
      "compression/movement_sparsity/model_sparsity": 0.813885802449554,
      "compression_loss": 90.00648498535156,
      "distillation_loss": 3.841829299926758,
      "epoch": 3.39,
      "learning_rate": 4.3002504696305574e-05,
      "loss": 93.8236,
      "step": 4010,
      "task_loss": 1.8847570419311523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8452490913235142,
      "compression/movement_sparsity/importance_threshold": -0.0010043558174093938,
      "compression/movement_sparsity/linear_layer_sparsity": 0.842946501888025,
      "compression/movement_sparsity/model_sparsity": 0.813988696341414,
      "compression_loss": 90.03179168701172,
      "distillation_loss": 4.249720096588135,
      "epoch": 3.39,
      "learning_rate": 4.299937382592361e-05,
      "loss": 94.502,
      "step": 4011,
      "task_loss": 3.8541810512542725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8454924103177204,
      "compression/movement_sparsity/importance_threshold": -0.0010027766418852745,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8431644518240733,
      "compression/movement_sparsity/model_sparsity": 0.8141991590266666,
      "compression_loss": 90.05709075927734,
      "distillation_loss": 2.818401336669922,
      "epoch": 3.39,
      "learning_rate": 4.2996242955541644e-05,
      "loss": 93.7466,
      "step": 4012,
      "task_loss": 1.7083042860031128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8457354741268487,
      "compression/movement_sparsity/importance_threshold": -0.001001199122549281,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8433225782110925,
      "compression/movement_sparsity/model_sparsity": 0.814351853285838,
      "compression_loss": 90.08236694335938,
      "distillation_loss": 5.712060928344727,
      "epoch": 3.39,
      "learning_rate": 4.2993112085159676e-05,
      "loss": 93.7728,
      "step": 4013,
      "task_loss": 3.1258952617645264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8459782828847839,
      "compression/movement_sparsity/importance_threshold": -0.0009996232585324817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8434793213946659,
      "compression/movement_sparsity/model_sparsity": 0.8145032118588572,
      "compression_loss": 90.10765075683594,
      "distillation_loss": 3.721263885498047,
      "epoch": 3.39,
      "learning_rate": 4.298998121477771e-05,
      "loss": 94.4996,
      "step": 4014,
      "task_loss": 2.487410545349121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8462208367254116,
      "compression/movement_sparsity/importance_threshold": -0.0009980490489659415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8436448765381223,
      "compression/movement_sparsity/model_sparsity": 0.8146630796738287,
      "compression_loss": 90.13292694091797,
      "distillation_loss": 2.765695095062256,
      "epoch": 3.39,
      "learning_rate": 4.2986850344395746e-05,
      "loss": 93.7939,
      "step": 4015,
      "task_loss": 2.0718936920166016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8464631357826164,
      "compression/movement_sparsity/importance_threshold": -0.000996476492980727,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8437606363575312,
      "compression/movement_sparsity/model_sparsity": 0.814774862787322,
      "compression_loss": 90.15812683105469,
      "distillation_loss": 6.039024353027344,
      "epoch": 3.39,
      "learning_rate": 4.298371947401378e-05,
      "loss": 95.1083,
      "step": 4016,
      "task_loss": 3.6859703063964844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8467051801902841,
      "compression/movement_sparsity/importance_threshold": -0.000994905589707903,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8441341728328923,
      "compression/movement_sparsity/model_sparsity": 0.8151355671356219,
      "compression_loss": 90.1833267211914,
      "distillation_loss": 3.7458527088165283,
      "epoch": 3.4,
      "learning_rate": 4.298058860363181e-05,
      "loss": 94.8751,
      "step": 4017,
      "task_loss": 2.8610918521881104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8469469700822992,
      "compression/movement_sparsity/importance_threshold": -0.0009933363382785372,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8443565704834687,
      "compression/movement_sparsity/model_sparsity": 0.8153503247427258,
      "compression_loss": 90.20851135253906,
      "distillation_loss": 5.44598388671875,
      "epoch": 3.4,
      "learning_rate": 4.297745773324984e-05,
      "loss": 95.0307,
      "step": 4018,
      "task_loss": 3.0679454803466797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8471885055925473,
      "compression/movement_sparsity/importance_threshold": -0.000991768737823695,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8445159966047602,
      "compression/movement_sparsity/model_sparsity": 0.8155042740862989,
      "compression_loss": 90.23368835449219,
      "distillation_loss": 5.371232509613037,
      "epoch": 3.4,
      "learning_rate": 4.297432686286788e-05,
      "loss": 94.8268,
      "step": 4019,
      "task_loss": 3.1800289154052734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8474297868549132,
      "compression/movement_sparsity/importance_threshold": -0.0009902027874744423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8446343439685462,
      "compression/movement_sparsity/model_sparsity": 0.8156185558540596,
      "compression_loss": 90.25880432128906,
      "distillation_loss": 4.279092788696289,
      "epoch": 3.4,
      "learning_rate": 4.297119599248591e-05,
      "loss": 94.1245,
      "step": 4020,
      "task_loss": 1.9926083087921143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8476708140032823,
      "compression/movement_sparsity/importance_threshold": -0.000988638486361845,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8447962860892088,
      "compression/movement_sparsity/model_sparsity": 0.8157749347646853,
      "compression_loss": 90.28387451171875,
      "distillation_loss": 4.150299072265625,
      "epoch": 3.4,
      "learning_rate": 4.2968065122103943e-05,
      "loss": 95.0927,
      "step": 4021,
      "task_loss": 2.14449405670166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8479115871715397,
      "compression/movement_sparsity/importance_threshold": -0.0009870758336169684,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8449686618565528,
      "compression/movement_sparsity/model_sparsity": 0.8159413888941311,
      "compression_loss": 90.3089370727539,
      "distillation_loss": 2.928891658782959,
      "epoch": 3.4,
      "learning_rate": 4.296493425172198e-05,
      "loss": 94.3167,
      "step": 4022,
      "task_loss": 1.4815245866775513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8481521064935703,
      "compression/movement_sparsity/importance_threshold": -0.0009855148283708813,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8451017236432015,
      "compression/movement_sparsity/model_sparsity": 0.8160698795990625,
      "compression_loss": 90.33399200439453,
      "distillation_loss": 3.4648311138153076,
      "epoch": 3.4,
      "learning_rate": 4.2961803381340014e-05,
      "loss": 94.0599,
      "step": 4023,
      "task_loss": 2.169811725616455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8483923721032597,
      "compression/movement_sparsity/importance_threshold": -0.0009839554697546457,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8452556884957156,
      "compression/movement_sparsity/model_sparsity": 0.8162185552852416,
      "compression_loss": 90.3588638305664,
      "distillation_loss": 4.185301780700684,
      "epoch": 3.4,
      "learning_rate": 4.2958672510958046e-05,
      "loss": 94.5921,
      "step": 4024,
      "task_loss": 3.1988108158111572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8486323841344925,
      "compression/movement_sparsity/importance_threshold": -0.0009823977568993317,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8453978364981029,
      "compression/movement_sparsity/model_sparsity": 0.8163558200664484,
      "compression_loss": 90.38377380371094,
      "distillation_loss": 4.387216567993164,
      "epoch": 3.4,
      "learning_rate": 4.295554164057608e-05,
      "loss": 94.8624,
      "step": 4025,
      "task_loss": 1.859614372253418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8488721427211543,
      "compression/movement_sparsity/importance_threshold": -0.0009808416889360017,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8456523936287932,
      "compression/movement_sparsity/model_sparsity": 0.8166016323765902,
      "compression_loss": 90.4086685180664,
      "distillation_loss": 3.193922519683838,
      "epoch": 3.4,
      "learning_rate": 4.2952410770194116e-05,
      "loss": 94.5225,
      "step": 4026,
      "task_loss": 1.8470412492752075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8491116479971299,
      "compression/movement_sparsity/importance_threshold": -0.0009792872649957247,
      "compression/movement_sparsity/linear_layer_sparsity": 0.845821991065078,
      "compression/movement_sparsity/model_sparsity": 0.8167654036191959,
      "compression_loss": 90.43353271484375,
      "distillation_loss": 4.050387859344482,
      "epoch": 3.4,
      "learning_rate": 4.294927989981215e-05,
      "loss": 95.1902,
      "step": 4027,
      "task_loss": 3.9207634925842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8493509000963049,
      "compression/movement_sparsity/importance_threshold": -0.000977734484209564,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8460696083302044,
      "compression/movement_sparsity/model_sparsity": 0.8170045144695054,
      "compression_loss": 90.45832824707031,
      "distillation_loss": 2.7942419052124023,
      "epoch": 3.4,
      "learning_rate": 4.294614902943018e-05,
      "loss": 94.1397,
      "step": 4028,
      "task_loss": 1.8711886405944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8495898991525638,
      "compression/movement_sparsity/importance_threshold": -0.0009761833457085888,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8462188035156644,
      "compression/movement_sparsity/model_sparsity": 0.8171485843413666,
      "compression_loss": 90.48314666748047,
      "distillation_loss": 3.998152017593384,
      "epoch": 3.41,
      "learning_rate": 4.294301815904822e-05,
      "loss": 94.3551,
      "step": 4029,
      "task_loss": 2.2982730865478516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8498286452997922,
      "compression/movement_sparsity/importance_threshold": -0.0009746338486238629,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8464036161898526,
      "compression/movement_sparsity/model_sparsity": 0.8173270481316462,
      "compression_loss": 90.5079116821289,
      "distillation_loss": 3.894069194793701,
      "epoch": 3.41,
      "learning_rate": 4.293988728866625e-05,
      "loss": 94.8667,
      "step": 4030,
      "task_loss": 2.898932933807373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.850067138671875,
      "compression/movement_sparsity/importance_threshold": -0.0009730859920864532,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8464863222165749,
      "compression/movement_sparsity/model_sparsity": 0.8174069129519171,
      "compression_loss": 90.5326156616211,
      "distillation_loss": 5.558492183685303,
      "epoch": 3.41,
      "learning_rate": 4.293675641828429e-05,
      "loss": 95.5326,
      "step": 4031,
      "task_loss": 2.984650135040283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8503053794026975,
      "compression/movement_sparsity/importance_threshold": -0.0009715397752274261,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8465758727155203,
      "compression/movement_sparsity/model_sparsity": 0.8174933871157342,
      "compression_loss": 90.55735778808594,
      "distillation_loss": 4.638569355010986,
      "epoch": 3.41,
      "learning_rate": 4.293362554790232e-05,
      "loss": 94.7029,
      "step": 4032,
      "task_loss": 3.7693967819213867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8505433676261449,
      "compression/movement_sparsity/importance_threshold": -0.0009699951971778448,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8467593141104304,
      "compression/movement_sparsity/model_sparsity": 0.8176705267343974,
      "compression_loss": 90.58208465576172,
      "distillation_loss": 4.913120269775391,
      "epoch": 3.41,
      "learning_rate": 4.293049467752036e-05,
      "loss": 95.0023,
      "step": 4033,
      "task_loss": 2.5414211750030518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.850781103476102,
      "compression/movement_sparsity/importance_threshold": -0.0009684522570687802,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8469342654979838,
      "compression/movement_sparsity/model_sparsity": 0.8178394680035749,
      "compression_loss": 90.60673522949219,
      "distillation_loss": 3.3780322074890137,
      "epoch": 3.41,
      "learning_rate": 4.292736380713839e-05,
      "loss": 94.6121,
      "step": 4034,
      "task_loss": 3.04644775390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8510185870864545,
      "compression/movement_sparsity/importance_threshold": -0.0009669109540312937,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8470916168141066,
      "compression/movement_sparsity/model_sparsity": 0.8179914138179196,
      "compression_loss": 90.63137817382812,
      "distillation_loss": 2.767648220062256,
      "epoch": 3.41,
      "learning_rate": 4.292423293675642e-05,
      "loss": 94.168,
      "step": 4035,
      "task_loss": 1.9535332918167114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8512558185910869,
      "compression/movement_sparsity/importance_threshold": -0.0009653712871964546,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8473104372143924,
      "compression/movement_sparsity/model_sparsity": 0.8182027170642853,
      "compression_loss": 90.65602111816406,
      "distillation_loss": 4.993373870849609,
      "epoch": 3.41,
      "learning_rate": 4.2921102066374454e-05,
      "loss": 94.4586,
      "step": 4036,
      "task_loss": 3.181305170059204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8514927981238849,
      "compression/movement_sparsity/importance_threshold": -0.0009638332556953268,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8474842558060203,
      "compression/movement_sparsity/model_sparsity": 0.8183705644525623,
      "compression_loss": 90.68060302734375,
      "distillation_loss": 3.5382003784179688,
      "epoch": 3.41,
      "learning_rate": 4.291797119599249e-05,
      "loss": 94.6015,
      "step": 4037,
      "task_loss": 1.6565707921981812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8517295258187332,
      "compression/movement_sparsity/importance_threshold": -0.0009622968586589778,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8475208391523271,
      "compression/movement_sparsity/model_sparsity": 0.8184058910483799,
      "compression_loss": 90.70510864257812,
      "distillation_loss": 3.6861681938171387,
      "epoch": 3.41,
      "learning_rate": 4.2914840325610524e-05,
      "loss": 94.7333,
      "step": 4038,
      "task_loss": 2.6273717880249023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8519660018095174,
      "compression/movement_sparsity/importance_threshold": -0.0009607620952184715,
      "compression/movement_sparsity/linear_layer_sparsity": 0.847657394720093,
      "compression/movement_sparsity/model_sparsity": 0.818537755512299,
      "compression_loss": 90.72967529296875,
      "distillation_loss": 3.8877859115600586,
      "epoch": 3.41,
      "learning_rate": 4.2911709455228556e-05,
      "loss": 94.3496,
      "step": 4039,
      "task_loss": 2.1785426139831543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8522022262301221,
      "compression/movement_sparsity/importance_threshold": -0.0009592289645048782,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8478526171926274,
      "compression/movement_sparsity/model_sparsity": 0.8187262714923272,
      "compression_loss": 90.75416564941406,
      "distillation_loss": 4.350160598754883,
      "epoch": 3.41,
      "learning_rate": 4.290857858484659e-05,
      "loss": 94.6416,
      "step": 4040,
      "task_loss": 1.8413366079330444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.852438199214433,
      "compression/movement_sparsity/importance_threshold": -0.0009576974656492583,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8480965021932837,
      "compression/movement_sparsity/model_sparsity": 0.818961778292933,
      "compression_loss": 90.77861022949219,
      "distillation_loss": 4.024568557739258,
      "epoch": 3.42,
      "learning_rate": 4.2905447714464626e-05,
      "loss": 94.4425,
      "step": 4041,
      "task_loss": 2.827874183654785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8526739208963346,
      "compression/movement_sparsity/importance_threshold": -0.0009561675977826836,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8481609403951879,
      "compression/movement_sparsity/model_sparsity": 0.8190240028443667,
      "compression_loss": 90.80303192138672,
      "distillation_loss": 3.9796695709228516,
      "epoch": 3.42,
      "learning_rate": 4.290231684408266e-05,
      "loss": 94.9995,
      "step": 4042,
      "task_loss": 1.5393496751785278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8529093914097126,
      "compression/movement_sparsity/importance_threshold": -0.0009546393600362163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8483100044148039,
      "compression/movement_sparsity/model_sparsity": 0.8191679460563343,
      "compression_loss": 90.82738494873047,
      "distillation_loss": 3.624267578125,
      "epoch": 3.42,
      "learning_rate": 4.289918597370069e-05,
      "loss": 94.9367,
      "step": 4043,
      "task_loss": 2.0049667358398438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.853144610888452,
      "compression/movement_sparsity/importance_threshold": -0.0009531127515409231,
      "compression/movement_sparsity/linear_layer_sparsity": 0.848608549799903,
      "compression/movement_sparsity/model_sparsity": 0.8194562354890221,
      "compression_loss": 90.85172271728516,
      "distillation_loss": 5.643865585327148,
      "epoch": 3.42,
      "learning_rate": 4.289605510331872e-05,
      "loss": 96.3429,
      "step": 4044,
      "task_loss": 2.866238832473755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8533795794664376,
      "compression/movement_sparsity/importance_threshold": -0.0009515877714278715,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8487938752132995,
      "compression/movement_sparsity/model_sparsity": 0.819635194404341,
      "compression_loss": 90.8760986328125,
      "distillation_loss": 5.27628755569458,
      "epoch": 3.42,
      "learning_rate": 4.289292423293676e-05,
      "loss": 95.8004,
      "step": 4045,
      "task_loss": 2.9614202976226807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8536142972775551,
      "compression/movement_sparsity/importance_threshold": -0.0009500644188281246,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8489070832608344,
      "compression/movement_sparsity/model_sparsity": 0.8197445134071742,
      "compression_loss": 90.90042877197266,
      "distillation_loss": 4.68117618560791,
      "epoch": 3.42,
      "learning_rate": 4.288979336255479e-05,
      "loss": 95.3196,
      "step": 4046,
      "task_loss": 3.81087589263916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8538487644556892,
      "compression/movement_sparsity/importance_threshold": -0.0009485426928727515,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8491997738796243,
      "compression/movement_sparsity/model_sparsity": 0.8200271492027871,
      "compression_loss": 90.92478942871094,
      "distillation_loss": 4.683239459991455,
      "epoch": 3.42,
      "learning_rate": 4.2886662492172824e-05,
      "loss": 95.3726,
      "step": 4047,
      "task_loss": 1.8897018432617188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8540829811347255,
      "compression/movement_sparsity/importance_threshold": -0.0009470225926928163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8493199217927232,
      "compression/movement_sparsity/model_sparsity": 0.8201431696654529,
      "compression_loss": 90.94906616210938,
      "distillation_loss": 4.32224178314209,
      "epoch": 3.42,
      "learning_rate": 4.288353162179086e-05,
      "loss": 95.8875,
      "step": 4048,
      "task_loss": 2.6872901916503906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8543169474485485,
      "compression/movement_sparsity/importance_threshold": -0.0009455041174193865,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8494661120879389,
      "compression/movement_sparsity/model_sparsity": 0.820284337874294,
      "compression_loss": 90.97335815429688,
      "distillation_loss": 6.068289756774902,
      "epoch": 3.42,
      "learning_rate": 4.2880400751408894e-05,
      "loss": 95.3966,
      "step": 4049,
      "task_loss": 3.387033224105835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8545506635310439,
      "compression/movement_sparsity/importance_threshold": -0.000943987266183526,
      "compression/movement_sparsity/linear_layer_sparsity": 0.849695759632438,
      "compression/movement_sparsity/model_sparsity": 0.820506096319161,
      "compression_loss": 90.99754333496094,
      "distillation_loss": 3.360217571258545,
      "epoch": 3.42,
      "learning_rate": 4.2877269881026926e-05,
      "loss": 95.4113,
      "step": 4050,
      "task_loss": 2.389498472213745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8547841295160965,
      "compression/movement_sparsity/importance_threshold": -0.0009424720381163041,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8497611517677531,
      "compression/movement_sparsity/model_sparsity": 0.8205692420334583,
      "compression_loss": 91.02181243896484,
      "distillation_loss": 4.718728065490723,
      "epoch": 3.42,
      "learning_rate": 4.287413901064496e-05,
      "loss": 95.8023,
      "step": 4051,
      "task_loss": 3.8667855262756348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8550173455375915,
      "compression/movement_sparsity/importance_threshold": -0.0009409584323487848,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8499838475225204,
      "compression/movement_sparsity/model_sparsity": 0.8207842875039572,
      "compression_loss": 91.04597473144531,
      "distillation_loss": 4.793120384216309,
      "epoch": 3.42,
      "learning_rate": 4.2871008140262996e-05,
      "loss": 95.0319,
      "step": 4052,
      "task_loss": 2.795159101486206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8552503117294142,
      "compression/movement_sparsity/importance_threshold": -0.0009394464480120338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8502007362076491,
      "compression/movement_sparsity/model_sparsity": 0.8209937253955241,
      "compression_loss": 91.07012176513672,
      "distillation_loss": 4.575957298278809,
      "epoch": 3.43,
      "learning_rate": 4.286787726988103e-05,
      "loss": 94.7697,
      "step": 4053,
      "task_loss": 2.311068296432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8554830282254496,
      "compression/movement_sparsity/importance_threshold": -0.0009379360842371176,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8503474392420732,
      "compression/movement_sparsity/model_sparsity": 0.8211353887294043,
      "compression_loss": 91.09427642822266,
      "distillation_loss": 5.741728782653809,
      "epoch": 3.43,
      "learning_rate": 4.286474639949906e-05,
      "loss": 95.5923,
      "step": 4054,
      "task_loss": 3.1386349201202393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8557154951595831,
      "compression/movement_sparsity/importance_threshold": -0.0009364273401551012,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8504821465638556,
      "compression/movement_sparsity/model_sparsity": 0.8212654684402751,
      "compression_loss": 91.11835479736328,
      "distillation_loss": 4.642451286315918,
      "epoch": 3.43,
      "learning_rate": 4.286161552911709e-05,
      "loss": 96.0672,
      "step": 4055,
      "task_loss": 2.6202549934387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8559477126656994,
      "compression/movement_sparsity/importance_threshold": -0.0009349202148970538,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8505698368926496,
      "compression/movement_sparsity/model_sparsity": 0.8213501463365083,
      "compression_loss": 91.14237976074219,
      "distillation_loss": 3.38331937789917,
      "epoch": 3.43,
      "learning_rate": 4.285848465873513e-05,
      "loss": 95.5212,
      "step": 4056,
      "task_loss": 1.834960699081421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.856179680877684,
      "compression/movement_sparsity/importance_threshold": -0.0009334147075940368,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8505114561679045,
      "compression/movement_sparsity/model_sparsity": 0.8212937711692582,
      "compression_loss": 91.1664047241211,
      "distillation_loss": 4.22911262512207,
      "epoch": 3.43,
      "learning_rate": 4.285535378835316e-05,
      "loss": 95.1376,
      "step": 4057,
      "task_loss": 2.0311012268066406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8564113999294217,
      "compression/movement_sparsity/importance_threshold": -0.0009319108173771219,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8506258685563706,
      "compression/movement_sparsity/model_sparsity": 0.8214042531402068,
      "compression_loss": 91.19041442871094,
      "distillation_loss": 4.545516014099121,
      "epoch": 3.43,
      "learning_rate": 4.2852222917971194e-05,
      "loss": 95.0113,
      "step": 4058,
      "task_loss": 2.6082897186279297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8566428699547981,
      "compression/movement_sparsity/importance_threshold": -0.0009304085433773698,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8507558419836015,
      "compression/movement_sparsity/model_sparsity": 0.8215297615803673,
      "compression_loss": 91.21437072753906,
      "distillation_loss": 4.775699615478516,
      "epoch": 3.43,
      "learning_rate": 4.284909204758923e-05,
      "loss": 95.4207,
      "step": 4059,
      "task_loss": 2.5048844814300537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8568740910876979,
      "compression/movement_sparsity/importance_threshold": -0.0009289078847258504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8508874967184691,
      "compression/movement_sparsity/model_sparsity": 0.8216568935700748,
      "compression_loss": 91.23835754394531,
      "distillation_loss": 3.838752031326294,
      "epoch": 3.43,
      "learning_rate": 4.2845961177207264e-05,
      "loss": 95.1503,
      "step": 4060,
      "task_loss": 2.093212842941284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8571050634620064,
      "compression/movement_sparsity/importance_threshold": -0.0009274088405536278,
      "compression/movement_sparsity/linear_layer_sparsity": 0.850993597962093,
      "compression/movement_sparsity/model_sparsity": 0.8217593499095747,
      "compression_loss": 91.2623062133789,
      "distillation_loss": 7.582210540771484,
      "epoch": 3.43,
      "learning_rate": 4.2842830306825296e-05,
      "loss": 96.3486,
      "step": 4061,
      "task_loss": 2.947300434112549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.857335787211609,
      "compression/movement_sparsity/importance_threshold": -0.0009259114099917677,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8511409329774017,
      "compression/movement_sparsity/model_sparsity": 0.821901623513852,
      "compression_loss": 91.28621673583984,
      "distillation_loss": 5.406777858734131,
      "epoch": 3.43,
      "learning_rate": 4.2839699436443335e-05,
      "loss": 95.6669,
      "step": 4062,
      "task_loss": 2.5441339015960693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8575662624703904,
      "compression/movement_sparsity/importance_threshold": -0.0009244155921713376,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8512029982699464,
      "compression/movement_sparsity/model_sparsity": 0.8219615566726626,
      "compression_loss": 91.31007385253906,
      "distillation_loss": 4.05820894241333,
      "epoch": 3.43,
      "learning_rate": 4.2836568566061366e-05,
      "loss": 95.6002,
      "step": 4063,
      "task_loss": 3.196995735168457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8577964893722361,
      "compression/movement_sparsity/importance_threshold": -0.0009229213862234015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8513301218211123,
      "compression/movement_sparsity/model_sparsity": 0.8220843131387682,
      "compression_loss": 91.33393859863281,
      "distillation_loss": 3.867387294769287,
      "epoch": 3.44,
      "learning_rate": 4.28334376956794e-05,
      "loss": 95.8362,
      "step": 4064,
      "task_loss": 1.9553067684173584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.858026468051031,
      "compression/movement_sparsity/importance_threshold": -0.0009214287912790277,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8514805213475034,
      "compression/movement_sparsity/model_sparsity": 0.8222295459787446,
      "compression_loss": 91.35774993896484,
      "distillation_loss": 3.1497139930725098,
      "epoch": 3.44,
      "learning_rate": 4.283030682529744e-05,
      "loss": 95.2627,
      "step": 4065,
      "task_loss": 2.134451150894165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8582561986406604,
      "compression/movement_sparsity/importance_threshold": -0.0009199378064692803,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8516576190852313,
      "compression/movement_sparsity/model_sparsity": 0.8224005598643652,
      "compression_loss": 91.38159942626953,
      "distillation_loss": 5.669510364532471,
      "epoch": 3.44,
      "learning_rate": 4.282717595491547e-05,
      "loss": 95.7254,
      "step": 4066,
      "task_loss": 3.405003070831299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8584856812750092,
      "compression/movement_sparsity/importance_threshold": -0.0009184484309252275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8517738677955133,
      "compression/movement_sparsity/model_sparsity": 0.8225128150738262,
      "compression_loss": 91.4052963256836,
      "distillation_loss": 3.8016552925109863,
      "epoch": 3.44,
      "learning_rate": 4.282404508453351e-05,
      "loss": 95.0453,
      "step": 4067,
      "task_loss": 3.0243308544158936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.858714916087963,
      "compression/movement_sparsity/importance_threshold": -0.0009169606637779333,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8517783155100415,
      "compression/movement_sparsity/model_sparsity": 0.8225171099956775,
      "compression_loss": 91.42909240722656,
      "distillation_loss": 3.2965478897094727,
      "epoch": 3.44,
      "learning_rate": 4.282091421415154e-05,
      "loss": 95.3276,
      "step": 4068,
      "task_loss": 1.5958503484725952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8589439032134064,
      "compression/movement_sparsity/importance_threshold": -0.0009154745041584653,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8519607075781996,
      "compression/movement_sparsity/model_sparsity": 0.8226932363351909,
      "compression_loss": 91.4527816772461,
      "distillation_loss": 5.953710079193115,
      "epoch": 3.44,
      "learning_rate": 4.281778334376957e-05,
      "loss": 95.2799,
      "step": 4069,
      "task_loss": 2.1279356479644775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8591726427852251,
      "compression/movement_sparsity/importance_threshold": -0.0009139899511978874,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8520507588921857,
      "compression/movement_sparsity/model_sparsity": 0.8227801941095112,
      "compression_loss": 91.47644805908203,
      "distillation_loss": 5.350955009460449,
      "epoch": 3.44,
      "learning_rate": 4.281465247338761e-05,
      "loss": 95.7455,
      "step": 4070,
      "task_loss": 3.04465913772583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8594011349373036,
      "compression/movement_sparsity/importance_threshold": -0.0009125070040272689,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8521991193859111,
      "compression/movement_sparsity/model_sparsity": 0.8229234579638669,
      "compression_loss": 91.50011444091797,
      "distillation_loss": 6.037020683288574,
      "epoch": 3.44,
      "learning_rate": 4.281152160300564e-05,
      "loss": 96.0376,
      "step": 4071,
      "task_loss": 3.7693352699279785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8596293798035276,
      "compression/movement_sparsity/importance_threshold": -0.0009110256617776728,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8522600161100274,
      "compression/movement_sparsity/model_sparsity": 0.8229822626981697,
      "compression_loss": 91.52375793457031,
      "distillation_loss": 4.624373435974121,
      "epoch": 3.44,
      "learning_rate": 4.280839073262367e-05,
      "loss": 95.8345,
      "step": 4072,
      "task_loss": 3.052806854248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8598573775177818,
      "compression/movement_sparsity/importance_threshold": -0.0009095459235801675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8523854225810538,
      "compression/movement_sparsity/model_sparsity": 0.8231033610711208,
      "compression_loss": 91.5472412109375,
      "distillation_loss": 5.122166633605957,
      "epoch": 3.44,
      "learning_rate": 4.2805259862241704e-05,
      "loss": 96.4756,
      "step": 4073,
      "task_loss": 2.501249074935913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8600851282139517,
      "compression/movement_sparsity/importance_threshold": -0.0009080677885658171,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8525089331094261,
      "compression/movement_sparsity/model_sparsity": 0.8232226286328806,
      "compression_loss": 91.57084655761719,
      "distillation_loss": 3.7264931201934814,
      "epoch": 3.44,
      "learning_rate": 4.280212899185974e-05,
      "loss": 96.0387,
      "step": 4074,
      "task_loss": 2.0143940448760986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8603126320259223,
      "compression/movement_sparsity/importance_threshold": -0.0009065912558656871,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8526852915487605,
      "compression/movement_sparsity/model_sparsity": 0.823392928617282,
      "compression_loss": 91.59439086914062,
      "distillation_loss": 4.197587966918945,
      "epoch": 3.44,
      "learning_rate": 4.2798998121477775e-05,
      "loss": 96.0125,
      "step": 4075,
      "task_loss": 2.398454189300537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8605398890875786,
      "compression/movement_sparsity/importance_threshold": -0.0009051163246108478,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8527759986919665,
      "compression/movement_sparsity/model_sparsity": 0.823480519691071,
      "compression_loss": 91.61791229248047,
      "distillation_loss": 3.3390684127807617,
      "epoch": 3.45,
      "learning_rate": 4.2795867251095807e-05,
      "loss": 95.9049,
      "step": 4076,
      "task_loss": 2.356628894805908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8607668995328062,
      "compression/movement_sparsity/importance_threshold": -0.0009036429939323597,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8528186633637677,
      "compression/movement_sparsity/model_sparsity": 0.8235217187001439,
      "compression_loss": 91.641357421875,
      "distillation_loss": 5.169465065002441,
      "epoch": 3.45,
      "learning_rate": 4.279273638071384e-05,
      "loss": 95.9708,
      "step": 4077,
      "task_loss": 3.2168400287628174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8609936634954896,
      "compression/movement_sparsity/importance_threshold": -0.0009021712629612927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8528899341137272,
      "compression/movement_sparsity/model_sparsity": 0.8235905410805878,
      "compression_loss": 91.66477966308594,
      "distillation_loss": 3.532865524291992,
      "epoch": 3.45,
      "learning_rate": 4.278960551033188e-05,
      "loss": 95.3649,
      "step": 4078,
      "task_loss": 1.7807132005691528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8612201811095145,
      "compression/movement_sparsity/importance_threshold": -0.0009007011308287101,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8531127252618357,
      "compression/movement_sparsity/model_sparsity": 0.823805678667373,
      "compression_loss": 91.68819427490234,
      "distillation_loss": 5.101552963256836,
      "epoch": 3.45,
      "learning_rate": 4.278647463994991e-05,
      "loss": 96.6948,
      "step": 4079,
      "task_loss": 2.1609959602355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8614464525087656,
      "compression/movement_sparsity/importance_threshold": -0.0008992325966656811,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8532247289684393,
      "compression/movement_sparsity/model_sparsity": 0.8239138347020911,
      "compression_loss": 91.71165466308594,
      "distillation_loss": 4.482922077178955,
      "epoch": 3.45,
      "learning_rate": 4.278334376956794e-05,
      "loss": 96.7284,
      "step": 4080,
      "task_loss": 2.132432460784912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8616724778271284,
      "compression/movement_sparsity/importance_threshold": -0.0008977656596032687,
      "compression/movement_sparsity/linear_layer_sparsity": 0.853476817796429,
      "compression/movement_sparsity/model_sparsity": 0.8241572635033235,
      "compression_loss": 91.73504638671875,
      "distillation_loss": 4.285619258880615,
      "epoch": 3.45,
      "learning_rate": 4.278021289918598e-05,
      "loss": 95.9288,
      "step": 4081,
      "task_loss": 2.952066659927368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8618982571984878,
      "compression/movement_sparsity/importance_threshold": -0.0008963003187725414,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8535310131383341,
      "compression/movement_sparsity/model_sparsity": 0.8242095970685097,
      "compression_loss": 91.75840759277344,
      "distillation_loss": 6.511777400970459,
      "epoch": 3.45,
      "learning_rate": 4.277708202880401e-05,
      "loss": 96.7119,
      "step": 4082,
      "task_loss": 5.260255336761475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.862123790756729,
      "compression/movement_sparsity/importance_threshold": -0.000894836573304564,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8537119266097054,
      "compression/movement_sparsity/model_sparsity": 0.8243842956055845,
      "compression_loss": 91.78173828125,
      "distillation_loss": 3.144404411315918,
      "epoch": 3.45,
      "learning_rate": 4.277395115842204e-05,
      "loss": 95.1451,
      "step": 4083,
      "task_loss": 1.4554139375686646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8623490786357372,
      "compression/movement_sparsity/importance_threshold": -0.000893374422330403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8538991360415884,
      "compression/movement_sparsity/model_sparsity": 0.8245650738175588,
      "compression_loss": 91.80508422851562,
      "distillation_loss": 3.747413396835327,
      "epoch": 3.45,
      "learning_rate": 4.2770820288040074e-05,
      "loss": 96.0429,
      "step": 4084,
      "task_loss": 0.7696890234947205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8625741209693975,
      "compression/movement_sparsity/importance_threshold": -0.0008919138649811234,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8539756415011401,
      "compression/movement_sparsity/model_sparsity": 0.8246389510792166,
      "compression_loss": 91.82843780517578,
      "distillation_loss": 5.231804847717285,
      "epoch": 3.45,
      "learning_rate": 4.276768941765811e-05,
      "loss": 96.3289,
      "step": 4085,
      "task_loss": 2.050168991088867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8627989178915951,
      "compression/movement_sparsity/importance_threshold": -0.000890454900387791,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8540985558211306,
      "compression/movement_sparsity/model_sparsity": 0.8247576429141867,
      "compression_loss": 91.85169982910156,
      "distillation_loss": 4.534160614013672,
      "epoch": 3.45,
      "learning_rate": 4.2764558547276145e-05,
      "loss": 96.3221,
      "step": 4086,
      "task_loss": 2.1881096363067627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8630234695362149,
      "compression/movement_sparsity/importance_threshold": -0.0008889975276814756,
      "compression/movement_sparsity/linear_layer_sparsity": 0.854243446382074,
      "compression/movement_sparsity/model_sparsity": 0.8248975560386261,
      "compression_loss": 91.87496185302734,
      "distillation_loss": 4.491280555725098,
      "epoch": 3.45,
      "learning_rate": 4.2761427676894177e-05,
      "loss": 96.4998,
      "step": 4087,
      "task_loss": 2.3135406970977783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8632477760371424,
      "compression/movement_sparsity/importance_threshold": -0.000887541745993238,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8544419599248758,
      "compression/movement_sparsity/model_sparsity": 0.8250892500305337,
      "compression_loss": 91.89823150634766,
      "distillation_loss": 5.49393367767334,
      "epoch": 3.46,
      "learning_rate": 4.275829680651221e-05,
      "loss": 96.7082,
      "step": 4088,
      "task_loss": 2.956188201904297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8634718375282625,
      "compression/movement_sparsity/importance_threshold": -0.0008860875544541473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.854577525786728,
      "compression/movement_sparsity/model_sparsity": 0.8252201587879818,
      "compression_loss": 91.92144775390625,
      "distillation_loss": 7.493169784545898,
      "epoch": 3.46,
      "learning_rate": 4.275516593613025e-05,
      "loss": 97.1446,
      "step": 4089,
      "task_loss": 4.365863800048828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8636956541434606,
      "compression/movement_sparsity/importance_threshold": -0.0008846349521952684,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8547122211843426,
      "compression/movement_sparsity/model_sparsity": 0.8253502269843169,
      "compression_loss": 91.9446792602539,
      "distillation_loss": 3.7829973697662354,
      "epoch": 3.46,
      "learning_rate": 4.275203506574828e-05,
      "loss": 97.3043,
      "step": 4090,
      "task_loss": 2.840228319168091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8639192260166213,
      "compression/movement_sparsity/importance_threshold": -0.0008831839383476696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8547125312127012,
      "compression/movement_sparsity/model_sparsity": 0.8253505263622476,
      "compression_loss": 91.96780395507812,
      "distillation_loss": 6.404736518859863,
      "epoch": 3.46,
      "learning_rate": 4.274890419536631e-05,
      "loss": 96.9881,
      "step": 4091,
      "task_loss": 3.1974544525146484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8641425532816303,
      "compression/movement_sparsity/importance_threshold": -0.000881734512042414,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8549140496457472,
      "compression/movement_sparsity/model_sparsity": 0.8255451220171753,
      "compression_loss": 91.99095916748047,
      "distillation_loss": 4.152040481567383,
      "epoch": 3.46,
      "learning_rate": 4.274577332498434e-05,
      "loss": 96.4676,
      "step": 4092,
      "task_loss": 2.2532827854156494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8643656360723726,
      "compression/movement_sparsity/importance_threshold": -0.0008802866724105683,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8550394561167737,
      "compression/movement_sparsity/model_sparsity": 0.8256662203901265,
      "compression_loss": 92.01403045654297,
      "distillation_loss": 5.130697250366211,
      "epoch": 3.46,
      "learning_rate": 4.274264245460238e-05,
      "loss": 97.0667,
      "step": 4093,
      "task_loss": 2.6219992637634277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.864588474522733,
      "compression/movement_sparsity/importance_threshold": -0.0008788404185832007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8551026899777466,
      "compression/movement_sparsity/model_sparsity": 0.8257272819734449,
      "compression_loss": 92.03719329833984,
      "distillation_loss": 4.272568702697754,
      "epoch": 3.46,
      "learning_rate": 4.273951158422041e-05,
      "loss": 96.1509,
      "step": 4094,
      "task_loss": 1.5554879903793335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8648110687665972,
      "compression/movement_sparsity/importance_threshold": -0.0008773957496913745,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8551783368972286,
      "compression/movement_sparsity/model_sparsity": 0.8258003301885255,
      "compression_loss": 92.06021881103516,
      "distillation_loss": 3.616347551345825,
      "epoch": 3.46,
      "learning_rate": 4.2736380713838444e-05,
      "loss": 96.1452,
      "step": 4095,
      "task_loss": 3.4659438133239746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8650334189378499,
      "compression/movement_sparsity/importance_threshold": -0.0008759526648661571,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8552283349321257,
      "compression/movement_sparsity/model_sparsity": 0.825848610637112,
      "compression_loss": 92.0832748413086,
      "distillation_loss": 3.5386009216308594,
      "epoch": 3.46,
      "learning_rate": 4.273324984345648e-05,
      "loss": 96.461,
      "step": 4096,
      "task_loss": 1.8152415752410889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8652555251703765,
      "compression/movement_sparsity/importance_threshold": -0.0008745111632386133,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8553659636749789,
      "compression/movement_sparsity/model_sparsity": 0.8259815114092527,
      "compression_loss": 92.10637664794922,
      "distillation_loss": 3.644550323486328,
      "epoch": 3.46,
      "learning_rate": 4.2730118973074515e-05,
      "loss": 96.2518,
      "step": 4097,
      "task_loss": 2.019357204437256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8654773875980619,
      "compression/movement_sparsity/importance_threshold": -0.0008730712439398115,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8555034135553174,
      "compression/movement_sparsity/model_sparsity": 0.8261142394633563,
      "compression_loss": 92.12939453125,
      "distillation_loss": 2.752410888671875,
      "epoch": 3.46,
      "learning_rate": 4.272698810269255e-05,
      "loss": 96.1122,
      "step": 4098,
      "task_loss": 1.6103150844573975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8656990063547915,
      "compression/movement_sparsity/importance_threshold": -0.0008716329061008157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8556378466212442,
      "compression/movement_sparsity/model_sparsity": 0.826244054339904,
      "compression_loss": 92.15237426757812,
      "distillation_loss": 5.972105979919434,
      "epoch": 3.46,
      "learning_rate": 4.2723857232310585e-05,
      "loss": 96.7285,
      "step": 4099,
      "task_loss": 2.3267695903778076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8659203815744502,
      "compression/movement_sparsity/importance_threshold": -0.0008701961488526934,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8557351716774881,
      "compression/movement_sparsity/model_sparsity": 0.826338035981059,
      "compression_loss": 92.17525482177734,
      "distillation_loss": 4.032285690307617,
      "epoch": 3.47,
      "learning_rate": 4.2720726361928624e-05,
      "loss": 96.4382,
      "step": 4100,
      "task_loss": 1.6760855913162231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8661415133909232,
      "compression/movement_sparsity/importance_threshold": -0.0008687609713265093,
      "compression/movement_sparsity/linear_layer_sparsity": 0.855852243155337,
      "compression/movement_sparsity/model_sparsity": 0.8264510856934898,
      "compression_loss": 92.19818115234375,
      "distillation_loss": 4.355818271636963,
      "epoch": 3.47,
      "learning_rate": 4.2717595491546655e-05,
      "loss": 96.1297,
      "step": 4101,
      "task_loss": 2.057081937789917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8663624019380959,
      "compression/movement_sparsity/importance_threshold": -0.0008673273726533294,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8559609677158407,
      "compression/movement_sparsity/model_sparsity": 0.8265560752308644,
      "compression_loss": 92.22102355957031,
      "distillation_loss": 4.509158134460449,
      "epoch": 3.47,
      "learning_rate": 4.271446462116469e-05,
      "loss": 96.557,
      "step": 4102,
      "task_loss": 2.020683765411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.866583047349853,
      "compression/movement_sparsity/importance_threshold": -0.0008658953519642219,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8561271190676789,
      "compression/movement_sparsity/model_sparsity": 0.8267165187726255,
      "compression_loss": 92.24385070800781,
      "distillation_loss": 3.8076677322387695,
      "epoch": 3.47,
      "learning_rate": 4.271133375078272e-05,
      "loss": 96.2854,
      "step": 4103,
      "task_loss": 2.4665651321411133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8668034497600802,
      "compression/movement_sparsity/importance_threshold": -0.000864464908390249,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8563430299710615,
      "compression/movement_sparsity/model_sparsity": 0.8269250124722574,
      "compression_loss": 92.26664733886719,
      "distillation_loss": 6.014349460601807,
      "epoch": 3.47,
      "learning_rate": 4.270820288040076e-05,
      "loss": 96.9596,
      "step": 4104,
      "task_loss": 4.036872386932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.867023609302662,
      "compression/movement_sparsity/importance_threshold": -0.0008630360410624809,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8566138278180719,
      "compression/movement_sparsity/model_sparsity": 0.8271865075801513,
      "compression_loss": 92.2894287109375,
      "distillation_loss": 3.830193519592285,
      "epoch": 3.47,
      "learning_rate": 4.270507201001879e-05,
      "loss": 96.0989,
      "step": 4105,
      "task_loss": 2.3634798526763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.867243526111484,
      "compression/movement_sparsity/importance_threshold": -0.0008616087491119806,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8567274412873064,
      "compression/movement_sparsity/model_sparsity": 0.8272962180772017,
      "compression_loss": 92.3121566772461,
      "distillation_loss": 6.199346542358398,
      "epoch": 3.47,
      "learning_rate": 4.270194113963682e-05,
      "loss": 97.2922,
      "step": 4106,
      "task_loss": 2.6651480197906494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8674632003204312,
      "compression/movement_sparsity/importance_threshold": -0.0008601830316698157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8568208552165658,
      "compression/movement_sparsity/model_sparsity": 0.8273864229506162,
      "compression_loss": 92.33487701416016,
      "distillation_loss": 4.692887306213379,
      "epoch": 3.47,
      "learning_rate": 4.269881026925486e-05,
      "loss": 96.8083,
      "step": 4107,
      "task_loss": 3.11521053314209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8676826320633888,
      "compression/movement_sparsity/importance_threshold": -0.0008587588878670518,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8569113954214249,
      "compression/movement_sparsity/model_sparsity": 0.8274738528209041,
      "compression_loss": 92.35761260986328,
      "distillation_loss": 6.040011405944824,
      "epoch": 3.47,
      "learning_rate": 4.269567939887289e-05,
      "loss": 97.743,
      "step": 4108,
      "task_loss": 3.1440882682800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8679018214742417,
      "compression/movement_sparsity/importance_threshold": -0.0008573363168347566,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8570661114965002,
      "compression/movement_sparsity/model_sparsity": 0.8276232539228383,
      "compression_loss": 92.38037109375,
      "distillation_loss": 4.844672203063965,
      "epoch": 3.47,
      "learning_rate": 4.269254852849092e-05,
      "loss": 96.5227,
      "step": 4109,
      "task_loss": 2.368454694747925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8681207686868754,
      "compression/movement_sparsity/importance_threshold": -0.0008559153177039921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8572251679685949,
      "compression/movement_sparsity/model_sparsity": 0.8277768463158016,
      "compression_loss": 92.40300750732422,
      "distillation_loss": 5.626307487487793,
      "epoch": 3.47,
      "learning_rate": 4.2689417658108955e-05,
      "loss": 97.6702,
      "step": 4110,
      "task_loss": 3.3963913917541504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8683394738351747,
      "compression/movement_sparsity/importance_threshold": -0.0008544958896058276,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8573907111878837,
      "compression/movement_sparsity/model_sparsity": 0.8279367026162373,
      "compression_loss": 92.4256820678711,
      "distillation_loss": 3.367100954055786,
      "epoch": 3.47,
      "learning_rate": 4.2686286787726993e-05,
      "loss": 96.8878,
      "step": 4111,
      "task_loss": 1.9786967039108276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8685579370530251,
      "compression/movement_sparsity/importance_threshold": -0.0008530780316713281,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8575610121500591,
      "compression/movement_sparsity/model_sparsity": 0.8281011532164548,
      "compression_loss": 92.44828033447266,
      "distillation_loss": 4.339536666870117,
      "epoch": 3.48,
      "learning_rate": 4.2683155917345025e-05,
      "loss": 96.6687,
      "step": 4112,
      "task_loss": 2.1698246002197266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8687761584743113,
      "compression/movement_sparsity/importance_threshold": -0.0008516617430315608,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8577606227162834,
      "compression/movement_sparsity/model_sparsity": 0.8282939065456555,
      "compression_loss": 92.47090148925781,
      "distillation_loss": 4.436316967010498,
      "epoch": 3.48,
      "learning_rate": 4.268002504696306e-05,
      "loss": 97.0219,
      "step": 4113,
      "task_loss": 3.4045677185058594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8689941382329187,
      "compression/movement_sparsity/importance_threshold": -0.0008502470228175909,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8578721136836788,
      "compression/movement_sparsity/model_sparsity": 0.8284015674553344,
      "compression_loss": 92.49346923828125,
      "distillation_loss": 6.214099884033203,
      "epoch": 3.48,
      "learning_rate": 4.267689417658109e-05,
      "loss": 97.3631,
      "step": 4114,
      "task_loss": 2.9369797706604004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8692118764627327,
      "compression/movement_sparsity/importance_threshold": -0.000848833870160483,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8580320286958433,
      "compression/movement_sparsity/model_sparsity": 0.828555988894875,
      "compression_loss": 92.51607513427734,
      "distillation_loss": 4.948198318481445,
      "epoch": 3.48,
      "learning_rate": 4.267376330619913e-05,
      "loss": 97.0878,
      "step": 4115,
      "task_loss": 2.5488948822021484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8694293732976379,
      "compression/movement_sparsity/importance_threshold": -0.0008474222841913055,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8580336861551446,
      "compression/movement_sparsity/model_sparsity": 0.8285575894153505,
      "compression_loss": 92.53862762451172,
      "distillation_loss": 4.380139350891113,
      "epoch": 3.48,
      "learning_rate": 4.267063243581716e-05,
      "loss": 96.9896,
      "step": 4116,
      "task_loss": 2.7281484603881836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8696466288715199,
      "compression/movement_sparsity/importance_threshold": -0.0008460122640411225,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8581952586266106,
      "compression/movement_sparsity/model_sparsity": 0.8287136113753665,
      "compression_loss": 92.56118774414062,
      "distillation_loss": 4.448000907897949,
      "epoch": 3.48,
      "learning_rate": 4.266750156543519e-05,
      "loss": 97.3197,
      "step": 4117,
      "task_loss": 2.8121144771575928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8698636433182634,
      "compression/movement_sparsity/importance_threshold": -0.0008446038088410022,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8584522125149958,
      "compression/movement_sparsity/model_sparsity": 0.8289617381072031,
      "compression_loss": 92.5837173461914,
      "distillation_loss": 4.381775856018066,
      "epoch": 3.48,
      "learning_rate": 4.266437069505323e-05,
      "loss": 96.3446,
      "step": 4118,
      "task_loss": 1.9501968622207642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8700804167717541,
      "compression/movement_sparsity/importance_threshold": -0.0008431969177220078,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8586280820634572,
      "compression/movement_sparsity/model_sparsity": 0.8291315659956368,
      "compression_loss": 92.60617065429688,
      "distillation_loss": 3.6623854637145996,
      "epoch": 3.48,
      "learning_rate": 4.266123982467126e-05,
      "loss": 96.5383,
      "step": 4119,
      "task_loss": 1.4624898433685303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8702969493658765,
      "compression/movement_sparsity/importance_threshold": -0.0008417915898152085,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8587271361240083,
      "compression/movement_sparsity/model_sparsity": 0.829227217244482,
      "compression_loss": 92.628662109375,
      "distillation_loss": 4.480627059936523,
      "epoch": 3.48,
      "learning_rate": 4.265810895428929e-05,
      "loss": 96.7881,
      "step": 4120,
      "task_loss": 2.1061596870422363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8705132412345163,
      "compression/movement_sparsity/importance_threshold": -0.0008403878242516675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8588393067689588,
      "compression/movement_sparsity/model_sparsity": 0.8293355344827013,
      "compression_loss": 92.651123046875,
      "distillation_loss": 3.541402816772461,
      "epoch": 3.48,
      "learning_rate": 4.2654978083907325e-05,
      "loss": 96.6408,
      "step": 4121,
      "task_loss": 1.2738748788833618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8707292925115583,
      "compression/movement_sparsity/importance_threshold": -0.0008389856201624531,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8590455948690593,
      "compression/movement_sparsity/model_sparsity": 0.8295347359519468,
      "compression_loss": 92.67350006103516,
      "distillation_loss": 4.094985008239746,
      "epoch": 3.48,
      "learning_rate": 4.2651847213525363e-05,
      "loss": 97.0348,
      "step": 4122,
      "task_loss": 2.338268756866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8709451033308877,
      "compression/movement_sparsity/importance_threshold": -0.0008375849766786301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8592242427485798,
      "compression/movement_sparsity/model_sparsity": 0.8297072467272206,
      "compression_loss": 92.69586944580078,
      "distillation_loss": 5.194477081298828,
      "epoch": 3.48,
      "learning_rate": 4.2648716343143395e-05,
      "loss": 97.6415,
      "step": 4123,
      "task_loss": 2.8624584674835205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8711606738263898,
      "compression/movement_sparsity/importance_threshold": -0.0008361858929312642,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8593020360182362,
      "compression/movement_sparsity/model_sparsity": 0.8297823675587442,
      "compression_loss": 92.71824645996094,
      "distillation_loss": 3.4921305179595947,
      "epoch": 3.49,
      "learning_rate": 4.264558547276143e-05,
      "loss": 96.763,
      "step": 4124,
      "task_loss": 3.081404447555542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8713760041319496,
      "compression/movement_sparsity/importance_threshold": -0.0008347883680514222,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8593867095326184,
      "compression/movement_sparsity/model_sparsity": 0.8298641322774213,
      "compression_loss": 92.74061584472656,
      "distillation_loss": 4.452943325042725,
      "epoch": 3.49,
      "learning_rate": 4.264245460237946e-05,
      "loss": 97.1854,
      "step": 4125,
      "task_loss": 1.9089632034301758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8715910943814523,
      "compression/movement_sparsity/importance_threshold": -0.0008333924011701696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8594458891765953,
      "compression/movement_sparsity/model_sparsity": 0.8299212789185695,
      "compression_loss": 92.76295471191406,
      "distillation_loss": 4.021533966064453,
      "epoch": 3.49,
      "learning_rate": 4.26393237319975e-05,
      "loss": 96.8505,
      "step": 4126,
      "task_loss": 2.053182601928711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8718059447087829,
      "compression/movement_sparsity/importance_threshold": -0.0008319979914185741,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8595181377083009,
      "compression/movement_sparsity/model_sparsity": 0.8299910454909487,
      "compression_loss": 92.78523254394531,
      "distillation_loss": 3.51828932762146,
      "epoch": 3.49,
      "learning_rate": 4.263619286161553e-05,
      "loss": 96.661,
      "step": 4127,
      "task_loss": 1.5712181329727173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8720205552478268,
      "compression/movement_sparsity/importance_threshold": -0.0008306051379276987,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8596744277735041,
      "compression/movement_sparsity/model_sparsity": 0.8301419665116077,
      "compression_loss": 92.80746459960938,
      "distillation_loss": 2.7862868309020996,
      "epoch": 3.49,
      "learning_rate": 4.263306199123356e-05,
      "loss": 96.0541,
      "step": 4128,
      "task_loss": 1.693892002105713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8722349261324689,
      "compression/movement_sparsity/importance_threshold": -0.0008292138398286126,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8597733148957084,
      "compression/movement_sparsity/model_sparsity": 0.8302374565569518,
      "compression_loss": 92.82966613769531,
      "distillation_loss": 4.139125347137451,
      "epoch": 3.49,
      "learning_rate": 4.26299311208516e-05,
      "loss": 97.1437,
      "step": 4129,
      "task_loss": 2.166367769241333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8724490574965945,
      "compression/movement_sparsity/importance_threshold": -0.0008278240962523798,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8598980774616825,
      "compression/movement_sparsity/model_sparsity": 0.8303579331449701,
      "compression_loss": 92.85185241699219,
      "distillation_loss": 3.8545031547546387,
      "epoch": 3.49,
      "learning_rate": 4.262680025046963e-05,
      "loss": 96.3179,
      "step": 4130,
      "task_loss": 2.8633182048797607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8726629494740886,
      "compression/movement_sparsity/importance_threshold": -0.0008264359063300669,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8599962252854932,
      "compression/movement_sparsity/model_sparsity": 0.830452709289095,
      "compression_loss": 92.87397003173828,
      "distillation_loss": 5.786999702453613,
      "epoch": 3.49,
      "learning_rate": 4.262366938008766e-05,
      "loss": 96.5771,
      "step": 4131,
      "task_loss": 4.1249823570251465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8728766021988363,
      "compression/movement_sparsity/importance_threshold": -0.0008250492691927415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8601582866478322,
      "compression/movement_sparsity/model_sparsity": 0.8306092033450786,
      "compression_loss": 92.89604949951172,
      "distillation_loss": 5.5101728439331055,
      "epoch": 3.49,
      "learning_rate": 4.26205385097057e-05,
      "loss": 96.9671,
      "step": 4132,
      "task_loss": 2.929687261581421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8730900158047231,
      "compression/movement_sparsity/importance_threshold": -0.0008236641839714665,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8602643401947856,
      "compression/movement_sparsity/model_sparsity": 0.8307116136264352,
      "compression_loss": 92.91805267333984,
      "distillation_loss": 4.933534622192383,
      "epoch": 3.49,
      "learning_rate": 4.261740763932373e-05,
      "loss": 97.1866,
      "step": 4133,
      "task_loss": 2.850085973739624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8733031904256338,
      "compression/movement_sparsity/importance_threshold": -0.0008222806497973105,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8603779059673495,
      "compression/movement_sparsity/model_sparsity": 0.8308212780653425,
      "compression_loss": 92.94004821777344,
      "distillation_loss": 3.4735143184661865,
      "epoch": 3.49,
      "learning_rate": 4.261427676894177e-05,
      "loss": 96.9955,
      "step": 4134,
      "task_loss": 2.2309560775756836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8735161261954536,
      "compression/movement_sparsity/importance_threshold": -0.0008208986658013373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8604530401476231,
      "compression/movement_sparsity/model_sparsity": 0.8308938311553838,
      "compression_loss": 92.96204376220703,
      "distillation_loss": 4.759377479553223,
      "epoch": 3.5,
      "learning_rate": 4.2611145898559804e-05,
      "loss": 97.5228,
      "step": 4135,
      "task_loss": 3.2021617889404297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8737288232480677,
      "compression/movement_sparsity/importance_threshold": -0.0008195182311146153,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8606337509081446,
      "compression/movement_sparsity/model_sparsity": 0.8310683339453501,
      "compression_loss": 92.98399353027344,
      "distillation_loss": 4.48211669921875,
      "epoch": 3.5,
      "learning_rate": 4.2608015028177835e-05,
      "loss": 97.51,
      "step": 4136,
      "task_loss": 2.624817132949829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8739412817173613,
      "compression/movement_sparsity/importance_threshold": -0.0008181393448682085,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8607198433984755,
      "compression/movement_sparsity/model_sparsity": 0.8311514688937867,
      "compression_loss": 93.00585174560547,
      "distillation_loss": 5.734959602355957,
      "epoch": 3.5,
      "learning_rate": 4.2604884157795874e-05,
      "loss": 97.1764,
      "step": 4137,
      "task_loss": 3.20112681388855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8741535017372193,
      "compression/movement_sparsity/importance_threshold": -0.0008167620061931852,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8609623094231832,
      "compression/movement_sparsity/model_sparsity": 0.8313856054646329,
      "compression_loss": 93.0277328491211,
      "distillation_loss": 3.2911558151245117,
      "epoch": 3.5,
      "learning_rate": 4.2601753287413906e-05,
      "loss": 96.974,
      "step": 4138,
      "task_loss": 2.3615942001342773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8743654834415271,
      "compression/movement_sparsity/importance_threshold": -0.0008153862142206104,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8611048389989346,
      "compression/movement_sparsity/model_sparsity": 0.831523238710985,
      "compression_loss": 93.04957580566406,
      "distillation_loss": 4.935049057006836,
      "epoch": 3.5,
      "learning_rate": 4.259862241703194e-05,
      "loss": 98.0713,
      "step": 4139,
      "task_loss": 3.062793254852295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8745772269641696,
      "compression/movement_sparsity/importance_threshold": -0.0008140119680815497,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8611978117339915,
      "compression/movement_sparsity/model_sparsity": 0.831613017546575,
      "compression_loss": 93.07133483886719,
      "distillation_loss": 6.311256408691406,
      "epoch": 3.5,
      "learning_rate": 4.259549154664997e-05,
      "loss": 97.9328,
      "step": 4140,
      "task_loss": 2.999155044555664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8747887324390324,
      "compression/movement_sparsity/importance_threshold": -0.0008126392669070672,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8613880141319511,
      "compression/movement_sparsity/model_sparsity": 0.8317966859070338,
      "compression_loss": 93.09317779541016,
      "distillation_loss": 2.9549098014831543,
      "epoch": 3.5,
      "learning_rate": 4.259236067626801e-05,
      "loss": 97.1398,
      "step": 4141,
      "task_loss": 2.7523841857910156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.875,
      "compression/movement_sparsity/importance_threshold": -0.0008112681098282337,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8615249751214167,
      "compression/movement_sparsity/model_sparsity": 0.8319289418651699,
      "compression_loss": 93.11497497558594,
      "distillation_loss": 4.87784481048584,
      "epoch": 3.5,
      "learning_rate": 4.258922980588604e-05,
      "loss": 97.4078,
      "step": 4142,
      "task_loss": 2.7173409461975098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.875211029780958,
      "compression/movement_sparsity/importance_threshold": -0.0008098984959761116,
      "compression/movement_sparsity/linear_layer_sparsity": 0.861680573584897,
      "compression/movement_sparsity/model_sparsity": 0.8320791950427529,
      "compression_loss": 93.13673400878906,
      "distillation_loss": 4.605889320373535,
      "epoch": 3.5,
      "learning_rate": 4.258609893550407e-05,
      "loss": 97.281,
      "step": 4143,
      "task_loss": 1.7068456411361694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8754218219157913,
      "compression/movement_sparsity/importance_threshold": -0.0008085304244817683,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8618098315620698,
      "compression/movement_sparsity/model_sparsity": 0.8322040126107657,
      "compression_loss": 93.15845489501953,
      "distillation_loss": 5.882782936096191,
      "epoch": 3.5,
      "learning_rate": 4.258296806512211e-05,
      "loss": 97.9349,
      "step": 4144,
      "task_loss": 2.7319395542144775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8756323765383853,
      "compression/movement_sparsity/importance_threshold": -0.0008071638944762687,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8619016834253689,
      "compression/movement_sparsity/model_sparsity": 0.832292709079991,
      "compression_loss": 93.18019104003906,
      "distillation_loss": 4.6103596687316895,
      "epoch": 3.5,
      "learning_rate": 4.257983719474014e-05,
      "loss": 97.2872,
      "step": 4145,
      "task_loss": 1.8536008596420288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8758426937826249,
      "compression/movement_sparsity/importance_threshold": -0.0008057989050906812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8620866868862392,
      "compression/movement_sparsity/model_sparsity": 0.8324713571028433,
      "compression_loss": 93.20187377929688,
      "distillation_loss": 4.234727382659912,
      "epoch": 3.5,
      "learning_rate": 4.2576706324358174e-05,
      "loss": 97.8895,
      "step": 4146,
      "task_loss": 2.467641830444336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8760527737823953,
      "compression/movement_sparsity/importance_threshold": -0.0008044354554560687,
      "compression/movement_sparsity/linear_layer_sparsity": 0.862225901543388,
      "compression/movement_sparsity/model_sparsity": 0.8326057893082446,
      "compression_loss": 93.22351837158203,
      "distillation_loss": 4.4289703369140625,
      "epoch": 3.51,
      "learning_rate": 4.2573575453976205e-05,
      "loss": 97.0559,
      "step": 4147,
      "task_loss": 2.888850450515747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8762626166715816,
      "compression/movement_sparsity/importance_threshold": -0.0008030735447035007,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8624672586205054,
      "compression/movement_sparsity/model_sparsity": 0.8328388550272618,
      "compression_loss": 93.24517822265625,
      "distillation_loss": 4.135921478271484,
      "epoch": 3.51,
      "learning_rate": 4.2570444583594244e-05,
      "loss": 96.818,
      "step": 4148,
      "task_loss": 2.7057061195373535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8764722225840692,
      "compression/movement_sparsity/importance_threshold": -0.0008017131719640393,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8624541897327765,
      "compression/movement_sparsity/model_sparsity": 0.832826235096031,
      "compression_loss": 93.26679229736328,
      "distillation_loss": 3.5068869590759277,
      "epoch": 3.51,
      "learning_rate": 4.2567313713212276e-05,
      "loss": 97.6825,
      "step": 4149,
      "task_loss": 1.5555847883224487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8766815916537428,
      "compression/movement_sparsity/importance_threshold": -0.0008003543363687545,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8625628665966097,
      "compression/movement_sparsity/model_sparsity": 0.8329311785752626,
      "compression_loss": 93.28838348388672,
      "distillation_loss": 4.378317356109619,
      "epoch": 3.51,
      "learning_rate": 4.256418284283031e-05,
      "loss": 97.3821,
      "step": 4150,
      "task_loss": 2.498948335647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.876890724014488,
      "compression/movement_sparsity/importance_threshold": -0.0007989970370487097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8627770842681881,
      "compression/movement_sparsity/model_sparsity": 0.8331380372108115,
      "compression_loss": 93.3099594116211,
      "distillation_loss": 5.1413445472717285,
      "epoch": 3.51,
      "learning_rate": 4.256105197244834e-05,
      "loss": 97.715,
      "step": 4151,
      "task_loss": 2.5625040531158447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8770996198001896,
      "compression/movement_sparsity/importance_threshold": -0.0007976412731349721,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8628739562060618,
      "compression/movement_sparsity/model_sparsity": 0.8332315812996063,
      "compression_loss": 93.33151245117188,
      "distillation_loss": 4.495284557342529,
      "epoch": 3.51,
      "learning_rate": 4.255792110206638e-05,
      "loss": 97.8397,
      "step": 4152,
      "task_loss": 2.5900564193725586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.877308279144733,
      "compression/movement_sparsity/importance_threshold": -0.0007962870437586058,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8630358029333834,
      "compression/movement_sparsity/model_sparsity": 0.8333878680939456,
      "compression_loss": 93.35309600830078,
      "distillation_loss": 4.355298042297363,
      "epoch": 3.51,
      "learning_rate": 4.255479023168441e-05,
      "loss": 97.6605,
      "step": 4153,
      "task_loss": 3.076200246810913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8775167021820031,
      "compression/movement_sparsity/importance_threshold": -0.00079493434805068,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8631580375758187,
      "compression/movement_sparsity/model_sparsity": 0.8335059036003755,
      "compression_loss": 93.37459564208984,
      "distillation_loss": 4.445387840270996,
      "epoch": 3.51,
      "learning_rate": 4.255165936130244e-05,
      "loss": 97.7314,
      "step": 4154,
      "task_loss": 2.2172040939331055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8777248890458851,
      "compression/movement_sparsity/importance_threshold": -0.0007935831851422588,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8633764883269076,
      "compression/movement_sparsity/model_sparsity": 0.8337168498961314,
      "compression_loss": 93.39605712890625,
      "distillation_loss": 4.912913799285889,
      "epoch": 3.51,
      "learning_rate": 4.254852849092048e-05,
      "loss": 98.0525,
      "step": 4155,
      "task_loss": 2.9267640113830566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8779328398702643,
      "compression/movement_sparsity/importance_threshold": -0.0007922335541644086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8635227978637997,
      "compression/movement_sparsity/model_sparsity": 0.8338581332503304,
      "compression_loss": 93.41751098632812,
      "distillation_loss": 4.2226152420043945,
      "epoch": 3.51,
      "learning_rate": 4.254539762053851e-05,
      "loss": 97.8958,
      "step": 4156,
      "task_loss": 1.7599687576293945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8781405547890256,
      "compression/movement_sparsity/importance_threshold": -0.0007908854542481953,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8636756776170591,
      "compression/movement_sparsity/model_sparsity": 0.8340057611137522,
      "compression_loss": 93.43900299072266,
      "distillation_loss": 5.244320869445801,
      "epoch": 3.51,
      "learning_rate": 4.2542266750156544e-05,
      "loss": 98.1622,
      "step": 4157,
      "task_loss": 2.909557580947876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8783480339360544,
      "compression/movement_sparsity/importance_threshold": -0.0007895388845246846,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8637348453368683,
      "compression/movement_sparsity/model_sparsity": 0.8340628962403648,
      "compression_loss": 93.4604263305664,
      "distillation_loss": 4.849429130554199,
      "epoch": 3.51,
      "learning_rate": 4.2539135879774575e-05,
      "loss": 98.7834,
      "step": 4158,
      "task_loss": 3.5740017890930176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8785552774452356,
      "compression/movement_sparsity/importance_threshold": -0.0007881938441249431,
      "compression/movement_sparsity/linear_layer_sparsity": 0.863919443376039,
      "compression/movement_sparsity/model_sparsity": 0.834241152769,
      "compression_loss": 93.48184967041016,
      "distillation_loss": 5.620876312255859,
      "epoch": 3.52,
      "learning_rate": 4.2536005009392614e-05,
      "loss": 97.9685,
      "step": 4159,
      "task_loss": 2.983299970626831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8787622854504545,
      "compression/movement_sparsity/importance_threshold": -0.0007868503321800373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8640298134716766,
      "compression/movement_sparsity/model_sparsity": 0.8343477313123143,
      "compression_loss": 93.50331115722656,
      "distillation_loss": 4.113637924194336,
      "epoch": 3.52,
      "learning_rate": 4.2532874139010646e-05,
      "loss": 97.7168,
      "step": 4160,
      "task_loss": 1.3733645677566528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8789690580855962,
      "compression/movement_sparsity/importance_threshold": -0.0007855083478210331,
      "compression/movement_sparsity/linear_layer_sparsity": 0.864110325451554,
      "compression/movement_sparsity/model_sparsity": 0.834425477457999,
      "compression_loss": 93.52473449707031,
      "distillation_loss": 5.526363372802734,
      "epoch": 3.52,
      "learning_rate": 4.252974326862868e-05,
      "loss": 97.4303,
      "step": 4161,
      "task_loss": 3.4653985500335693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8791755954845459,
      "compression/movement_sparsity/importance_threshold": -0.0007841678901789944,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8642185134245141,
      "compression/movement_sparsity/model_sparsity": 0.8345299488412629,
      "compression_loss": 93.54606628417969,
      "distillation_loss": 5.558565616607666,
      "epoch": 3.52,
      "learning_rate": 4.252661239824671e-05,
      "loss": 98.6507,
      "step": 4162,
      "task_loss": 3.4733760356903076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8793818977811886,
      "compression/movement_sparsity/importance_threshold": -0.0007828289583849905,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8643635232271338,
      "compression/movement_sparsity/model_sparsity": 0.8346699771110603,
      "compression_loss": 93.56746673583984,
      "distillation_loss": 3.870809555053711,
      "epoch": 3.52,
      "learning_rate": 4.252348152786475e-05,
      "loss": 98.4936,
      "step": 4163,
      "task_loss": 1.3660509586334229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8795879651094095,
      "compression/movement_sparsity/importance_threshold": -0.0007814915515700852,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8644974316296846,
      "compression/movement_sparsity/model_sparsity": 0.834799285348033,
      "compression_loss": 93.58876037597656,
      "distillation_loss": 4.448727130889893,
      "epoch": 3.52,
      "learning_rate": 4.252035065748278e-05,
      "loss": 98.2958,
      "step": 4164,
      "task_loss": 2.321833610534668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8797937976030938,
      "compression/movement_sparsity/importance_threshold": -0.0007801556688653453,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8646008022389199,
      "compression/movement_sparsity/model_sparsity": 0.8348991048588359,
      "compression_loss": 93.61000061035156,
      "distillation_loss": 5.199078559875488,
      "epoch": 3.52,
      "learning_rate": 4.251721978710082e-05,
      "loss": 97.8611,
      "step": 4165,
      "task_loss": 2.8805224895477295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8799993953961265,
      "compression/movement_sparsity/importance_threshold": -0.0007788213094018373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8647163354991437,
      "compression/movement_sparsity/model_sparsity": 0.8350106691961492,
      "compression_loss": 93.63125610351562,
      "distillation_loss": 2.873547077178955,
      "epoch": 3.52,
      "learning_rate": 4.251408891671885e-05,
      "loss": 98.0483,
      "step": 4166,
      "task_loss": 1.6935880184173584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.880204758622393,
      "compression/movement_sparsity/importance_threshold": -0.0007774884723106262,
      "compression/movement_sparsity/linear_layer_sparsity": 0.864861524164278,
      "compression/movement_sparsity/model_sparsity": 0.8351508701839835,
      "compression_loss": 93.6524887084961,
      "distillation_loss": 3.798163414001465,
      "epoch": 3.52,
      "learning_rate": 4.251095804633689e-05,
      "loss": 98.2718,
      "step": 4167,
      "task_loss": 3.1979613304138184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8804098874157782,
      "compression/movement_sparsity/importance_threshold": -0.0007761571567227784,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8650635672607001,
      "compression/movement_sparsity/model_sparsity": 0.8353459724784862,
      "compression_loss": 93.67366027832031,
      "distillation_loss": 4.858689785003662,
      "epoch": 3.52,
      "learning_rate": 4.250782717595492e-05,
      "loss": 98.2272,
      "step": 4168,
      "task_loss": 2.594836950302124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8806147819101673,
      "compression/movement_sparsity/importance_threshold": -0.0007748273617693606,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8652160773647628,
      "compression/movement_sparsity/model_sparsity": 0.8354932433912984,
      "compression_loss": 93.69483184814453,
      "distillation_loss": 5.8354692459106445,
      "epoch": 3.52,
      "learning_rate": 4.250469630557295e-05,
      "loss": 99.1996,
      "step": 4169,
      "task_loss": 2.575535535812378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8808194422394454,
      "compression/movement_sparsity/importance_threshold": -0.0007734990865814377,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8654702171495859,
      "compression/movement_sparsity/model_sparsity": 0.8357386526926874,
      "compression_loss": 93.71590423583984,
      "distillation_loss": 4.481653213500977,
      "epoch": 3.52,
      "learning_rate": 4.250156543519099e-05,
      "loss": 97.8881,
      "step": 4170,
      "task_loss": 2.3865818977355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8810238685374978,
      "compression/movement_sparsity/importance_threshold": -0.0007721723302900772,
      "compression/movement_sparsity/linear_layer_sparsity": 0.865538816885995,
      "compression/movement_sparsity/model_sparsity": 0.8358048958171135,
      "compression_loss": 93.73699951171875,
      "distillation_loss": 5.803676605224609,
      "epoch": 3.53,
      "learning_rate": 4.249843456480902e-05,
      "loss": 97.9774,
      "step": 4171,
      "task_loss": 3.938122510910034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8812280609382095,
      "compression/movement_sparsity/importance_threshold": -0.0007708470920263439,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8656201993301098,
      "compression/movement_sparsity/model_sparsity": 0.8358834825239112,
      "compression_loss": 93.75808715820312,
      "distillation_loss": 4.258127212524414,
      "epoch": 3.53,
      "learning_rate": 4.2495303694427054e-05,
      "loss": 98.4023,
      "step": 4172,
      "task_loss": 2.280576229095459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8814320195754657,
      "compression/movement_sparsity/importance_threshold": -0.0007695233709213035,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8657329304109392,
      "compression/movement_sparsity/model_sparsity": 0.8359923409453127,
      "compression_loss": 93.77914428710938,
      "distillation_loss": 2.964057445526123,
      "epoch": 3.53,
      "learning_rate": 4.2492172824045086e-05,
      "loss": 97.7902,
      "step": 4173,
      "task_loss": 2.550966262817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8816357445831514,
      "compression/movement_sparsity/importance_threshold": -0.0007682011661060244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8658894589594952,
      "compression/movement_sparsity/model_sparsity": 0.8361434922566877,
      "compression_loss": 93.80013275146484,
      "distillation_loss": 3.9454612731933594,
      "epoch": 3.53,
      "learning_rate": 4.2489041953663124e-05,
      "loss": 97.5605,
      "step": 4174,
      "task_loss": 3.309239149093628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8818392360951519,
      "compression/movement_sparsity/importance_threshold": -0.0007668804767115706,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8660358281172255,
      "compression/movement_sparsity/model_sparsity": 0.8362848331835657,
      "compression_loss": 93.82113647460938,
      "distillation_loss": 4.2325639724731445,
      "epoch": 3.53,
      "learning_rate": 4.2485911083281156e-05,
      "loss": 98.4594,
      "step": 4175,
      "task_loss": 1.371675729751587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8820424942453525,
      "compression/movement_sparsity/importance_threshold": -0.0007655613018690069,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8661480583830142,
      "compression/movement_sparsity/model_sparsity": 0.8363932079944639,
      "compression_loss": 93.84203338623047,
      "distillation_loss": 5.0167365074157715,
      "epoch": 3.53,
      "learning_rate": 4.248278021289919e-05,
      "loss": 98.5768,
      "step": 4176,
      "task_loss": 2.1303749084472656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8822455191676379,
      "compression/movement_sparsity/importance_threshold": -0.0007642436407094026,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8662644501833079,
      "compression/movement_sparsity/model_sparsity": 0.8365056013783544,
      "compression_loss": 93.86296081542969,
      "distillation_loss": 5.989990234375,
      "epoch": 3.53,
      "learning_rate": 4.247964934251722e-05,
      "loss": 99.2295,
      "step": 4177,
      "task_loss": 3.871608257293701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8824483109958936,
      "compression/movement_sparsity/importance_threshold": -0.0007629274923638225,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8663851108356151,
      "compression/movement_sparsity/model_sparsity": 0.8366221169660594,
      "compression_loss": 93.88387298583984,
      "distillation_loss": 5.651745319366455,
      "epoch": 3.53,
      "learning_rate": 4.247651847213526e-05,
      "loss": 98.215,
      "step": 4178,
      "task_loss": 2.777048349380493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8826508698640047,
      "compression/movement_sparsity/importance_threshold": -0.0007616128559633306,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8665617793033081,
      "compression/movement_sparsity/model_sparsity": 0.8367927163283913,
      "compression_loss": 93.90476989746094,
      "distillation_loss": 4.876517295837402,
      "epoch": 3.53,
      "learning_rate": 4.247338760175329e-05,
      "loss": 98.5171,
      "step": 4179,
      "task_loss": 2.8799307346343994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8828531959058562,
      "compression/movement_sparsity/importance_threshold": -0.0007602997306389954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8667469020058549,
      "compression/movement_sparsity/model_sparsity": 0.8369714794966016,
      "compression_loss": 93.92558288574219,
      "distillation_loss": 4.187796115875244,
      "epoch": 3.53,
      "learning_rate": 4.247025673137132e-05,
      "loss": 98.1601,
      "step": 4180,
      "task_loss": 1.7047861814498901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8830552892553332,
      "compression/movement_sparsity/importance_threshold": -0.0007589881155218832,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8669403716257468,
      "compression/movement_sparsity/model_sparsity": 0.8371583028398679,
      "compression_loss": 93.94644927978516,
      "distillation_loss": 3.629971981048584,
      "epoch": 3.53,
      "learning_rate": 4.246712586098936e-05,
      "loss": 98.4759,
      "step": 4181,
      "task_loss": 2.289292812347412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.883257150046321,
      "compression/movement_sparsity/importance_threshold": -0.0007576780097430583,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8670613661547478,
      "compression/movement_sparsity/model_sparsity": 0.8372751408345752,
      "compression_loss": 93.96725463867188,
      "distillation_loss": 3.423062801361084,
      "epoch": 3.53,
      "learning_rate": 4.246399499060739e-05,
      "loss": 98.2926,
      "step": 4182,
      "task_loss": 2.4275829792022705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8834587784127047,
      "compression/movement_sparsity/importance_threshold": -0.0007563694124335871,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8671106606637545,
      "compression/movement_sparsity/model_sparsity": 0.8373227419255498,
      "compression_loss": 93.98806762695312,
      "distillation_loss": 4.624020576477051,
      "epoch": 3.54,
      "learning_rate": 4.2460864120225424e-05,
      "loss": 98.9935,
      "step": 4183,
      "task_loss": 2.3174972534179688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8836601744883694,
      "compression/movement_sparsity/importance_threshold": -0.0007550623227245363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.867219099044235,
      "compression/movement_sparsity/model_sparsity": 0.8374274551140654,
      "compression_loss": 94.00885009765625,
      "distillation_loss": 5.177657604217529,
      "epoch": 3.54,
      "learning_rate": 4.2457733249843456e-05,
      "loss": 98.0999,
      "step": 4184,
      "task_loss": 2.3263072967529297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8838613384072003,
      "compression/movement_sparsity/importance_threshold": -0.0007537567397469724,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8672766570014133,
      "compression/movement_sparsity/model_sparsity": 0.8374830357783456,
      "compression_loss": 94.02959442138672,
      "distillation_loss": 3.9276442527770996,
      "epoch": 3.54,
      "learning_rate": 4.2454602379461494e-05,
      "loss": 97.5033,
      "step": 4185,
      "task_loss": 1.3782191276550293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8840622703030825,
      "compression/movement_sparsity/importance_threshold": -0.0007524526626319595,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8673598042223383,
      "compression/movement_sparsity/model_sparsity": 0.837563326636441,
      "compression_loss": 94.05027770996094,
      "distillation_loss": 3.985206127166748,
      "epoch": 3.54,
      "learning_rate": 4.2451471509079526e-05,
      "loss": 97.9413,
      "step": 4186,
      "task_loss": 2.3731460571289062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8842629703099012,
      "compression/movement_sparsity/importance_threshold": -0.0007511500905105651,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8676148621680694,
      "compression/movement_sparsity/model_sparsity": 0.8378096225570861,
      "compression_loss": 94.07096099853516,
      "distillation_loss": 4.002029895782471,
      "epoch": 3.54,
      "learning_rate": 4.244834063869756e-05,
      "loss": 98.2584,
      "step": 4187,
      "task_loss": 2.047499895095825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8844634385615413,
      "compression/movement_sparsity/importance_threshold": -0.0007498490225138557,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8677180777631254,
      "compression/movement_sparsity/model_sparsity": 0.8379092923789238,
      "compression_loss": 94.09156799316406,
      "distillation_loss": 4.830759525299072,
      "epoch": 3.54,
      "learning_rate": 4.244520976831559e-05,
      "loss": 97.9436,
      "step": 4188,
      "task_loss": 3.3426737785339355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8846636751918884,
      "compression/movement_sparsity/importance_threshold": -0.0007485494577728954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8677834222017698,
      "compression/movement_sparsity/model_sparsity": 0.8379723920350778,
      "compression_loss": 94.11215209960938,
      "distillation_loss": 4.567653656005859,
      "epoch": 3.54,
      "learning_rate": 4.244207889793363e-05,
      "loss": 98.3078,
      "step": 4189,
      "task_loss": 2.5932061672210693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8848636803348271,
      "compression/movement_sparsity/importance_threshold": -0.0007472513954187533,
      "compression/movement_sparsity/linear_layer_sparsity": 0.867857065861089,
      "compression/movement_sparsity/model_sparsity": 0.8380435058081449,
      "compression_loss": 94.13275146484375,
      "distillation_loss": 6.563697814941406,
      "epoch": 3.54,
      "learning_rate": 4.243894802755166e-05,
      "loss": 98.7008,
      "step": 4190,
      "task_loss": 2.69981050491333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.885063454124243,
      "compression/movement_sparsity/importance_threshold": -0.0007459548345824917,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8679094248811781,
      "compression/movement_sparsity/model_sparsity": 0.8380940661348187,
      "compression_loss": 94.1533432006836,
      "distillation_loss": 3.8421883583068848,
      "epoch": 3.54,
      "learning_rate": 4.243581715716969e-05,
      "loss": 97.8713,
      "step": 4191,
      "task_loss": 2.514564037322998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.885262996694021,
      "compression/movement_sparsity/importance_threshold": -0.000744659774395179,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8680501419834489,
      "compression/movement_sparsity/model_sparsity": 0.8382299491717301,
      "compression_loss": 94.17388916015625,
      "distillation_loss": 4.21470832824707,
      "epoch": 3.54,
      "learning_rate": 4.243268628678773e-05,
      "loss": 98.2616,
      "step": 4192,
      "task_loss": 2.7609574794769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8854623081780463,
      "compression/movement_sparsity/importance_threshold": -0.0007433662139878809,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8681219970176226,
      "compression/movement_sparsity/model_sparsity": 0.8382993357644279,
      "compression_loss": 94.19444274902344,
      "distillation_loss": 4.016214370727539,
      "epoch": 3.54,
      "learning_rate": 4.242955541640576e-05,
      "loss": 98.1677,
      "step": 4193,
      "task_loss": 3.0983102321624756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8856613887102041,
      "compression/movement_sparsity/importance_threshold": -0.0007420741524916631,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8682213491823646,
      "compression/movement_sparsity/model_sparsity": 0.8383952748766681,
      "compression_loss": 94.21493530273438,
      "distillation_loss": 4.535147666931152,
      "epoch": 3.54,
      "learning_rate": 4.2426424546023794e-05,
      "loss": 97.7714,
      "step": 4194,
      "task_loss": 2.214716911315918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8858602384243793,
      "compression/movement_sparsity/importance_threshold": -0.0007407835890375922,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8684066745957612,
      "compression/movement_sparsity/model_sparsity": 0.8385742337919868,
      "compression_loss": 94.23543548583984,
      "distillation_loss": 4.787393093109131,
      "epoch": 3.55,
      "learning_rate": 4.2423293675641826e-05,
      "loss": 98.8307,
      "step": 4195,
      "task_loss": 2.940798759460449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8860588574544573,
      "compression/movement_sparsity/importance_threshold": -0.000739494522756734,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8686316001698765,
      "compression/movement_sparsity/model_sparsity": 0.8387914324806792,
      "compression_loss": 94.25587463378906,
      "distillation_loss": 5.206434726715088,
      "epoch": 3.55,
      "learning_rate": 4.2420162805259864e-05,
      "loss": 98.2159,
      "step": 4196,
      "task_loss": 2.001887559890747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8862572459343231,
      "compression/movement_sparsity/importance_threshold": -0.000738206952780155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8687661167049766,
      "compression/movement_sparsity/model_sparsity": 0.8389213279589774,
      "compression_loss": 94.2763671875,
      "distillation_loss": 4.382089138031006,
      "epoch": 3.55,
      "learning_rate": 4.2417031934877896e-05,
      "loss": 98.9836,
      "step": 4197,
      "task_loss": 2.7618191242218018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.886455403997862,
      "compression/movement_sparsity/importance_threshold": -0.0007369208782389194,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8689941664110125,
      "compression/movement_sparsity/model_sparsity": 0.8391415434560481,
      "compression_loss": 94.29670715332031,
      "distillation_loss": 4.3732147216796875,
      "epoch": 3.55,
      "learning_rate": 4.241390106449593e-05,
      "loss": 98.3263,
      "step": 4198,
      "task_loss": 2.3392751216888428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.886653331778959,
      "compression/movement_sparsity/importance_threshold": -0.0007356362982640953,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8690269101753406,
      "compression/movement_sparsity/model_sparsity": 0.8391731623713399,
      "compression_loss": 94.31715393066406,
      "distillation_loss": 3.3628578186035156,
      "epoch": 3.55,
      "learning_rate": 4.2410770194113966e-05,
      "loss": 97.5501,
      "step": 4199,
      "task_loss": 2.1115500926971436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8868510294114992,
      "compression/movement_sparsity/importance_threshold": -0.0007343532119867477,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8690968215701896,
      "compression/movement_sparsity/model_sparsity": 0.8392406720947033,
      "compression_loss": 94.3375015258789,
      "distillation_loss": 4.563915252685547,
      "epoch": 3.55,
      "learning_rate": 4.2407639323732e-05,
      "loss": 98.4079,
      "step": 4200,
      "task_loss": 2.5452628135681152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8870484970293679,
      "compression/movement_sparsity/importance_threshold": -0.0007330716185379423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8691690462535601,
      "compression/movement_sparsity/model_sparsity": 0.8393104156380108,
      "compression_loss": 94.35790252685547,
      "distillation_loss": 3.1495747566223145,
      "epoch": 3.55,
      "learning_rate": 4.240450845335004e-05,
      "loss": 97.5953,
      "step": 4201,
      "task_loss": 1.150204062461853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8872457347664502,
      "compression/movement_sparsity/importance_threshold": -0.0007317915170487466,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8692810261118284,
      "compression/movement_sparsity/model_sparsity": 0.8394185486436574,
      "compression_loss": 94.37821960449219,
      "distillation_loss": 4.087366580963135,
      "epoch": 3.55,
      "learning_rate": 4.240137758296807e-05,
      "loss": 98.6456,
      "step": 4202,
      "task_loss": 2.0196874141693115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8874427427566312,
      "compression/movement_sparsity/importance_threshold": -0.0007305129066502245,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8693519510609266,
      "compression/movement_sparsity/model_sparsity": 0.8394870371025632,
      "compression_loss": 94.39851379394531,
      "distillation_loss": 3.3342602252960205,
      "epoch": 3.55,
      "learning_rate": 4.23982467125861e-05,
      "loss": 98.7869,
      "step": 4203,
      "task_loss": 1.6899839639663696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8876395211337959,
      "compression/movement_sparsity/importance_threshold": -0.0007292357864734453,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8693222241110103,
      "compression/movement_sparsity/model_sparsity": 0.8394583313648275,
      "compression_loss": 94.41873931884766,
      "distillation_loss": 3.2703371047973633,
      "epoch": 3.55,
      "learning_rate": 4.239511584220414e-05,
      "loss": 98.9999,
      "step": 4204,
      "task_loss": 1.34869384765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8878360700318296,
      "compression/movement_sparsity/importance_threshold": -0.0007279601556494713,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8694648371559353,
      "compression/movement_sparsity/model_sparsity": 0.8395960452129302,
      "compression_loss": 94.43889617919922,
      "distillation_loss": 4.736468315124512,
      "epoch": 3.55,
      "learning_rate": 4.239198497182217e-05,
      "loss": 98.7716,
      "step": 4205,
      "task_loss": 2.568250894546509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8880323895846174,
      "compression/movement_sparsity/importance_threshold": -0.0007266860133093717,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8695563909150434,
      "compression/movement_sparsity/model_sparsity": 0.8396844538187607,
      "compression_loss": 94.4591064453125,
      "distillation_loss": 6.3802924156188965,
      "epoch": 3.56,
      "learning_rate": 4.23888541014402e-05,
      "loss": 99.0884,
      "step": 4206,
      "task_loss": 3.1927547454833984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8882284799260447,
      "compression/movement_sparsity/importance_threshold": -0.0007254133585842095,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8696111705411627,
      "compression/movement_sparsity/model_sparsity": 0.8397373515962008,
      "compression_loss": 94.47926330566406,
      "distillation_loss": 3.7260985374450684,
      "epoch": 3.56,
      "learning_rate": 4.238572323105824e-05,
      "loss": 98.5537,
      "step": 4207,
      "task_loss": 2.740185022354126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8884243411899961,
      "compression/movement_sparsity/importance_threshold": -0.000724142190605054,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8698736572433309,
      "compression/movement_sparsity/model_sparsity": 0.839990821072646,
      "compression_loss": 94.4993667602539,
      "distillation_loss": 4.156186103820801,
      "epoch": 3.56,
      "learning_rate": 4.238259236067627e-05,
      "loss": 99.0174,
      "step": 4208,
      "task_loss": 1.7430082559585571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8886199735103572,
      "compression/movement_sparsity/importance_threshold": -0.0007228725085029692,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8698931651815831,
      "compression/movement_sparsity/model_sparsity": 0.8400096588532059,
      "compression_loss": 94.51949310302734,
      "distillation_loss": 4.2899932861328125,
      "epoch": 3.56,
      "learning_rate": 4.2379461490294305e-05,
      "loss": 98.7711,
      "step": 4209,
      "task_loss": 2.7840726375579834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.888815377021013,
      "compression/movement_sparsity/importance_threshold": -0.0007216043114090208,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8701024700960954,
      "compression/movement_sparsity/model_sparsity": 0.8402117735000074,
      "compression_loss": 94.53947448730469,
      "distillation_loss": 5.421545028686523,
      "epoch": 3.56,
      "learning_rate": 4.2376330619912336e-05,
      "loss": 99.2321,
      "step": 4210,
      "task_loss": 2.176476001739502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8890105518558485,
      "compression/movement_sparsity/importance_threshold": -0.0007203375984542763,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8701982450105467,
      "compression/movement_sparsity/model_sparsity": 0.8403042582515092,
      "compression_loss": 94.55961608886719,
      "distillation_loss": 4.2160325050354,
      "epoch": 3.56,
      "learning_rate": 4.2373199749530375e-05,
      "loss": 99.0586,
      "step": 4211,
      "task_loss": 2.75895094871521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.889205498148749,
      "compression/movement_sparsity/importance_threshold": -0.0007190723687698006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8702901445705162,
      "compression/movement_sparsity/model_sparsity": 0.8403930007788778,
      "compression_loss": 94.57967376708984,
      "distillation_loss": 5.219080448150635,
      "epoch": 3.56,
      "learning_rate": 4.237006887914841e-05,
      "loss": 99.2762,
      "step": 4212,
      "task_loss": 2.924978733062744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8894002160335998,
      "compression/movement_sparsity/importance_threshold": -0.0007178086214866602,
      "compression/movement_sparsity/linear_layer_sparsity": 0.870343397903178,
      "compression/movement_sparsity/model_sparsity": 0.8404444246957362,
      "compression_loss": 94.59969329833984,
      "distillation_loss": 4.988447189331055,
      "epoch": 3.56,
      "learning_rate": 4.236693800876644e-05,
      "loss": 98.4466,
      "step": 4213,
      "task_loss": 2.0805063247680664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8895947056442857,
      "compression/movement_sparsity/importance_threshold": -0.000716546355735921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.870486010948103,
      "compression/movement_sparsity/model_sparsity": 0.8405821385438389,
      "compression_loss": 94.6197280883789,
      "distillation_loss": 3.6388604640960693,
      "epoch": 3.56,
      "learning_rate": 4.236380713838447e-05,
      "loss": 98.3272,
      "step": 4214,
      "task_loss": 1.9653489589691162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8897889671146918,
      "compression/movement_sparsity/importance_threshold": -0.0007152855706486503,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8705604654508213,
      "compression/movement_sparsity/model_sparsity": 0.84065403530534,
      "compression_loss": 94.63971710205078,
      "distillation_loss": 5.854382514953613,
      "epoch": 3.56,
      "learning_rate": 4.236067626800251e-05,
      "loss": 100.2742,
      "step": 4215,
      "task_loss": 3.101517677307129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8899830005787037,
      "compression/movement_sparsity/importance_threshold": -0.0007140262653559113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8706451747377064,
      "compression/movement_sparsity/model_sparsity": 0.8407358345676244,
      "compression_loss": 94.6596450805664,
      "distillation_loss": 4.377721786499023,
      "epoch": 3.56,
      "learning_rate": 4.235754539762054e-05,
      "loss": 98.9067,
      "step": 4216,
      "task_loss": 1.837020754814148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8901768061702062,
      "compression/movement_sparsity/importance_threshold": -0.0007127684389887723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8707346775399812,
      "compression/movement_sparsity/model_sparsity": 0.8408222626732982,
      "compression_loss": 94.67961883544922,
      "distillation_loss": 3.4774153232574463,
      "epoch": 3.56,
      "learning_rate": 4.235441452723857e-05,
      "loss": 99.0772,
      "step": 4217,
      "task_loss": 1.8395946025848389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8903703840230844,
      "compression/movement_sparsity/importance_threshold": -0.0007115120906782992,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8708690867575727,
      "compression/movement_sparsity/model_sparsity": 0.8409520545207743,
      "compression_loss": 94.6995849609375,
      "distillation_loss": 4.786406517028809,
      "epoch": 3.57,
      "learning_rate": 4.235128365685661e-05,
      "loss": 98.8186,
      "step": 4218,
      "task_loss": 2.3761820793151855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8905637342712236,
      "compression/movement_sparsity/importance_threshold": -0.0007102572195555584,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8709123476377556,
      "compression/movement_sparsity/model_sparsity": 0.8409938292566369,
      "compression_loss": 94.71945190429688,
      "distillation_loss": 4.231045246124268,
      "epoch": 3.57,
      "learning_rate": 4.234815278647464e-05,
      "loss": 98.6858,
      "step": 4219,
      "task_loss": 2.6288633346557617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.890756857048509,
      "compression/movement_sparsity/importance_threshold": -0.0007090038247516131,
      "compression/movement_sparsity/linear_layer_sparsity": 0.871037849502123,
      "compression/movement_sparsity/model_sparsity": 0.8411150197458744,
      "compression_loss": 94.73941040039062,
      "distillation_loss": 4.326460838317871,
      "epoch": 3.57,
      "learning_rate": 4.2345021916092674e-05,
      "loss": 98.9023,
      "step": 4220,
      "task_loss": 3.789217472076416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8909497524888255,
      "compression/movement_sparsity/importance_threshold": -0.0007077519053975325,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8711209132538745,
      "compression/movement_sparsity/model_sparsity": 0.8411952300022192,
      "compression_loss": 94.75926971435547,
      "distillation_loss": 4.314831733703613,
      "epoch": 3.57,
      "learning_rate": 4.2341891045710706e-05,
      "loss": 98.8602,
      "step": 4221,
      "task_loss": 1.4241604804992676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8911424207260584,
      "compression/movement_sparsity/importance_threshold": -0.0007065014606243815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8713319948693645,
      "compression/movement_sparsity/model_sparsity": 0.8413990603148541,
      "compression_loss": 94.77913665771484,
      "distillation_loss": 5.600088596343994,
      "epoch": 3.57,
      "learning_rate": 4.2338760175328745e-05,
      "loss": 99.2629,
      "step": 4222,
      "task_loss": 4.008947372436523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8913348618940928,
      "compression/movement_sparsity/importance_threshold": -0.0007052524895632259,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8715167836952176,
      "compression/movement_sparsity/model_sparsity": 0.8415775010760621,
      "compression_loss": 94.79889678955078,
      "distillation_loss": 4.9017720222473145,
      "epoch": 3.57,
      "learning_rate": 4.2335629304946777e-05,
      "loss": 98.8645,
      "step": 4223,
      "task_loss": 2.2575430870056152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8915270761268139,
      "compression/movement_sparsity/importance_threshold": -0.0007040049913451321,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8716331874196788,
      "compression/movement_sparsity/model_sparsity": 0.8416899059744885,
      "compression_loss": 94.81874084472656,
      "distillation_loss": 3.5778300762176514,
      "epoch": 3.57,
      "learning_rate": 4.233249843456481e-05,
      "loss": 98.9852,
      "step": 4224,
      "task_loss": 3.6111669540405273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8917190635581068,
      "compression/movement_sparsity/importance_threshold": -0.000702758965101166,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8716816591611186,
      "compression/movement_sparsity/model_sparsity": 0.8417367125624933,
      "compression_loss": 94.83851623535156,
      "distillation_loss": 4.181059837341309,
      "epoch": 3.57,
      "learning_rate": 4.232936756418284e-05,
      "loss": 98.9759,
      "step": 4225,
      "task_loss": 1.8065448999404907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8919108243218565,
      "compression/movement_sparsity/importance_threshold": -0.0007015144099623951,
      "compression/movement_sparsity/linear_layer_sparsity": 0.871875176477681,
      "compression/movement_sparsity/model_sparsity": 0.8419235819639028,
      "compression_loss": 94.8582763671875,
      "distillation_loss": 3.250277519226074,
      "epoch": 3.57,
      "learning_rate": 4.232623669380088e-05,
      "loss": 99.1162,
      "step": 4226,
      "task_loss": 1.7003093957901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8921023585519484,
      "compression/movement_sparsity/importance_threshold": -0.0007002713250598824,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8721208381793151,
      "compression/movement_sparsity/model_sparsity": 0.842160804430342,
      "compression_loss": 94.87804412841797,
      "distillation_loss": 2.4833147525787354,
      "epoch": 3.57,
      "learning_rate": 4.232310582341891e-05,
      "loss": 98.5236,
      "step": 4227,
      "task_loss": 2.234248161315918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8922936663822675,
      "compression/movement_sparsity/importance_threshold": -0.0006990297095246963,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8721170462940069,
      "compression/movement_sparsity/model_sparsity": 0.8421571428079594,
      "compression_loss": 94.89771270751953,
      "distillation_loss": 3.9419474601745605,
      "epoch": 3.57,
      "learning_rate": 4.231997495303694e-05,
      "loss": 99.0077,
      "step": 4228,
      "task_loss": 2.0434229373931885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.892484747946699,
      "compression/movement_sparsity/importance_threshold": -0.0006977895624879016,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8722984844287541,
      "compression/movement_sparsity/model_sparsity": 0.8423323479846091,
      "compression_loss": 94.91739654541016,
      "distillation_loss": 4.4911298751831055,
      "epoch": 3.57,
      "learning_rate": 4.231684408265498e-05,
      "loss": 100.2808,
      "step": 4229,
      "task_loss": 3.301196813583374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8926756033791279,
      "compression/movement_sparsity/importance_threshold": -0.000696550883080565,
      "compression/movement_sparsity/linear_layer_sparsity": 0.872391457163811,
      "compression/movement_sparsity/model_sparsity": 0.8424221268201991,
      "compression_loss": 94.93704223632812,
      "distillation_loss": 7.502285480499268,
      "epoch": 3.58,
      "learning_rate": 4.231371321227301e-05,
      "loss": 100.6315,
      "step": 4230,
      "task_loss": 3.50606107711792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8928662328134394,
      "compression/movement_sparsity/importance_threshold": -0.0006953136704337531,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8725465905847536,
      "compression/movement_sparsity/model_sparsity": 0.8425719309308861,
      "compression_loss": 94.95665740966797,
      "distillation_loss": 5.347997188568115,
      "epoch": 3.58,
      "learning_rate": 4.2310582341891044e-05,
      "loss": 99.0435,
      "step": 4231,
      "task_loss": 2.7755720615386963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8930566363835187,
      "compression/movement_sparsity/importance_threshold": -0.0006940779236785299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8725784281123413,
      "compression/movement_sparsity/model_sparsity": 0.8426026747414576,
      "compression_loss": 94.97626495361328,
      "distillation_loss": 3.824765205383301,
      "epoch": 3.58,
      "learning_rate": 4.230745147150908e-05,
      "loss": 98.7943,
      "step": 4232,
      "task_loss": 2.3735692501068115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.893246814223251,
      "compression/movement_sparsity/importance_threshold": -0.0006928436419459637,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8728408432695037,
      "compression/movement_sparsity/model_sparsity": 0.8428560751306879,
      "compression_loss": 94.99581909179688,
      "distillation_loss": 4.5444655418396,
      "epoch": 3.58,
      "learning_rate": 4.2304320601127115e-05,
      "loss": 98.6556,
      "step": 4233,
      "task_loss": 1.9033831357955933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8934367664665213,
      "compression/movement_sparsity/importance_threshold": -0.0006916108243671193,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8729487212141054,
      "compression/movement_sparsity/model_sparsity": 0.8429602471360211,
      "compression_loss": 95.01527404785156,
      "distillation_loss": 3.109889030456543,
      "epoch": 3.58,
      "learning_rate": 4.2301189730745147e-05,
      "loss": 98.5796,
      "step": 4234,
      "task_loss": 2.2830705642700195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8936264932472149,
      "compression/movement_sparsity/importance_threshold": -0.0006903794700730626,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8730449611710944,
      "compression/movement_sparsity/model_sparsity": 0.843053180954419,
      "compression_loss": 95.0347671508789,
      "distillation_loss": 4.337301731109619,
      "epoch": 3.58,
      "learning_rate": 4.2298058860363185e-05,
      "loss": 99.22,
      "step": 4235,
      "task_loss": 1.7756757736206055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8938159946992167,
      "compression/movement_sparsity/importance_threshold": -0.0006891495781948609,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8730919543157474,
      "compression/movement_sparsity/model_sparsity": 0.8430985597399852,
      "compression_loss": 95.05423736572266,
      "distillation_loss": 4.002547264099121,
      "epoch": 3.58,
      "learning_rate": 4.229492798998122e-05,
      "loss": 98.3891,
      "step": 4236,
      "task_loss": 2.238006591796875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8940052709564119,
      "compression/movement_sparsity/importance_threshold": -0.0006879211478635801,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8732017997480089,
      "compression/movement_sparsity/model_sparsity": 0.8432046316437245,
      "compression_loss": 95.07366180419922,
      "distillation_loss": 3.947044849395752,
      "epoch": 3.58,
      "learning_rate": 4.2291797119599255e-05,
      "loss": 99.6132,
      "step": 4237,
      "task_loss": 2.079326629638672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.894194322152686,
      "compression/movement_sparsity/importance_threshold": -0.0006866941782102832,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8732818347611808,
      "compression/movement_sparsity/model_sparsity": 0.8432819172079775,
      "compression_loss": 95.0931167602539,
      "distillation_loss": 4.516515731811523,
      "epoch": 3.58,
      "learning_rate": 4.228866624921729e-05,
      "loss": 100.0127,
      "step": 4238,
      "task_loss": 2.4280455112457275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8943831484219236,
      "compression/movement_sparsity/importance_threshold": -0.0006854686683660412,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8734966844136438,
      "compression/movement_sparsity/model_sparsity": 0.8434893861139235,
      "compression_loss": 95.11249542236328,
      "distillation_loss": 5.244489669799805,
      "epoch": 3.58,
      "learning_rate": 4.228553537883532e-05,
      "loss": 99.8337,
      "step": 4239,
      "task_loss": 3.298401355743408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8945717498980102,
      "compression/movement_sparsity/importance_threshold": -0.0006842446174619163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8736769897524658,
      "compression/movement_sparsity/model_sparsity": 0.8436634974096727,
      "compression_loss": 95.13185119628906,
      "distillation_loss": 5.794568061828613,
      "epoch": 3.58,
      "learning_rate": 4.228240450845335e-05,
      "loss": 99.9091,
      "step": 4240,
      "task_loss": 2.981325149536133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8947601267148309,
      "compression/movement_sparsity/importance_threshold": -0.0006830220246289761,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8737469249956501,
      "compression/movement_sparsity/model_sparsity": 0.8437310301621077,
      "compression_loss": 95.15123748779297,
      "distillation_loss": 6.471809387207031,
      "epoch": 3.58,
      "learning_rate": 4.227927363807139e-05,
      "loss": 100.0468,
      "step": 4241,
      "task_loss": 2.978362798690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8949482790062707,
      "compression/movement_sparsity/importance_threshold": -0.0006818008889982862,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8738727965092142,
      "compression/movement_sparsity/model_sparsity": 0.8438525776019549,
      "compression_loss": 95.17060089111328,
      "distillation_loss": 2.8722105026245117,
      "epoch": 3.59,
      "learning_rate": 4.227614276768942e-05,
      "loss": 98.906,
      "step": 4242,
      "task_loss": 2.188713312149048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8951362069062149,
      "compression/movement_sparsity/importance_threshold": -0.0006805812097009124,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8740024122114161,
      "compression/movement_sparsity/model_sparsity": 0.8439777406060416,
      "compression_loss": 95.18988800048828,
      "distillation_loss": 4.292150974273682,
      "epoch": 3.59,
      "learning_rate": 4.227301189730745e-05,
      "loss": 98.7298,
      "step": 4243,
      "task_loss": 2.535756826400757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8953239105485484,
      "compression/movement_sparsity/importance_threshold": -0.0006793629858679222,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8741046142522231,
      "compression/movement_sparsity/model_sparsity": 0.8440764316923366,
      "compression_loss": 95.20917510986328,
      "distillation_loss": 5.109033107757568,
      "epoch": 3.59,
      "learning_rate": 4.226988102692549e-05,
      "loss": 99.7878,
      "step": 4244,
      "task_loss": 3.763249397277832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8955113900671567,
      "compression/movement_sparsity/importance_threshold": -0.0006781462166303787,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8740179613260133,
      "compression/movement_sparsity/model_sparsity": 0.8439927555607176,
      "compression_loss": 95.22847747802734,
      "distillation_loss": 4.236199378967285,
      "epoch": 3.59,
      "learning_rate": 4.226675015654352e-05,
      "loss": 99.6629,
      "step": 4245,
      "task_loss": 1.418630599975586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8956986455959246,
      "compression/movement_sparsity/importance_threshold": -0.000676930901119352,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8741944509311916,
      "compression/movement_sparsity/model_sparsity": 0.8441631822050126,
      "compression_loss": 95.24777221679688,
      "distillation_loss": 3.3401546478271484,
      "epoch": 3.59,
      "learning_rate": 4.2263619286161555e-05,
      "loss": 99.2683,
      "step": 4246,
      "task_loss": 1.8901971578598022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8958856772687375,
      "compression/movement_sparsity/importance_threshold": -0.0006757170384659042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8742749509869013,
      "compression/movement_sparsity/model_sparsity": 0.8442409168361616,
      "compression_loss": 95.26702117919922,
      "distillation_loss": 5.532265663146973,
      "epoch": 3.59,
      "learning_rate": 4.226048841577959e-05,
      "loss": 99.3145,
      "step": 4247,
      "task_loss": 2.4358460903167725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8960724852194804,
      "compression/movement_sparsity/importance_threshold": -0.0006745046278011039,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8743380417578627,
      "compression/movement_sparsity/model_sparsity": 0.8443018402450505,
      "compression_loss": 95.28620910644531,
      "distillation_loss": 3.498074531555176,
      "epoch": 3.59,
      "learning_rate": 4.2257357545397625e-05,
      "loss": 99.1673,
      "step": 4248,
      "task_loss": 2.3442530632019043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8962590695820384,
      "compression/movement_sparsity/importance_threshold": -0.0006732936682560167,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8744873442608313,
      "compression/movement_sparsity/model_sparsity": 0.844446013747734,
      "compression_loss": 95.305419921875,
      "distillation_loss": 4.48541259765625,
      "epoch": 3.59,
      "learning_rate": 4.225422667501566e-05,
      "loss": 99.6713,
      "step": 4249,
      "task_loss": 2.7768728733062744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8964454304902967,
      "compression/movement_sparsity/importance_threshold": -0.0006720841589617074,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8745668665347949,
      "compression/movement_sparsity/model_sparsity": 0.8445228041869477,
      "compression_loss": 95.3246078491211,
      "distillation_loss": 3.3717703819274902,
      "epoch": 3.59,
      "learning_rate": 4.225109580463369e-05,
      "loss": 99.6287,
      "step": 4250,
      "task_loss": 1.3389135599136353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8966315680781406,
      "compression/movement_sparsity/importance_threshold": -0.0006708760990492427,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8746145393570031,
      "compression/movement_sparsity/model_sparsity": 0.8445688393010543,
      "compression_loss": 95.34375762939453,
      "distillation_loss": 4.368921756744385,
      "epoch": 3.59,
      "learning_rate": 4.224796493425172e-05,
      "loss": 99.6413,
      "step": 4251,
      "task_loss": 2.3847756385803223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8968174824794549,
      "compression/movement_sparsity/importance_threshold": -0.0006696694876496901,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8747701974413217,
      "compression/movement_sparsity/model_sparsity": 0.8447191500513163,
      "compression_loss": 95.36289978027344,
      "distillation_loss": 4.249969959259033,
      "epoch": 3.59,
      "learning_rate": 4.224483406386976e-05,
      "loss": 99.6254,
      "step": 4252,
      "task_loss": 2.729175567626953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.897003173828125,
      "compression/movement_sparsity/importance_threshold": -0.0006684643238941135,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8748233673048099,
      "compression/movement_sparsity/model_sparsity": 0.8447704933664241,
      "compression_loss": 95.38201141357422,
      "distillation_loss": 4.773062705993652,
      "epoch": 3.59,
      "learning_rate": 4.224170319348779e-05,
      "loss": 99.4387,
      "step": 4253,
      "task_loss": 5.511834621429443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.897188642258036,
      "compression/movement_sparsity/importance_threshold": -0.0006672606069135804,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8749570849206785,
      "compression/movement_sparsity/model_sparsity": 0.8448996173708241,
      "compression_loss": 95.40106964111328,
      "distillation_loss": 2.5988430976867676,
      "epoch": 3.6,
      "learning_rate": 4.223857232310582e-05,
      "loss": 99.4857,
      "step": 4254,
      "task_loss": 0.7499180436134338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8973738879030729,
      "compression/movement_sparsity/importance_threshold": -0.0006660583358391557,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8750574744880049,
      "compression/movement_sparsity/model_sparsity": 0.8449965582476784,
      "compression_loss": 95.42012786865234,
      "distillation_loss": 3.3703951835632324,
      "epoch": 3.6,
      "learning_rate": 4.223544145272386e-05,
      "loss": 99.8327,
      "step": 4255,
      "task_loss": 1.4295319318771362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8975589108971211,
      "compression/movement_sparsity/importance_threshold": -0.000664857509801906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8751336102983599,
      "compression/movement_sparsity/model_sparsity": 0.8450700785587265,
      "compression_loss": 95.43910217285156,
      "distillation_loss": 4.3338117599487305,
      "epoch": 3.6,
      "learning_rate": 4.223231058234189e-05,
      "loss": 99.2037,
      "step": 4256,
      "task_loss": 2.954158306121826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8977437113740656,
      "compression/movement_sparsity/importance_threshold": -0.000663658127932897,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8751822251298113,
      "compression/movement_sparsity/model_sparsity": 0.8451170233211608,
      "compression_loss": 95.45804595947266,
      "distillation_loss": 4.749607086181641,
      "epoch": 3.6,
      "learning_rate": 4.2229179711959925e-05,
      "loss": 100.274,
      "step": 4257,
      "task_loss": 2.6497347354888916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8979282894677915,
      "compression/movement_sparsity/importance_threshold": -0.0006624601893631954,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8753075362074966,
      "compression/movement_sparsity/model_sparsity": 0.8452380295778257,
      "compression_loss": 95.47696685791016,
      "distillation_loss": 5.478824138641357,
      "epoch": 3.6,
      "learning_rate": 4.222604884157796e-05,
      "loss": 100.3019,
      "step": 4258,
      "task_loss": 2.544741153717041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8981126453121838,
      "compression/movement_sparsity/importance_threshold": -0.0006612636932238677,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8754911206924183,
      "compression/movement_sparsity/model_sparsity": 0.8454153073709184,
      "compression_loss": 95.49594116210938,
      "distillation_loss": 3.3852338790893555,
      "epoch": 3.6,
      "learning_rate": 4.2222917971195995e-05,
      "loss": 99.4357,
      "step": 4259,
      "task_loss": 2.119915246963501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.898296779041128,
      "compression/movement_sparsity/importance_threshold": -0.0006600686386459779,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8754947694877149,
      "compression/movement_sparsity/model_sparsity": 0.8454188308188715,
      "compression_loss": 95.5147933959961,
      "distillation_loss": 2.999950408935547,
      "epoch": 3.6,
      "learning_rate": 4.221978710081403e-05,
      "loss": 99.8205,
      "step": 4260,
      "task_loss": 2.178978443145752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.898480690788509,
      "compression/movement_sparsity/importance_threshold": -0.0006588750247605944,
      "compression/movement_sparsity/linear_layer_sparsity": 0.875637668712663,
      "compression/movement_sparsity/model_sparsity": 0.8455568210158333,
      "compression_loss": 95.53369140625,
      "distillation_loss": 3.670858860015869,
      "epoch": 3.6,
      "learning_rate": 4.221665623043206e-05,
      "loss": 99.9322,
      "step": 4261,
      "task_loss": 2.033389091491699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.898664380688212,
      "compression/movement_sparsity/importance_threshold": -0.000657682850698782,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8757606188051564,
      "compression/movement_sparsity/model_sparsity": 0.8456755473944109,
      "compression_loss": 95.5525894165039,
      "distillation_loss": 4.820476531982422,
      "epoch": 3.6,
      "learning_rate": 4.221352536005009e-05,
      "loss": 99.5578,
      "step": 4262,
      "task_loss": 2.1456522941589355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8988478488741221,
      "compression/movement_sparsity/importance_threshold": -0.0006564921155916064,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8758923927817004,
      "compression/movement_sparsity/model_sparsity": 0.8458027945294763,
      "compression_loss": 95.57147216796875,
      "distillation_loss": 3.805536985397339,
      "epoch": 3.6,
      "learning_rate": 4.221039448966813e-05,
      "loss": 100.1049,
      "step": 4263,
      "task_loss": 2.066575527191162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8990310954801245,
      "compression/movement_sparsity/importance_threshold": -0.0006553028185701344,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8759947259883514,
      "compression/movement_sparsity/model_sparsity": 0.8459016122756651,
      "compression_loss": 95.59026336669922,
      "distillation_loss": 4.488194465637207,
      "epoch": 3.6,
      "learning_rate": 4.220726361928616e-05,
      "loss": 99.9044,
      "step": 4264,
      "task_loss": 1.6095024347305298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8992141206401043,
      "compression/movement_sparsity/importance_threshold": -0.0006541149587654315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8760412302421312,
      "compression/movement_sparsity/model_sparsity": 0.8459465189652637,
      "compression_loss": 95.60910034179688,
      "distillation_loss": 5.335603713989258,
      "epoch": 3.6,
      "learning_rate": 4.220413274890419e-05,
      "loss": 100.6506,
      "step": 4265,
      "task_loss": 2.5768790245056152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8993969244879467,
      "compression/movement_sparsity/importance_threshold": -0.0006529285353085645,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8761004098861079,
      "compression/movement_sparsity/model_sparsity": 0.846003665606412,
      "compression_loss": 95.62785339355469,
      "distillation_loss": 3.387989044189453,
      "epoch": 3.61,
      "learning_rate": 4.220100187852223e-05,
      "loss": 99.4938,
      "step": 4266,
      "task_loss": 1.1762162446975708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8995795071575368,
      "compression/movement_sparsity/importance_threshold": -0.000651743547330599,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8761958032271949,
      "compression/movement_sparsity/model_sparsity": 0.8460957818927684,
      "compression_loss": 95.6465835571289,
      "distillation_loss": 4.01251220703125,
      "epoch": 3.61,
      "learning_rate": 4.219787100814026e-05,
      "loss": 100.2394,
      "step": 4267,
      "task_loss": 3.469855308532715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8997618687827597,
      "compression/movement_sparsity/importance_threshold": -0.0006505599939625999,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8762651184136622,
      "compression/movement_sparsity/model_sparsity": 0.846162715889342,
      "compression_loss": 95.66527557373047,
      "distillation_loss": 4.632805824279785,
      "epoch": 3.61,
      "learning_rate": 4.21947401377583e-05,
      "loss": 100.4697,
      "step": 4268,
      "task_loss": 2.695558547973633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.8999440094975006,
      "compression/movement_sparsity/importance_threshold": -0.0006493778743356347,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8763707903872512,
      "compression/movement_sparsity/model_sparsity": 0.8462647577055533,
      "compression_loss": 95.68401336669922,
      "distillation_loss": 7.498427391052246,
      "epoch": 3.61,
      "learning_rate": 4.2191609267376333e-05,
      "loss": 100.9716,
      "step": 4269,
      "task_loss": 3.4921481609344482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9001259294356445,
      "compression/movement_sparsity/importance_threshold": -0.0006481971875807709,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8764288372353025,
      "compression/movement_sparsity/model_sparsity": 0.8463208104658011,
      "compression_loss": 95.70269012451172,
      "distillation_loss": 4.223951816558838,
      "epoch": 3.61,
      "learning_rate": 4.218847839699437e-05,
      "loss": 99.8102,
      "step": 4270,
      "task_loss": 1.8262317180633545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9003076287310768,
      "compression/movement_sparsity/importance_threshold": -0.0006470179328290707,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8765577971082844,
      "compression/movement_sparsity/model_sparsity": 0.8464453401704191,
      "compression_loss": 95.72134399414062,
      "distillation_loss": 5.032177925109863,
      "epoch": 3.61,
      "learning_rate": 4.2185347526612404e-05,
      "loss": 100.7993,
      "step": 4271,
      "task_loss": 3.08632755279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9004891075176825,
      "compression/movement_sparsity/importance_threshold": -0.0006458401092116024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.876710605316538,
      "compression/movement_sparsity/model_sparsity": 0.846592898946626,
      "compression_loss": 95.739990234375,
      "distillation_loss": 3.521442413330078,
      "epoch": 3.61,
      "learning_rate": 4.2182216656230436e-05,
      "loss": 99.8942,
      "step": 4272,
      "task_loss": 2.7971725463867188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9006703659293467,
      "compression/movement_sparsity/importance_threshold": -0.0006446637158594327,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8768504877270743,
      "compression/movement_sparsity/model_sparsity": 0.8467279759660319,
      "compression_loss": 95.75856018066406,
      "distillation_loss": 3.2244911193847656,
      "epoch": 3.61,
      "learning_rate": 4.217908578584847e-05,
      "loss": 99.7082,
      "step": 4273,
      "task_loss": 1.8379762172698975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9008514040999546,
      "compression/movement_sparsity/importance_threshold": -0.0006434887519036255,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8768959665024375,
      "compression/movement_sparsity/model_sparsity": 0.8467718924055522,
      "compression_loss": 95.77713012695312,
      "distillation_loss": 4.491857051849365,
      "epoch": 3.61,
      "learning_rate": 4.2175954915466506e-05,
      "loss": 100.425,
      "step": 4274,
      "task_loss": 2.762059450149536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9010322221633913,
      "compression/movement_sparsity/importance_threshold": -0.0006423152164752493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8770020319735585,
      "compression/movement_sparsity/model_sparsity": 0.8468743142014447,
      "compression_loss": 95.7956771850586,
      "distillation_loss": 4.882683753967285,
      "epoch": 3.61,
      "learning_rate": 4.217282404508454e-05,
      "loss": 100.402,
      "step": 4275,
      "task_loss": 3.360321283340454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.901212820253542,
      "compression/movement_sparsity/importance_threshold": -0.0006411431087053679,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8771642245017415,
      "compression/movement_sparsity/model_sparsity": 0.847030934917322,
      "compression_loss": 95.81420135498047,
      "distillation_loss": 5.185707092285156,
      "epoch": 3.61,
      "learning_rate": 4.216969317470257e-05,
      "loss": 100.3494,
      "step": 4276,
      "task_loss": 2.0263848304748535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9013931985042917,
      "compression/movement_sparsity/importance_threshold": -0.0006399724277250489,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8773165199707867,
      "compression/movement_sparsity/model_sparsity": 0.8471779985684899,
      "compression_loss": 95.83268737792969,
      "distillation_loss": 4.471525192260742,
      "epoch": 3.61,
      "learning_rate": 4.21665623043206e-05,
      "loss": 99.4344,
      "step": 4277,
      "task_loss": 1.5072228908538818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9015733570495258,
      "compression/movement_sparsity/importance_threshold": -0.0006388031726653571,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8774695666623931,
      "compression/movement_sparsity/model_sparsity": 0.8473257876354128,
      "compression_loss": 95.85120391845703,
      "distillation_loss": 2.734431028366089,
      "epoch": 3.62,
      "learning_rate": 4.216343143393864e-05,
      "loss": 99.3786,
      "step": 4278,
      "task_loss": 1.6592931747436523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9017532960231291,
      "compression/movement_sparsity/importance_threshold": -0.0006376353426573601,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8776750796915972,
      "compression/movement_sparsity/model_sparsity": 0.8475242406598317,
      "compression_loss": 95.86955261230469,
      "distillation_loss": 4.0735673904418945,
      "epoch": 3.62,
      "learning_rate": 4.216030056355667e-05,
      "loss": 99.8613,
      "step": 4279,
      "task_loss": 2.1526927947998047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9019330155589871,
      "compression/movement_sparsity/importance_threshold": -0.0006364689368321226,
      "compression/movement_sparsity/linear_layer_sparsity": 0.877724660380627,
      "compression/movement_sparsity/model_sparsity": 0.8475721180996654,
      "compression_loss": 95.88796997070312,
      "distillation_loss": 4.31545352935791,
      "epoch": 3.62,
      "learning_rate": 4.21571696931747e-05,
      "loss": 100.4589,
      "step": 4280,
      "task_loss": 1.4806214570999146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9021125157909847,
      "compression/movement_sparsity/importance_threshold": -0.0006353039543207113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8779002437490652,
      "compression/movement_sparsity/model_sparsity": 0.84774166963924,
      "compression_loss": 95.90640258789062,
      "distillation_loss": 5.853517532348633,
      "epoch": 3.62,
      "learning_rate": 4.215403882279274e-05,
      "loss": 100.2337,
      "step": 4281,
      "task_loss": 2.7003841400146484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9022917968530071,
      "compression/movement_sparsity/importance_threshold": -0.0006341403942541918,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8779514938215641,
      "compression/movement_sparsity/model_sparsity": 0.847791159114085,
      "compression_loss": 95.92474365234375,
      "distillation_loss": 5.2670135498046875,
      "epoch": 3.62,
      "learning_rate": 4.2150907952410774e-05,
      "loss": 100.6998,
      "step": 4282,
      "task_loss": 2.2572126388549805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9024708588789395,
      "compression/movement_sparsity/importance_threshold": -0.0006329782557636301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8780523126589254,
      "compression/movement_sparsity/model_sparsity": 0.8478885145142279,
      "compression_loss": 95.94304656982422,
      "distillation_loss": 4.087342262268066,
      "epoch": 3.62,
      "learning_rate": 4.2147777082028805e-05,
      "loss": 99.9375,
      "step": 4283,
      "task_loss": 1.7885308265686035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9026497020026669,
      "compression/movement_sparsity/importance_threshold": -0.0006318175379800934,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8781243823281165,
      "compression/movement_sparsity/model_sparsity": 0.84795810836857,
      "compression_loss": 95.96129608154297,
      "distillation_loss": 4.712551116943359,
      "epoch": 3.62,
      "learning_rate": 4.214464621164684e-05,
      "loss": 99.9999,
      "step": 4284,
      "task_loss": 3.1486480236053467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9028283263580746,
      "compression/movement_sparsity/importance_threshold": -0.0006306582400346459,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8781676193599641,
      "compression/movement_sparsity/model_sparsity": 0.847999860075361,
      "compression_loss": 95.97956848144531,
      "distillation_loss": 3.4320778846740723,
      "epoch": 3.62,
      "learning_rate": 4.2141515341264876e-05,
      "loss": 99.3783,
      "step": 4285,
      "task_loss": 1.830579400062561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9030067320790476,
      "compression/movement_sparsity/importance_threshold": -0.0006295003610583558,
      "compression/movement_sparsity/linear_layer_sparsity": 0.878328571774713,
      "compression/movement_sparsity/model_sparsity": 0.8481552832795157,
      "compression_loss": 95.99778747558594,
      "distillation_loss": 3.3862199783325195,
      "epoch": 3.62,
      "learning_rate": 4.213838447088291e-05,
      "loss": 99.8403,
      "step": 4286,
      "task_loss": 2.0016465187072754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9031849192994712,
      "compression/movement_sparsity/importance_threshold": -0.0006283439001822872,
      "compression/movement_sparsity/linear_layer_sparsity": 0.878425109835893,
      "compression/movement_sparsity/model_sparsity": 0.8482485049613083,
      "compression_loss": 96.0159912109375,
      "distillation_loss": 3.9049577713012695,
      "epoch": 3.62,
      "learning_rate": 4.213525360050094e-05,
      "loss": 100.3118,
      "step": 4287,
      "task_loss": 2.112264633178711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9033628881532304,
      "compression/movement_sparsity/importance_threshold": -0.0006271888565375075,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8784745832074141,
      "compression/movement_sparsity/model_sparsity": 0.8482962787703199,
      "compression_loss": 96.03413391113281,
      "distillation_loss": 5.00982666015625,
      "epoch": 3.62,
      "learning_rate": 4.213212273011897e-05,
      "loss": 99.9274,
      "step": 4288,
      "task_loss": 2.3987033367156982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9035406387742103,
      "compression/movement_sparsity/importance_threshold": -0.0006260352292550815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8785874812265905,
      "compression/movement_sparsity/model_sparsity": 0.8484052983952226,
      "compression_loss": 96.0523681640625,
      "distillation_loss": 3.795233726501465,
      "epoch": 3.63,
      "learning_rate": 4.212899185973701e-05,
      "loss": 100.595,
      "step": 4289,
      "task_loss": 2.6020684242248535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9037181712962963,
      "compression/movement_sparsity/importance_threshold": -0.000624883017466076,
      "compression/movement_sparsity/linear_layer_sparsity": 0.878697326658852,
      "compression/movement_sparsity/model_sparsity": 0.848511370298962,
      "compression_loss": 96.07058715820312,
      "distillation_loss": 4.493381023406982,
      "epoch": 3.63,
      "learning_rate": 4.212586098935504e-05,
      "loss": 99.7688,
      "step": 4290,
      "task_loss": 2.3481900691986084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9038954858533733,
      "compression/movement_sparsity/importance_threshold": -0.0006237322203015566,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8788035948408228,
      "compression/movement_sparsity/model_sparsity": 0.8486139878419628,
      "compression_loss": 96.08873748779297,
      "distillation_loss": 4.990851879119873,
      "epoch": 3.63,
      "learning_rate": 4.212273011897307e-05,
      "loss": 100.5513,
      "step": 4291,
      "task_loss": 2.3577311038970947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9040725825793265,
      "compression/movement_sparsity/importance_threshold": -0.00062258283689259,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8789344387322912,
      "compression/movement_sparsity/model_sparsity": 0.8487403368432364,
      "compression_loss": 96.10690307617188,
      "distillation_loss": 3.852588176727295,
      "epoch": 3.63,
      "learning_rate": 4.211959924859111e-05,
      "loss": 100.2185,
      "step": 4292,
      "task_loss": 2.1109354496002197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9042494616080411,
      "compression/movement_sparsity/importance_threshold": -0.0006214348663702417,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8789860584539868,
      "compression/movement_sparsity/model_sparsity": 0.8487901832686909,
      "compression_loss": 96.12506866455078,
      "distillation_loss": 4.9056572914123535,
      "epoch": 3.63,
      "learning_rate": 4.2116468378209144e-05,
      "loss": 100.6182,
      "step": 4293,
      "task_loss": 3.6781704425811768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9044261230734021,
      "compression/movement_sparsity/importance_threshold": -0.0006202883078655786,
      "compression/movement_sparsity/linear_layer_sparsity": 0.878936179660766,
      "compression/movement_sparsity/model_sparsity": 0.8487420179654623,
      "compression_loss": 96.1431655883789,
      "distillation_loss": 5.2501020431518555,
      "epoch": 3.63,
      "learning_rate": 4.2113337507827175e-05,
      "loss": 100.4118,
      "step": 4294,
      "task_loss": 2.4796574115753174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9046025671092948,
      "compression/movement_sparsity/importance_threshold": -0.0006191431605096654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8790082254816219,
      "compression/movement_sparsity/model_sparsity": 0.8488115887907329,
      "compression_loss": 96.16131591796875,
      "distillation_loss": 3.7623085975646973,
      "epoch": 3.63,
      "learning_rate": 4.211020663744521e-05,
      "loss": 100.1041,
      "step": 4295,
      "task_loss": 1.4153671264648438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9047787938496042,
      "compression/movement_sparsity/importance_threshold": -0.0006179994234335687,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8790934475077155,
      "compression/movement_sparsity/model_sparsity": 0.8488938831780566,
      "compression_loss": 96.17938995361328,
      "distillation_loss": 3.4800171852111816,
      "epoch": 3.63,
      "learning_rate": 4.2107075767063246e-05,
      "loss": 100.5117,
      "step": 4296,
      "task_loss": 1.7151365280151367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9049548034282157,
      "compression/movement_sparsity/importance_threshold": -0.0006168570957683552,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8791710499906896,
      "compression/movement_sparsity/model_sparsity": 0.8489688197770074,
      "compression_loss": 96.19744873046875,
      "distillation_loss": 4.788797378540039,
      "epoch": 3.63,
      "learning_rate": 4.210394489668128e-05,
      "loss": 99.6073,
      "step": 4297,
      "task_loss": 2.1019344329833984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9051305959790141,
      "compression/movement_sparsity/importance_threshold": -0.0006157161766450897,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8791784310504562,
      "compression/movement_sparsity/model_sparsity": 0.8489759472746643,
      "compression_loss": 96.21549224853516,
      "distillation_loss": 3.334200143814087,
      "epoch": 3.63,
      "learning_rate": 4.210081402629931e-05,
      "loss": 100.7063,
      "step": 4298,
      "task_loss": 1.9109152555465698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9053061716358847,
      "compression/movement_sparsity/importance_threshold": -0.0006145766651948405,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8792916987188293,
      "compression/movement_sparsity/model_sparsity": 0.8490853238501765,
      "compression_loss": 96.23358154296875,
      "distillation_loss": 6.146849155426025,
      "epoch": 3.63,
      "learning_rate": 4.209768315591735e-05,
      "loss": 100.5551,
      "step": 4299,
      "task_loss": 2.598219156265259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9054815305327127,
      "compression/movement_sparsity/importance_threshold": -0.00061343856054867,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8793958920956314,
      "compression/movement_sparsity/model_sparsity": 0.8491859378639492,
      "compression_loss": 96.25151824951172,
      "distillation_loss": 4.260625839233398,
      "epoch": 3.63,
      "learning_rate": 4.209455228553538e-05,
      "loss": 100.3798,
      "step": 4300,
      "task_loss": 2.2677230834960938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9056566728033831,
      "compression/movement_sparsity/importance_threshold": -0.0006123018618376481,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8794423009560702,
      "compression/movement_sparsity/model_sparsity": 0.8492307524372616,
      "compression_loss": 96.26953125,
      "distillation_loss": 5.2991108894348145,
      "epoch": 3.64,
      "learning_rate": 4.209142141515341e-05,
      "loss": 100.5922,
      "step": 4301,
      "task_loss": 3.0424745082855225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9058315985817812,
      "compression/movement_sparsity/importance_threshold": -0.0006111665681928381,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8795368119087521,
      "compression/movement_sparsity/model_sparsity": 0.8493220166479691,
      "compression_loss": 96.28750610351562,
      "distillation_loss": 4.7527008056640625,
      "epoch": 3.64,
      "learning_rate": 4.208829054477145e-05,
      "loss": 100.517,
      "step": 4302,
      "task_loss": 3.907273292541504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.906006308001792,
      "compression/movement_sparsity/importance_threshold": -0.0006100326787453064,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8796589988545167,
      "compression/movement_sparsity/model_sparsity": 0.8494400060962558,
      "compression_loss": 96.30542755126953,
      "distillation_loss": 3.7930173873901367,
      "epoch": 3.64,
      "learning_rate": 4.208515967438948e-05,
      "loss": 100.5231,
      "step": 4303,
      "task_loss": 1.9624422788619995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9061808011973007,
      "compression/movement_sparsity/importance_threshold": -0.0006089001926261215,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8797338707031024,
      "compression/movement_sparsity/model_sparsity": 0.8495123058665097,
      "compression_loss": 96.32332611083984,
      "distillation_loss": 3.6561367511749268,
      "epoch": 3.64,
      "learning_rate": 4.208202880400752e-05,
      "loss": 100.2967,
      "step": 4304,
      "task_loss": 2.3792808055877686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9063550783021925,
      "compression/movement_sparsity/importance_threshold": -0.0006077691089663457,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8797886861017244,
      "compression/movement_sparsity/model_sparsity": 0.8495652381875572,
      "compression_loss": 96.34119415283203,
      "distillation_loss": 3.9473748207092285,
      "epoch": 3.64,
      "learning_rate": 4.207889793362555e-05,
      "loss": 99.933,
      "step": 4305,
      "task_loss": 2.664632558822632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9065291394503525,
      "compression/movement_sparsity/importance_threshold": -0.0006066394268970472,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8798451231871449,
      "compression/movement_sparsity/model_sparsity": 0.8496197364854728,
      "compression_loss": 96.35900115966797,
      "distillation_loss": 2.577601671218872,
      "epoch": 3.64,
      "learning_rate": 4.2075767063243584e-05,
      "loss": 100.0795,
      "step": 4306,
      "task_loss": 1.3493257761001587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9067029847756658,
      "compression/movement_sparsity/importance_threshold": -0.0006055111455492927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.880014553685083,
      "compression/movement_sparsity/model_sparsity": 0.8497833465245774,
      "compression_loss": 96.37677001953125,
      "distillation_loss": 4.209787368774414,
      "epoch": 3.64,
      "learning_rate": 4.207263619286162e-05,
      "loss": 100.4291,
      "step": 4307,
      "task_loss": 2.704225778579712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9068766144120175,
      "compression/movement_sparsity/importance_threshold": -0.000604384264054147,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8801728112379461,
      "compression/movement_sparsity/model_sparsity": 0.8499361674436426,
      "compression_loss": 96.3945083618164,
      "distillation_loss": 4.990023612976074,
      "epoch": 3.64,
      "learning_rate": 4.2069505322479654e-05,
      "loss": 101.0574,
      "step": 4308,
      "task_loss": 2.2152626514434814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9070500284932929,
      "compression/movement_sparsity/importance_threshold": -0.0006032587815426758,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8802282347691176,
      "compression/movement_sparsity/model_sparsity": 0.8499896870060156,
      "compression_loss": 96.41231536865234,
      "distillation_loss": 3.7624025344848633,
      "epoch": 3.64,
      "learning_rate": 4.2066374452097686e-05,
      "loss": 100.7277,
      "step": 4309,
      "task_loss": 2.496370315551758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9072232271533769,
      "compression/movement_sparsity/importance_threshold": -0.0006021346971459467,
      "compression/movement_sparsity/linear_layer_sparsity": 0.880426009013526,
      "compression/movement_sparsity/model_sparsity": 0.8501806670967039,
      "compression_loss": 96.42992401123047,
      "distillation_loss": 5.317628383636475,
      "epoch": 3.64,
      "learning_rate": 4.206324358171572e-05,
      "loss": 100.5187,
      "step": 4310,
      "task_loss": 2.4477925300598145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9073962105261548,
      "compression/movement_sparsity/importance_threshold": -0.0006010120099950245,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8805420907854611,
      "compression/movement_sparsity/model_sparsity": 0.8502927611026637,
      "compression_loss": 96.44759368896484,
      "distillation_loss": 4.242101669311523,
      "epoch": 3.64,
      "learning_rate": 4.2060112711333756e-05,
      "loss": 101.108,
      "step": 4311,
      "task_loss": 2.3674464225769043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9075689787455119,
      "compression/movement_sparsity/importance_threshold": -0.0005998907192209749,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8806176542357697,
      "compression/movement_sparsity/model_sparsity": 0.8503657287159937,
      "compression_loss": 96.46527099609375,
      "distillation_loss": 3.8948607444763184,
      "epoch": 3.64,
      "learning_rate": 4.205698184095179e-05,
      "loss": 100.3901,
      "step": 4312,
      "task_loss": 2.1207435131073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.907741531945333,
      "compression/movement_sparsity/importance_threshold": -0.0005987708239548655,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8807086475589989,
      "compression/movement_sparsity/model_sparsity": 0.8504535961386419,
      "compression_loss": 96.48290252685547,
      "distillation_loss": 4.038198947906494,
      "epoch": 3.65,
      "learning_rate": 4.205385097056982e-05,
      "loss": 100.449,
      "step": 4313,
      "task_loss": 2.1432290077209473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9079138702595035,
      "compression/movement_sparsity/importance_threshold": -0.0005976523233277601,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8808054360276992,
      "compression/movement_sparsity/model_sparsity": 0.8505470596256861,
      "compression_loss": 96.50049591064453,
      "distillation_loss": 4.052416801452637,
      "epoch": 3.65,
      "learning_rate": 4.205072010018785e-05,
      "loss": 100.3637,
      "step": 4314,
      "task_loss": 3.251610517501831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9080859938219084,
      "compression/movement_sparsity/importance_threshold": -0.0005965352164707281,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8810362521406265,
      "compression/movement_sparsity/model_sparsity": 0.8507699464950611,
      "compression_loss": 96.51801300048828,
      "distillation_loss": 4.785122394561768,
      "epoch": 3.65,
      "learning_rate": 4.204758922980589e-05,
      "loss": 101.2388,
      "step": 4315,
      "task_loss": 2.4968762397766113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9082579027664329,
      "compression/movement_sparsity/importance_threshold": -0.0005954195025148316,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8811603350290453,
      "compression/movement_sparsity/model_sparsity": 0.8508897667545391,
      "compression_loss": 96.53549194335938,
      "distillation_loss": 4.631425857543945,
      "epoch": 3.65,
      "learning_rate": 4.204445835942392e-05,
      "loss": 101.1321,
      "step": 4316,
      "task_loss": 2.849801778793335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.908429597226962,
      "compression/movement_sparsity/importance_threshold": -0.0005943051805911408,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8812971052318287,
      "compression/movement_sparsity/model_sparsity": 0.8510218384801025,
      "compression_loss": 96.55299377441406,
      "distillation_loss": 6.467907905578613,
      "epoch": 3.65,
      "learning_rate": 4.2041327489041954e-05,
      "loss": 101.2315,
      "step": 4317,
      "task_loss": 3.5941951274871826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9086010773373813,
      "compression/movement_sparsity/importance_threshold": -0.0005931922498307171,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8813168635776013,
      "compression/movement_sparsity/model_sparsity": 0.851040918065914,
      "compression_loss": 96.57044982910156,
      "distillation_loss": 4.281374931335449,
      "epoch": 3.65,
      "learning_rate": 4.203819661865999e-05,
      "loss": 100.732,
      "step": 4318,
      "task_loss": 2.8736584186553955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9087723432315753,
      "compression/movement_sparsity/importance_threshold": -0.0005920807093646304,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8814327426386867,
      "compression/movement_sparsity/model_sparsity": 0.8511528163247654,
      "compression_loss": 96.587890625,
      "distillation_loss": 3.8908591270446777,
      "epoch": 3.65,
      "learning_rate": 4.2035065748278024e-05,
      "loss": 101.0879,
      "step": 4319,
      "task_loss": 1.1192673444747925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9089433950434296,
      "compression/movement_sparsity/importance_threshold": -0.0005909705583239449,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8815244394878065,
      "compression/movement_sparsity/model_sparsity": 0.8512413631050254,
      "compression_loss": 96.6053237915039,
      "distillation_loss": 4.841855525970459,
      "epoch": 3.65,
      "learning_rate": 4.2031934877896056e-05,
      "loss": 100.7316,
      "step": 4320,
      "task_loss": 2.419362783432007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9091142329068291,
      "compression/movement_sparsity/importance_threshold": -0.0005898617958397263,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8816983177002726,
      "compression/movement_sparsity/model_sparsity": 0.8514092680659814,
      "compression_loss": 96.622802734375,
      "distillation_loss": 4.2830424308776855,
      "epoch": 3.65,
      "learning_rate": 4.202880400751409e-05,
      "loss": 100.4289,
      "step": 4321,
      "task_loss": 2.207615375518799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9092848569556591,
      "compression/movement_sparsity/importance_threshold": -0.0005887544210430428,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8818069110949324,
      "compression/movement_sparsity/model_sparsity": 0.8515141309434623,
      "compression_loss": 96.64022827148438,
      "distillation_loss": 4.132948875427246,
      "epoch": 3.65,
      "learning_rate": 4.2025673137132126e-05,
      "loss": 102.114,
      "step": 4322,
      "task_loss": 1.2385127544403076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9094552673238047,
      "compression/movement_sparsity/importance_threshold": -0.0005876484330649577,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8818753796654976,
      "compression/movement_sparsity/model_sparsity": 0.8515802474079945,
      "compression_loss": 96.65766906738281,
      "distillation_loss": 4.800093650817871,
      "epoch": 3.65,
      "learning_rate": 4.202254226675016e-05,
      "loss": 100.5375,
      "step": 4323,
      "task_loss": 2.6972572803497314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9096254641451509,
      "compression/movement_sparsity/importance_threshold": -0.0005865438310365392,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8819471035338272,
      "compression/movement_sparsity/model_sparsity": 0.8516495073407987,
      "compression_loss": 96.67507934570312,
      "distillation_loss": 4.552634239196777,
      "epoch": 3.65,
      "learning_rate": 4.201941139636819e-05,
      "loss": 101.4338,
      "step": 4324,
      "task_loss": 2.5775485038757324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.909795447553583,
      "compression/movement_sparsity/importance_threshold": -0.0005854406140888523,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8819989378905403,
      "compression/movement_sparsity/model_sparsity": 0.8516995610278976,
      "compression_loss": 96.69246673583984,
      "distillation_loss": 5.765250205993652,
      "epoch": 3.66,
      "learning_rate": 4.201628052598622e-05,
      "loss": 101.5823,
      "step": 4325,
      "task_loss": 2.454050064086914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9099652176829861,
      "compression/movement_sparsity/importance_threshold": -0.0005843387813529626,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8821674263792351,
      "compression/movement_sparsity/model_sparsity": 0.8518622614186744,
      "compression_loss": 96.70987701416016,
      "distillation_loss": 6.688716411590576,
      "epoch": 3.66,
      "learning_rate": 4.201314965560426e-05,
      "loss": 101.2711,
      "step": 4326,
      "task_loss": 3.3912973403930664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9101347746672453,
      "compression/movement_sparsity/importance_threshold": -0.0005832383319599376,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8821816161387218,
      "compression/movement_sparsity/model_sparsity": 0.85187596371627,
      "compression_loss": 96.7271728515625,
      "distillation_loss": 4.694073677062988,
      "epoch": 3.66,
      "learning_rate": 4.201001878522229e-05,
      "loss": 100.7636,
      "step": 4327,
      "task_loss": 2.1892993450164795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.910304118640246,
      "compression/movement_sparsity/importance_threshold": -0.0005821392650408415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8821827966313177,
      "compression/movement_sparsity/model_sparsity": 0.8518771036553136,
      "compression_loss": 96.7444839477539,
      "distillation_loss": 4.3036322593688965,
      "epoch": 3.66,
      "learning_rate": 4.2006887914840324e-05,
      "loss": 101.0217,
      "step": 4328,
      "task_loss": 2.1989595890045166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9104732497358727,
      "compression/movement_sparsity/importance_threshold": -0.0005810415797267432,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8823548146736326,
      "compression/movement_sparsity/model_sparsity": 0.8520432123486856,
      "compression_loss": 96.76175689697266,
      "distillation_loss": 3.504223346710205,
      "epoch": 3.66,
      "learning_rate": 4.200375704445836e-05,
      "loss": 101.3154,
      "step": 4329,
      "task_loss": 1.1153539419174194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9106421680880112,
      "compression/movement_sparsity/importance_threshold": -0.0005799452751487051,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8825816004178991,
      "compression/movement_sparsity/model_sparsity": 0.8522622073049619,
      "compression_loss": 96.77901458740234,
      "distillation_loss": 4.579192161560059,
      "epoch": 3.66,
      "learning_rate": 4.2000626174076394e-05,
      "loss": 101.9749,
      "step": 4330,
      "task_loss": 2.8037500381469727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9108108738305466,
      "compression/movement_sparsity/importance_threshold": -0.0005788503504377948,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8826863900030831,
      "compression/movement_sparsity/model_sparsity": 0.8523633970455244,
      "compression_loss": 96.79629516601562,
      "distillation_loss": 4.310407638549805,
      "epoch": 3.66,
      "learning_rate": 4.1997495303694426e-05,
      "loss": 101.0785,
      "step": 4331,
      "task_loss": 1.4206949472427368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9109793670973635,
      "compression/movement_sparsity/importance_threshold": -0.0005777568047250796,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8827498027265707,
      "compression/movement_sparsity/model_sparsity": 0.8524246313468797,
      "compression_loss": 96.8134765625,
      "distillation_loss": 5.884371757507324,
      "epoch": 3.66,
      "learning_rate": 4.199436443331246e-05,
      "loss": 101.285,
      "step": 4332,
      "task_loss": 2.822718620300293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9111476480223475,
      "compression/movement_sparsity/importance_threshold": -0.0005766646371416244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8828020305808157,
      "compression/movement_sparsity/model_sparsity": 0.8524750650136599,
      "compression_loss": 96.83069610595703,
      "distillation_loss": 3.914440631866455,
      "epoch": 3.66,
      "learning_rate": 4.1991233562930496e-05,
      "loss": 100.8764,
      "step": 4333,
      "task_loss": 2.064237356185913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9113157167393836,
      "compression/movement_sparsity/importance_threshold": -0.0005755738468184958,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8827848836277553,
      "compression/movement_sparsity/model_sparsity": 0.8524585071111873,
      "compression_loss": 96.8478775024414,
      "distillation_loss": 6.022558689117432,
      "epoch": 3.66,
      "learning_rate": 4.198810269254853e-05,
      "loss": 101.8064,
      "step": 4334,
      "task_loss": 2.7832705974578857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9114835733823571,
      "compression/movement_sparsity/importance_threshold": -0.0005744844328867578,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8829194240111908,
      "compression/movement_sparsity/model_sparsity": 0.8525884256185571,
      "compression_loss": 96.86495208740234,
      "distillation_loss": 4.92145299911499,
      "epoch": 3.66,
      "learning_rate": 4.1984971822166566e-05,
      "loss": 101.0311,
      "step": 4335,
      "task_loss": 2.6590216159820557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9116512180851528,
      "compression/movement_sparsity/importance_threshold": -0.0005733963944774796,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8829916129220583,
      "compression/movement_sparsity/model_sparsity": 0.8526581346182572,
      "compression_loss": 96.88201141357422,
      "distillation_loss": 5.81411600112915,
      "epoch": 3.66,
      "learning_rate": 4.19818409517846e-05,
      "loss": 101.4386,
      "step": 4336,
      "task_loss": 2.5298779010772705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9118186509816562,
      "compression/movement_sparsity/importance_threshold": -0.0005723097307217245,
      "compression/movement_sparsity/linear_layer_sparsity": 0.883108755944913,
      "compression/movement_sparsity/model_sparsity": 0.8527712534179028,
      "compression_loss": 96.89899444580078,
      "distillation_loss": 4.021148681640625,
      "epoch": 3.67,
      "learning_rate": 4.197871008140264e-05,
      "loss": 100.5066,
      "step": 4337,
      "task_loss": 1.919948697090149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9119858722057521,
      "compression/movement_sparsity/importance_threshold": -0.0005712244407505606,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8832198534147764,
      "compression/movement_sparsity/model_sparsity": 0.8528785343479006,
      "compression_loss": 96.9159927368164,
      "distillation_loss": 4.482931613922119,
      "epoch": 3.67,
      "learning_rate": 4.197557921102067e-05,
      "loss": 101.2027,
      "step": 4338,
      "task_loss": 2.683563709259033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9121528818913259,
      "compression/movement_sparsity/importance_threshold": -0.0005701405236950528,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8832610156414553,
      "compression/movement_sparsity/model_sparsity": 0.8529182825254633,
      "compression_loss": 96.93302154541016,
      "distillation_loss": 5.9787092208862305,
      "epoch": 3.67,
      "learning_rate": 4.19724483406387e-05,
      "loss": 102.1842,
      "step": 4339,
      "task_loss": 2.9021189212799072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9123196801722628,
      "compression/movement_sparsity/importance_threshold": -0.000569057978686267,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8834152666739928,
      "compression/movement_sparsity/model_sparsity": 0.8530672345605015,
      "compression_loss": 96.94998931884766,
      "distillation_loss": 5.772254943847656,
      "epoch": 3.67,
      "learning_rate": 4.196931747025674e-05,
      "loss": 101.6021,
      "step": 4340,
      "task_loss": 2.674520492553711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9124862671824476,
      "compression/movement_sparsity/importance_threshold": -0.0005679768048552705,
      "compression/movement_sparsity/linear_layer_sparsity": 0.883485404628027,
      "compression/movement_sparsity/model_sparsity": 0.853134963060045,
      "compression_loss": 96.96688079833984,
      "distillation_loss": 4.887200355529785,
      "epoch": 3.67,
      "learning_rate": 4.196618659987477e-05,
      "loss": 101.3655,
      "step": 4341,
      "task_loss": 2.5680458545684814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9126526430557658,
      "compression/movement_sparsity/importance_threshold": -0.0005668970013331274,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8835791166614773,
      "compression/movement_sparsity/model_sparsity": 0.8532254557968543,
      "compression_loss": 96.98380279541016,
      "distillation_loss": 3.75598406791687,
      "epoch": 3.67,
      "learning_rate": 4.19630557294928e-05,
      "loss": 101.3902,
      "step": 4342,
      "task_loss": 1.6282644271850586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9128188079261023,
      "compression/movement_sparsity/importance_threshold": -0.000565818567250906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8835980999363535,
      "compression/movement_sparsity/model_sparsity": 0.8532437869378392,
      "compression_loss": 97.00067138671875,
      "distillation_loss": 3.6483004093170166,
      "epoch": 3.67,
      "learning_rate": 4.1959924859110834e-05,
      "loss": 101.911,
      "step": 4343,
      "task_loss": 2.813040256500244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9129847619273423,
      "compression/movement_sparsity/importance_threshold": -0.0005647415017396695,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8836963550776731,
      "compression/movement_sparsity/model_sparsity": 0.8533386667127862,
      "compression_loss": 97.01757049560547,
      "distillation_loss": 4.927999496459961,
      "epoch": 3.67,
      "learning_rate": 4.195679398872887e-05,
      "loss": 101.6098,
      "step": 4344,
      "task_loss": 3.442683696746826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.913150505193371,
      "compression/movement_sparsity/importance_threshold": -0.0005636658039304869,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8837455541933387,
      "compression/movement_sparsity/model_sparsity": 0.8533861756874745,
      "compression_loss": 97.03443908691406,
      "distillation_loss": 4.4375739097595215,
      "epoch": 3.67,
      "learning_rate": 4.1953663118346905e-05,
      "loss": 101.5258,
      "step": 4345,
      "task_loss": 2.7160181999206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9133160378580736,
      "compression/movement_sparsity/importance_threshold": -0.0005625914729544225,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8838357009006658,
      "compression/movement_sparsity/model_sparsity": 0.8534732255780813,
      "compression_loss": 97.05126953125,
      "distillation_loss": 5.682361602783203,
      "epoch": 3.67,
      "learning_rate": 4.1950532247964936e-05,
      "loss": 101.2532,
      "step": 4346,
      "task_loss": 3.25177001953125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9134813600553351,
      "compression/movement_sparsity/importance_threshold": -0.0005615185079425426,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8838753368338874,
      "compression/movement_sparsity/model_sparsity": 0.8535114998950623,
      "compression_loss": 97.068115234375,
      "distillation_loss": 4.006507873535156,
      "epoch": 3.67,
      "learning_rate": 4.194740137758297e-05,
      "loss": 100.3977,
      "step": 4347,
      "task_loss": 1.7248294353485107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9136464719190405,
      "compression/movement_sparsity/importance_threshold": -0.0005604469080259149,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8839785285806081,
      "compression/movement_sparsity/model_sparsity": 0.8536111466878282,
      "compression_loss": 97.08489990234375,
      "distillation_loss": 4.613685607910156,
      "epoch": 3.67,
      "learning_rate": 4.194427050720101e-05,
      "loss": 101.7201,
      "step": 4348,
      "task_loss": 1.91983962059021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9138113735830754,
      "compression/movement_sparsity/importance_threshold": -0.0005593766723356016,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8840176040779508,
      "compression/movement_sparsity/model_sparsity": 0.853648879821627,
      "compression_loss": 97.10169219970703,
      "distillation_loss": 4.542597770690918,
      "epoch": 3.68,
      "learning_rate": 4.194113963681904e-05,
      "loss": 101.1649,
      "step": 4349,
      "task_loss": 2.2444815635681152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9139760651813245,
      "compression/movement_sparsity/importance_threshold": -0.0005583078000026727,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8840177471679624,
      "compression/movement_sparsity/model_sparsity": 0.8536490179960565,
      "compression_loss": 97.11843872070312,
      "distillation_loss": 3.3814854621887207,
      "epoch": 3.68,
      "learning_rate": 4.193800876643707e-05,
      "loss": 101.273,
      "step": 4350,
      "task_loss": 2.5894250869750977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9141405468476731,
      "compression/movement_sparsity/importance_threshold": -0.0005572402901581923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8839954132019805,
      "compression/movement_sparsity/model_sparsity": 0.8536274512705133,
      "compression_loss": 97.13513946533203,
      "distillation_loss": 4.200962543487549,
      "epoch": 3.68,
      "learning_rate": 4.193487789605511e-05,
      "loss": 101.3352,
      "step": 4351,
      "task_loss": 2.1755878925323486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9143048187160064,
      "compression/movement_sparsity/importance_threshold": -0.000556174141933226,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8840718232681911,
      "compression/movement_sparsity/model_sparsity": 0.8537012364158847,
      "compression_loss": 97.1518325805664,
      "distillation_loss": 4.604788303375244,
      "epoch": 3.68,
      "learning_rate": 4.193174702567314e-05,
      "loss": 101.8065,
      "step": 4352,
      "task_loss": 2.292379140853882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9144688809202095,
      "compression/movement_sparsity/importance_threshold": -0.0005551093544588414,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8841869630308831,
      "compression/movement_sparsity/model_sparsity": 0.8538124207735168,
      "compression_loss": 97.16851806640625,
      "distillation_loss": 4.1818647384643555,
      "epoch": 3.68,
      "learning_rate": 4.192861615529117e-05,
      "loss": 101.1367,
      "step": 4353,
      "task_loss": 2.174238443374634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9146327335941675,
      "compression/movement_sparsity/importance_threshold": -0.0005540459268661042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8843219088360181,
      "compression/movement_sparsity/model_sparsity": 0.8539427307751036,
      "compression_loss": 97.18516540527344,
      "distillation_loss": 4.464888572692871,
      "epoch": 3.68,
      "learning_rate": 4.1925485284909204e-05,
      "loss": 101.1956,
      "step": 4354,
      "task_loss": 2.009399890899658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9147963768717657,
      "compression/movement_sparsity/importance_threshold": -0.0005529838582860784,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8844118766808307,
      "compression/movement_sparsity/model_sparsity": 0.8540296079476735,
      "compression_loss": 97.20182800292969,
      "distillation_loss": 3.8485963344573975,
      "epoch": 3.68,
      "learning_rate": 4.192235441452724e-05,
      "loss": 102.0802,
      "step": 4355,
      "task_loss": 2.2801365852355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.914959810886889,
      "compression/movement_sparsity/importance_threshold": -0.0005519231478498324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.884493569153304,
      "compression/movement_sparsity/model_sparsity": 0.8541084940324019,
      "compression_loss": 97.21839904785156,
      "distillation_loss": 5.375701904296875,
      "epoch": 3.68,
      "learning_rate": 4.1919223544145275e-05,
      "loss": 101.8602,
      "step": 4356,
      "task_loss": 3.081441879272461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9151230357734226,
      "compression/movement_sparsity/importance_threshold": -0.0005508637946884326,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8845638144248469,
      "compression/movement_sparsity/model_sparsity": 0.8541763261627675,
      "compression_loss": 97.2349624633789,
      "distillation_loss": 4.869045734405518,
      "epoch": 3.68,
      "learning_rate": 4.1916092673763306e-05,
      "loss": 101.1027,
      "step": 4357,
      "task_loss": 2.8468616008758545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9152860516652519,
      "compression/movement_sparsity/importance_threshold": -0.0005498057979329415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8847209988026228,
      "compression/movement_sparsity/model_sparsity": 0.8543281107736111,
      "compression_loss": 97.25157165527344,
      "distillation_loss": 3.9670209884643555,
      "epoch": 3.68,
      "learning_rate": 4.191296180338134e-05,
      "loss": 100.8708,
      "step": 4358,
      "task_loss": 1.8893166780471802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9154488586962616,
      "compression/movement_sparsity/importance_threshold": -0.0005487491567144299,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8847978858355389,
      "compression/movement_sparsity/model_sparsity": 0.8544023565004143,
      "compression_loss": 97.26811981201172,
      "distillation_loss": 4.8611955642700195,
      "epoch": 3.68,
      "learning_rate": 4.190983093299938e-05,
      "loss": 101.3183,
      "step": 4359,
      "task_loss": 3.6532211303710938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9156114570003372,
      "compression/movement_sparsity/importance_threshold": -0.000547693870163961,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8848987881420735,
      "compression/movement_sparsity/model_sparsity": 0.8544997925023077,
      "compression_loss": 97.28463745117188,
      "distillation_loss": 4.066122531890869,
      "epoch": 3.69,
      "learning_rate": 4.190670006261741e-05,
      "loss": 101.3366,
      "step": 4360,
      "task_loss": 1.9372087717056274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9157738467113636,
      "compression/movement_sparsity/importance_threshold": -0.0005466399374126005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8849665531867481,
      "compression/movement_sparsity/model_sparsity": 0.8545652296092281,
      "compression_loss": 97.30116271972656,
      "distillation_loss": 4.872408866882324,
      "epoch": 3.69,
      "learning_rate": 4.190356919223544e-05,
      "loss": 102.0841,
      "step": 4361,
      "task_loss": 2.225010871887207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9159360279632263,
      "compression/movement_sparsity/importance_threshold": -0.000545587357591415,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8850913276768898,
      "compression/movement_sparsity/model_sparsity": 0.8546857177117821,
      "compression_loss": 97.317626953125,
      "distillation_loss": 4.703734397888184,
      "epoch": 3.69,
      "learning_rate": 4.190043832185347e-05,
      "loss": 101.9682,
      "step": 4362,
      "task_loss": 2.504549503326416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9160980008898099,
      "compression/movement_sparsity/importance_threshold": -0.0005445361298314728,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8851920988175804,
      "compression/movement_sparsity/model_sparsity": 0.8547830270537818,
      "compression_loss": 97.33407592773438,
      "distillation_loss": 4.815277099609375,
      "epoch": 3.69,
      "learning_rate": 4.189730745147151e-05,
      "loss": 101.8563,
      "step": 4363,
      "task_loss": 2.6848387718200684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.916259765625,
      "compression/movement_sparsity/importance_threshold": -0.0005434862532638363,
      "compression/movement_sparsity/linear_layer_sparsity": 0.885257443256225,
      "compression/movement_sparsity/model_sparsity": 0.8548461267099359,
      "compression_loss": 97.35047912597656,
      "distillation_loss": 4.592268466949463,
      "epoch": 3.69,
      "learning_rate": 4.189417658108954e-05,
      "loss": 101.5302,
      "step": 4364,
      "task_loss": 1.666142225265503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9164213223026816,
      "compression/movement_sparsity/importance_threshold": -0.0005424377270195737,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8853233839032513,
      "compression/movement_sparsity/model_sparsity": 0.8549098020928797,
      "compression_loss": 97.3669204711914,
      "distillation_loss": 5.925614356994629,
      "epoch": 3.69,
      "learning_rate": 4.1891045710707574e-05,
      "loss": 101.6301,
      "step": 4365,
      "task_loss": 3.085991621017456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9165826710567396,
      "compression/movement_sparsity/importance_threshold": -0.0005413905502297508,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8854050406032217,
      "compression/movement_sparsity/model_sparsity": 0.8549886536340008,
      "compression_loss": 97.3833236694336,
      "distillation_loss": 4.377010822296143,
      "epoch": 3.69,
      "learning_rate": 4.188791484032561e-05,
      "loss": 101.3827,
      "step": 4366,
      "task_loss": 2.0016560554504395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9167438120210597,
      "compression/movement_sparsity/importance_threshold": -0.0005403447220254324,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8855767724655134,
      "compression/movement_sparsity/model_sparsity": 0.8551544859785137,
      "compression_loss": 97.39971160888672,
      "distillation_loss": 4.305171966552734,
      "epoch": 3.69,
      "learning_rate": 4.1884783969943644e-05,
      "loss": 101.6001,
      "step": 4367,
      "task_loss": 3.1375153064727783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9169047453295265,
      "compression/movement_sparsity/importance_threshold": -0.0005393002415376861,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8857079025370049,
      "compression/movement_sparsity/model_sparsity": 0.8552811113286463,
      "compression_loss": 97.4161376953125,
      "distillation_loss": 4.524194717407227,
      "epoch": 3.69,
      "learning_rate": 4.1881653099561676e-05,
      "loss": 101.4526,
      "step": 4368,
      "task_loss": 2.849992036819458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9170654711160253,
      "compression/movement_sparsity/importance_threshold": -0.0005382571078975775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8857139838624992,
      "compression/movement_sparsity/model_sparsity": 0.8552869837419015,
      "compression_loss": 97.43246459960938,
      "distillation_loss": 7.137128829956055,
      "epoch": 3.69,
      "learning_rate": 4.1878522229179715e-05,
      "loss": 102.2182,
      "step": 4369,
      "task_loss": 4.1804986000061035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9172259895144413,
      "compression/movement_sparsity/importance_threshold": -0.0005372153202361724,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8857053865376339,
      "compression/movement_sparsity/model_sparsity": 0.8552786817615936,
      "compression_loss": 97.44872283935547,
      "distillation_loss": 5.015692710876465,
      "epoch": 3.69,
      "learning_rate": 4.1875391358797747e-05,
      "loss": 102.2313,
      "step": 4370,
      "task_loss": 2.213963508605957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9173863006586598,
      "compression/movement_sparsity/importance_threshold": -0.0005361748776845365,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8857923733405374,
      "compression/movement_sparsity/model_sparsity": 0.8553626803002148,
      "compression_loss": 97.46507263183594,
      "distillation_loss": 5.774823188781738,
      "epoch": 3.69,
      "learning_rate": 4.1872260488415785e-05,
      "loss": 102.0522,
      "step": 4371,
      "task_loss": 2.161466360092163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9175464046825655,
      "compression/movement_sparsity/importance_threshold": -0.0005351357793737374,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8859573441997796,
      "compression/movement_sparsity/model_sparsity": 0.8555219839029323,
      "compression_loss": 97.48133087158203,
      "distillation_loss": 3.842717170715332,
      "epoch": 3.7,
      "learning_rate": 4.186912961803382e-05,
      "loss": 101.3994,
      "step": 4372,
      "task_loss": 2.0439860820770264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.917706301720044,
      "compression/movement_sparsity/importance_threshold": -0.0005340980244348389,
      "compression/movement_sparsity/linear_layer_sparsity": 0.886020172639053,
      "compression/movement_sparsity/model_sparsity": 0.8555826539920337,
      "compression_loss": 97.49755096435547,
      "distillation_loss": 5.592374324798584,
      "epoch": 3.7,
      "learning_rate": 4.186599874765185e-05,
      "loss": 102.024,
      "step": 4373,
      "task_loss": 3.403803586959839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9178659919049802,
      "compression/movement_sparsity/importance_threshold": -0.0005330616119989086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.886144505934992,
      "compression/movement_sparsity/model_sparsity": 0.8557027160567634,
      "compression_loss": 97.51380157470703,
      "distillation_loss": 4.406132221221924,
      "epoch": 3.7,
      "learning_rate": 4.186286787726989e-05,
      "loss": 102.174,
      "step": 4374,
      "task_loss": 2.958364963531494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9180254753712593,
      "compression/movement_sparsity/importance_threshold": -0.0005320265411970114,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8862695785293246,
      "compression/movement_sparsity/model_sparsity": 0.8558234920227124,
      "compression_loss": 97.52999877929688,
      "distillation_loss": 3.27341890335083,
      "epoch": 3.7,
      "learning_rate": 4.185973700688792e-05,
      "loss": 101.8161,
      "step": 4375,
      "task_loss": 3.3783702850341797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9181847522527664,
      "compression/movement_sparsity/importance_threshold": -0.0005309928111602146,
      "compression/movement_sparsity/linear_layer_sparsity": 0.886356541483893,
      "compression/movement_sparsity/model_sparsity": 0.8559074675322619,
      "compression_loss": 97.5462417602539,
      "distillation_loss": 3.320213794708252,
      "epoch": 3.7,
      "learning_rate": 4.185660613650595e-05,
      "loss": 101.3031,
      "step": 4376,
      "task_loss": 2.1410861015319824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9183438226833867,
      "compression/movement_sparsity/importance_threshold": -0.0005299604210195841,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8863431744919732,
      "compression/movement_sparsity/model_sparsity": 0.8558945597376363,
      "compression_loss": 97.5623779296875,
      "distillation_loss": 4.1441802978515625,
      "epoch": 3.7,
      "learning_rate": 4.185347526612399e-05,
      "loss": 101.5346,
      "step": 4377,
      "task_loss": 2.888065814971924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9185026867970052,
      "compression/movement_sparsity/importance_threshold": -0.0005289293699061856,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8864695468205781,
      "compression/movement_sparsity/model_sparsity": 0.8560165907879868,
      "compression_loss": 97.57846069335938,
      "distillation_loss": 3.8366575241088867,
      "epoch": 3.7,
      "learning_rate": 4.185034439574202e-05,
      "loss": 101.7346,
      "step": 4378,
      "task_loss": 1.9181631803512573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9186613447275072,
      "compression/movement_sparsity/importance_threshold": -0.0005278996569510848,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8865124261273967,
      "compression/movement_sparsity/model_sparsity": 0.856057997058704,
      "compression_loss": 97.5946044921875,
      "distillation_loss": 3.7289137840270996,
      "epoch": 3.7,
      "learning_rate": 4.184721352536005e-05,
      "loss": 102.1131,
      "step": 4379,
      "task_loss": 1.2654414176940918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9188197966087779,
      "compression/movement_sparsity/importance_threshold": -0.0005268712812853465,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8866487074393069,
      "compression/movement_sparsity/model_sparsity": 0.8561895966882997,
      "compression_loss": 97.61064910888672,
      "distillation_loss": 4.2692413330078125,
      "epoch": 3.7,
      "learning_rate": 4.1844082654978085e-05,
      "loss": 101.9782,
      "step": 4380,
      "task_loss": 2.0687649250030518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9189780425747021,
      "compression/movement_sparsity/importance_threshold": -0.0005258442420400409,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8868111861475132,
      "compression/movement_sparsity/model_sparsity": 0.8563464937530362,
      "compression_loss": 97.62673950195312,
      "distillation_loss": 5.149149417877197,
      "epoch": 3.7,
      "learning_rate": 4.184095178459612e-05,
      "loss": 102.2706,
      "step": 4381,
      "task_loss": 2.7027831077575684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9191360827591653,
      "compression/movement_sparsity/importance_threshold": -0.0005248185383462294,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8868919723832461,
      "compression/movement_sparsity/model_sparsity": 0.8564245047330442,
      "compression_loss": 97.6427993774414,
      "distillation_loss": 4.638134002685547,
      "epoch": 3.7,
      "learning_rate": 4.1837820914214155e-05,
      "loss": 102.5369,
      "step": 4382,
      "task_loss": 1.5227817296981812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9192939172960525,
      "compression/movement_sparsity/importance_threshold": -0.0005237941693349811,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8869811293846596,
      "compression/movement_sparsity/model_sparsity": 0.85651059891718,
      "compression_loss": 97.65876770019531,
      "distillation_loss": 4.2402191162109375,
      "epoch": 3.7,
      "learning_rate": 4.183469004383219e-05,
      "loss": 101.852,
      "step": 4383,
      "task_loss": 2.4145960807800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9194515463192489,
      "compression/movement_sparsity/importance_threshold": -0.0005227711341373601,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8870902951393659,
      "compression/movement_sparsity/model_sparsity": 0.856616014492379,
      "compression_loss": 97.67476654052734,
      "distillation_loss": 5.588130950927734,
      "epoch": 3.71,
      "learning_rate": 4.183155917345022e-05,
      "loss": 102.2192,
      "step": 4384,
      "task_loss": 2.2360007762908936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9196089699626395,
      "compression/movement_sparsity/importance_threshold": -0.0005217494318844338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8871492959208281,
      "compression/movement_sparsity/model_sparsity": 0.8566729884154903,
      "compression_loss": 97.69075012207031,
      "distillation_loss": 4.554101943969727,
      "epoch": 3.71,
      "learning_rate": 4.182842830306826e-05,
      "loss": 102.4507,
      "step": 4385,
      "task_loss": 2.494971990585327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9197661883601096,
      "compression/movement_sparsity/importance_threshold": -0.0005207290617072671,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8872272084321609,
      "compression/movement_sparsity/model_sparsity": 0.8567482243923719,
      "compression_loss": 97.7066421508789,
      "distillation_loss": 3.2989602088928223,
      "epoch": 3.71,
      "learning_rate": 4.182529743268629e-05,
      "loss": 101.8799,
      "step": 4386,
      "task_loss": 1.8674286603927612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9199232016455442,
      "compression/movement_sparsity/importance_threshold": -0.0005197100227369274,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8873184760112457,
      "compression/movement_sparsity/model_sparsity": 0.8568363566493433,
      "compression_loss": 97.72259521484375,
      "distillation_loss": 4.761124134063721,
      "epoch": 3.71,
      "learning_rate": 4.182216656230432e-05,
      "loss": 102.7477,
      "step": 4387,
      "task_loss": 2.1041555404663086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9200800099528286,
      "compression/movement_sparsity/importance_threshold": -0.0005186923141044806,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8874153360249518,
      "compression/movement_sparsity/model_sparsity": 0.8569298892236024,
      "compression_loss": 97.73848724365234,
      "distillation_loss": 4.86476469039917,
      "epoch": 3.71,
      "learning_rate": 4.181903569192236e-05,
      "loss": 102.3659,
      "step": 4388,
      "task_loss": 1.990662932395935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9202366134158478,
      "compression/movement_sparsity/importance_threshold": -0.0005176759349409905,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8874627584396396,
      "compression/movement_sparsity/model_sparsity": 0.8569756825324573,
      "compression_loss": 97.75440979003906,
      "distillation_loss": 4.658374786376953,
      "epoch": 3.71,
      "learning_rate": 4.181590482154039e-05,
      "loss": 101.7531,
      "step": 4389,
      "task_loss": 3.3646514415740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9203930121684869,
      "compression/movement_sparsity/importance_threshold": -0.0005166608843775265,
      "compression/movement_sparsity/linear_layer_sparsity": 0.887500569975213,
      "compression/movement_sparsity/model_sparsity": 0.8570121951254618,
      "compression_loss": 97.77019500732422,
      "distillation_loss": 5.643728256225586,
      "epoch": 3.71,
      "learning_rate": 4.181277395115842e-05,
      "loss": 102.2382,
      "step": 4390,
      "task_loss": 3.003822088241577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9205492063446312,
      "compression/movement_sparsity/importance_threshold": -0.0005156471615451524,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8875937931177902,
      "compression/movement_sparsity/model_sparsity": 0.8571022157663035,
      "compression_loss": 97.78604888916016,
      "distillation_loss": 5.5766401290893555,
      "epoch": 3.71,
      "learning_rate": 4.1809643080776455e-05,
      "loss": 102.6902,
      "step": 4391,
      "task_loss": 2.7979679107666016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9207051960781659,
      "compression/movement_sparsity/importance_threshold": -0.0005146347655749341,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8875929226535527,
      "compression/movement_sparsity/model_sparsity": 0.8571013752051905,
      "compression_loss": 97.8018798828125,
      "distillation_loss": 5.485591411590576,
      "epoch": 3.71,
      "learning_rate": 4.180651221039449e-05,
      "loss": 101.9718,
      "step": 4392,
      "task_loss": 3.2402467727661133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9208609815029759,
      "compression/movement_sparsity/importance_threshold": -0.000513623695597939,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8875961779513173,
      "compression/movement_sparsity/model_sparsity": 0.8571045186734624,
      "compression_loss": 97.81770324707031,
      "distillation_loss": 5.430769920349121,
      "epoch": 3.71,
      "learning_rate": 4.1803381340012525e-05,
      "loss": 102.6298,
      "step": 4393,
      "task_loss": 2.6283187866210938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9210165627529465,
      "compression/movement_sparsity/importance_threshold": -0.000512613950745232,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8876752232585755,
      "compression/movement_sparsity/model_sparsity": 0.8571808485312444,
      "compression_loss": 97.83357238769531,
      "distillation_loss": 4.1016998291015625,
      "epoch": 3.71,
      "learning_rate": 4.180025046963056e-05,
      "loss": 102.7004,
      "step": 4394,
      "task_loss": 3.4419915676116943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9211719399619628,
      "compression/movement_sparsity/importance_threshold": -0.0005116055301478796,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8876862769619739,
      "compression/movement_sparsity/model_sparsity": 0.8571915225059259,
      "compression_loss": 97.84931182861328,
      "distillation_loss": 3.9654934406280518,
      "epoch": 3.71,
      "learning_rate": 4.179711959924859e-05,
      "loss": 101.7713,
      "step": 4395,
      "task_loss": 2.6779987812042236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9213271132639099,
      "compression/movement_sparsity/importance_threshold": -0.0005105984329369477,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8877427498198974,
      "compression/movement_sparsity/model_sparsity": 0.8572460553474489,
      "compression_loss": 97.86511993408203,
      "distillation_loss": 3.3681693077087402,
      "epoch": 3.72,
      "learning_rate": 4.179398872886663e-05,
      "loss": 102.2288,
      "step": 4396,
      "task_loss": 1.5684648752212524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.921482082792673,
      "compression/movement_sparsity/importance_threshold": -0.0005095926582435037,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8877347725517489,
      "compression/movement_sparsity/model_sparsity": 0.8572383521230024,
      "compression_loss": 97.88088989257812,
      "distillation_loss": 3.8956332206726074,
      "epoch": 3.72,
      "learning_rate": 4.179085785848466e-05,
      "loss": 102.1132,
      "step": 4397,
      "task_loss": 2.770991802215576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9216368486821372,
      "compression/movement_sparsity/importance_threshold": -0.0005085882051986106,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8878141517357009,
      "compression/movement_sparsity/model_sparsity": 0.8573150043877866,
      "compression_loss": 97.89662170410156,
      "distillation_loss": 2.8147692680358887,
      "epoch": 3.72,
      "learning_rate": 4.178772698810269e-05,
      "loss": 101.4214,
      "step": 4398,
      "task_loss": 2.5741429328918457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9217914110661877,
      "compression/movement_sparsity/importance_threshold": -0.0005075850729333378,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8878661768790962,
      "compression/movement_sparsity/model_sparsity": 0.8573652423074581,
      "compression_loss": 97.91230010986328,
      "distillation_loss": 4.455719947814941,
      "epoch": 3.72,
      "learning_rate": 4.178459611772072e-05,
      "loss": 102.332,
      "step": 4399,
      "task_loss": 2.9599649906158447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9219457700787095,
      "compression/movement_sparsity/importance_threshold": -0.0005065832605787501,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8878786018617728,
      "compression/movement_sparsity/model_sparsity": 0.8573772404537561,
      "compression_loss": 97.927978515625,
      "distillation_loss": 6.010303497314453,
      "epoch": 3.72,
      "learning_rate": 4.178146524733876e-05,
      "loss": 102.4676,
      "step": 4400,
      "task_loss": 2.321807384490967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9220999258535879,
      "compression/movement_sparsity/importance_threshold": -0.0005055827672659123,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8879220773769732,
      "compression/movement_sparsity/model_sparsity": 0.857419222451263,
      "compression_loss": 97.94357299804688,
      "distillation_loss": 4.234959602355957,
      "epoch": 3.72,
      "learning_rate": 4.177833437695679e-05,
      "loss": 101.7321,
      "step": 4401,
      "task_loss": 4.555571556091309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9222538785247081,
      "compression/movement_sparsity/importance_threshold": -0.0005045835921258903,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8880841864359826,
      "compression/movement_sparsity/model_sparsity": 0.8575757625653897,
      "compression_loss": 97.9591064453125,
      "distillation_loss": 4.125043869018555,
      "epoch": 3.72,
      "learning_rate": 4.177520350657483e-05,
      "loss": 101.691,
      "step": 4402,
      "task_loss": 1.4486937522888184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.922407628225955,
      "compression/movement_sparsity/importance_threshold": -0.0005035857342897522,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8881266722452692,
      "compression/movement_sparsity/model_sparsity": 0.8576167888564257,
      "compression_loss": 97.97460174560547,
      "distillation_loss": 2.49403715133667,
      "epoch": 3.72,
      "learning_rate": 4.177207263619286e-05,
      "loss": 101.8523,
      "step": 4403,
      "task_loss": 1.909193754196167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9225611750912138,
      "compression/movement_sparsity/importance_threshold": -0.000502589192888564,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8882120612097096,
      "compression/movement_sparsity/model_sparsity": 0.8576992444472504,
      "compression_loss": 97.99006652832031,
      "distillation_loss": 6.112577438354492,
      "epoch": 3.72,
      "learning_rate": 4.17689417658109e-05,
      "loss": 103.0264,
      "step": 4404,
      "task_loss": 3.271435022354126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9227145192543698,
      "compression/movement_sparsity/importance_threshold": -0.0005015939670533903,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8882931932463041,
      "compression/movement_sparsity/model_sparsity": 0.8577775893487964,
      "compression_loss": 98.0054702758789,
      "distillation_loss": 3.937145709991455,
      "epoch": 3.72,
      "learning_rate": 4.1765810895428933e-05,
      "loss": 101.6285,
      "step": 4405,
      "task_loss": 1.3687411546707153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.922867660849308,
      "compression/movement_sparsity/importance_threshold": -0.000500600055915297,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8883928912119076,
      "compression/movement_sparsity/model_sparsity": 0.8578738623825746,
      "compression_loss": 98.0208511352539,
      "distillation_loss": 5.9676289558410645,
      "epoch": 3.72,
      "learning_rate": 4.1762680025046965e-05,
      "loss": 101.9301,
      "step": 4406,
      "task_loss": 3.008826971054077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9230206000099137,
      "compression/movement_sparsity/importance_threshold": -0.0004996074586053507,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8884891073205613,
      "compression/movement_sparsity/model_sparsity": 0.8579667731719007,
      "compression_loss": 98.03624725341797,
      "distillation_loss": 2.7344985008239746,
      "epoch": 3.72,
      "learning_rate": 4.1759549154665004e-05,
      "loss": 102.2046,
      "step": 4407,
      "task_loss": 0.899051308631897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9231733368700717,
      "compression/movement_sparsity/importance_threshold": -0.0004986161742546189,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8885970806585041,
      "compression/movement_sparsity/model_sparsity": 0.8580710372935203,
      "compression_loss": 98.05162811279297,
      "distillation_loss": 5.016868591308594,
      "epoch": 3.73,
      "learning_rate": 4.1756418284283036e-05,
      "loss": 103.2141,
      "step": 4408,
      "task_loss": 2.8446998596191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9233258715636676,
      "compression/movement_sparsity/importance_threshold": -0.0004976262019941646,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8887730098278036,
      "compression/movement_sparsity/model_sparsity": 0.858240922754633,
      "compression_loss": 98.06693267822266,
      "distillation_loss": 6.80361270904541,
      "epoch": 3.73,
      "learning_rate": 4.175328741390107e-05,
      "loss": 103.2296,
      "step": 4409,
      "task_loss": 3.2781262397766113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9234782042245862,
      "compression/movement_sparsity/importance_threshold": -0.0004966375409550571,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8888671034346182,
      "compression/movement_sparsity/model_sparsity": 0.8583317839565877,
      "compression_loss": 98.08229064941406,
      "distillation_loss": 4.971750259399414,
      "epoch": 3.73,
      "learning_rate": 4.17501565435191e-05,
      "loss": 102.6364,
      "step": 4410,
      "task_loss": 2.107276201248169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9236303349867128,
      "compression/movement_sparsity/importance_threshold": -0.0004956501902683595,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8888993702322409,
      "compression/movement_sparsity/model_sparsity": 0.8583629422904477,
      "compression_loss": 98.0976333618164,
      "distillation_loss": 5.519400596618652,
      "epoch": 3.73,
      "learning_rate": 4.174702567313714e-05,
      "loss": 103.2221,
      "step": 4411,
      "task_loss": 3.165459394454956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9237822639839324,
      "compression/movement_sparsity/importance_threshold": -0.0004946641490651401,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8889947516491601,
      "compression/movement_sparsity/model_sparsity": 0.8584550470622683,
      "compression_loss": 98.11297607421875,
      "distillation_loss": 3.7380154132843018,
      "epoch": 3.73,
      "learning_rate": 4.174389480275517e-05,
      "loss": 103.0266,
      "step": 4412,
      "task_loss": 2.3041200637817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9239339913501302,
      "compression/movement_sparsity/importance_threshold": -0.0004936794164764639,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8891301386484977,
      "compression/movement_sparsity/model_sparsity": 0.8585857831016794,
      "compression_loss": 98.12828063964844,
      "distillation_loss": 4.103647232055664,
      "epoch": 3.73,
      "learning_rate": 4.17407639323732e-05,
      "loss": 102.8395,
      "step": 4413,
      "task_loss": 2.837089776992798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9240855172191914,
      "compression/movement_sparsity/importance_threshold": -0.0004926959916333965,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8891640509812541,
      "compression/movement_sparsity/model_sparsity": 0.8586185304414792,
      "compression_loss": 98.14360046386719,
      "distillation_loss": 4.531942367553711,
      "epoch": 3.73,
      "learning_rate": 4.173763306199124e-05,
      "loss": 102.607,
      "step": 4414,
      "task_loss": 2.067744731903076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9242368417250012,
      "compression/movement_sparsity/importance_threshold": -0.0004917138736670046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8892663245670669,
      "compression/movement_sparsity/model_sparsity": 0.8587172906149889,
      "compression_loss": 98.158935546875,
      "distillation_loss": 4.881964683532715,
      "epoch": 3.73,
      "learning_rate": 4.173450219160927e-05,
      "loss": 102.3974,
      "step": 4415,
      "task_loss": 2.8301937580108643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9243879650014446,
      "compression/movement_sparsity/importance_threshold": -0.0004907330617083547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8893498414371884,
      "compression/movement_sparsity/model_sparsity": 0.8587979384236939,
      "compression_loss": 98.17420959472656,
      "distillation_loss": 3.9609415531158447,
      "epoch": 3.73,
      "learning_rate": 4.1731371321227303e-05,
      "loss": 102.249,
      "step": 4416,
      "task_loss": 1.6792418956756592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9245388871824067,
      "compression/movement_sparsity/importance_threshold": -0.0004897535548885118,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8894479534884964,
      "compression/movement_sparsity/model_sparsity": 0.8588926800242114,
      "compression_loss": 98.18948364257812,
      "distillation_loss": 3.8716907501220703,
      "epoch": 3.73,
      "learning_rate": 4.1728240450845335e-05,
      "loss": 102.7259,
      "step": 4417,
      "task_loss": 3.0061421394348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9246896084017728,
      "compression/movement_sparsity/importance_threshold": -0.0004887753523385423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8895564157173121,
      "compression/movement_sparsity/model_sparsity": 0.8589974162417985,
      "compression_loss": 98.20471954345703,
      "distillation_loss": 5.763439178466797,
      "epoch": 3.73,
      "learning_rate": 4.1725109580463374e-05,
      "loss": 102.9537,
      "step": 4418,
      "task_loss": 2.0671639442443848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.924840128793428,
      "compression/movement_sparsity/importance_threshold": -0.00048779845318951305,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8894878994500764,
      "compression/movement_sparsity/model_sparsity": 0.858931253719123,
      "compression_loss": 98.22003173828125,
      "distillation_loss": 4.3122148513793945,
      "epoch": 3.73,
      "learning_rate": 4.1721978710081406e-05,
      "loss": 102.4592,
      "step": 4419,
      "task_loss": 1.6163713932037354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9249904484912574,
      "compression/movement_sparsity/importance_threshold": -0.00048682285657248876,
      "compression/movement_sparsity/linear_layer_sparsity": 0.889530778756895,
      "compression/movement_sparsity/model_sparsity": 0.8589726599898403,
      "compression_loss": 98.23526000976562,
      "distillation_loss": 3.806293487548828,
      "epoch": 3.74,
      "learning_rate": 4.171884783969944e-05,
      "loss": 102.3752,
      "step": 4420,
      "task_loss": 2.767552375793457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9251405676291462,
      "compression/movement_sparsity/importance_threshold": -0.00048584856161853606,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8896087270407307,
      "compression/movement_sparsity/model_sparsity": 0.8590479305103291,
      "compression_loss": 98.2505111694336,
      "distillation_loss": 4.68280553817749,
      "epoch": 3.74,
      "learning_rate": 4.171571696931747e-05,
      "loss": 103.0045,
      "step": 4421,
      "task_loss": 1.6856708526611328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9252904863409794,
      "compression/movement_sparsity/importance_threshold": -0.00048487556745872157,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8897175946912461,
      "compression/movement_sparsity/model_sparsity": 0.8591530582221333,
      "compression_loss": 98.2657241821289,
      "distillation_loss": 4.505087852478027,
      "epoch": 3.74,
      "learning_rate": 4.171258609893551e-05,
      "loss": 102.7886,
      "step": 4422,
      "task_loss": 2.336688280105591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9254402047606423,
      "compression/movement_sparsity/importance_threshold": -0.000483903873224111,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8897186917146686,
      "compression/movement_sparsity/model_sparsity": 0.8591541175594264,
      "compression_loss": 98.2809066772461,
      "distillation_loss": 4.60619592666626,
      "epoch": 3.74,
      "learning_rate": 4.170945522855354e-05,
      "loss": 102.7546,
      "step": 4423,
      "task_loss": 3.2721612453460693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9255897230220199,
      "compression/movement_sparsity/importance_threshold": -0.00048293347804577013,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8896917192474763,
      "compression/movement_sparsity/model_sparsity": 0.8591280716794591,
      "compression_loss": 98.29607391357422,
      "distillation_loss": 4.358454704284668,
      "epoch": 3.74,
      "learning_rate": 4.170632435817157e-05,
      "loss": 102.2533,
      "step": 4424,
      "task_loss": 2.9876773357391357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9257390412589975,
      "compression/movement_sparsity/importance_threshold": -0.0004819643810547638,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8897976774010885,
      "compression/movement_sparsity/model_sparsity": 0.8592303898445295,
      "compression_loss": 98.31122589111328,
      "distillation_loss": 5.918052673339844,
      "epoch": 3.74,
      "learning_rate": 4.170319348778961e-05,
      "loss": 103.1922,
      "step": 4425,
      "task_loss": 3.724876642227173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9258881596054601,
      "compression/movement_sparsity/importance_threshold": -0.0004809965813821612,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8899342448930221,
      "compression/movement_sparsity/model_sparsity": 0.8593622658229844,
      "compression_loss": 98.32632446289062,
      "distillation_loss": 2.971859931945801,
      "epoch": 3.74,
      "learning_rate": 4.170006261740764e-05,
      "loss": 102.452,
      "step": 4426,
      "task_loss": 1.1929054260253906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9260370781952929,
      "compression/movement_sparsity/importance_threshold": -0.00048003007815902547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8900522822284495,
      "compression/movement_sparsity/model_sparsity": 0.8594762482128145,
      "compression_loss": 98.34139251708984,
      "distillation_loss": 4.454765796661377,
      "epoch": 3.74,
      "learning_rate": 4.169693174702567e-05,
      "loss": 102.1324,
      "step": 4427,
      "task_loss": 2.6102359294891357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.926185797162381,
      "compression/movement_sparsity/importance_threshold": -0.0004790648705164241,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8901680658961937,
      "compression/movement_sparsity/model_sparsity": 0.8595880543553795,
      "compression_loss": 98.35648345947266,
      "distillation_loss": 4.262306213378906,
      "epoch": 3.74,
      "learning_rate": 4.1693800876643705e-05,
      "loss": 102.7717,
      "step": 4428,
      "task_loss": 1.855597972869873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9263343166406097,
      "compression/movement_sparsity/importance_threshold": -0.00047810095758542195,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8902782690534844,
      "compression/movement_sparsity/model_sparsity": 0.8596944716951926,
      "compression_loss": 98.3715591430664,
      "distillation_loss": 4.33069372177124,
      "epoch": 3.74,
      "learning_rate": 4.1690670006261744e-05,
      "loss": 101.924,
      "step": 4429,
      "task_loss": 2.461531639099121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9264826367638639,
      "compression/movement_sparsity/importance_threshold": -0.0004771383384970865,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8903079602308976,
      "compression/movement_sparsity/model_sparsity": 0.8597231428893211,
      "compression_loss": 98.3865737915039,
      "distillation_loss": 3.6567368507385254,
      "epoch": 3.74,
      "learning_rate": 4.1687539135879775e-05,
      "loss": 102.4556,
      "step": 4430,
      "task_loss": 2.5508127212524414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9266307576660289,
      "compression/movement_sparsity/importance_threshold": -0.00047617701238248343,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8903340145371821,
      "compression/movement_sparsity/model_sparsity": 0.8597483021500322,
      "compression_loss": 98.40162658691406,
      "distillation_loss": 4.968832015991211,
      "epoch": 3.75,
      "learning_rate": 4.168440826549781e-05,
      "loss": 103.4224,
      "step": 4431,
      "task_loss": 3.3280272483825684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9267786794809898,
      "compression/movement_sparsity/importance_threshold": -0.00047521697837267767,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8904519803276036,
      "compression/movement_sparsity/model_sparsity": 0.8598622154526475,
      "compression_loss": 98.41658782958984,
      "distillation_loss": 4.700809478759766,
      "epoch": 3.75,
      "learning_rate": 4.168127739511584e-05,
      "loss": 103.2138,
      "step": 4432,
      "task_loss": 3.389479160308838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9269264023426318,
      "compression/movement_sparsity/importance_threshold": -0.0004742582355987358,
      "compression/movement_sparsity/linear_layer_sparsity": 0.890525123171882,
      "compression/movement_sparsity/model_sparsity": 0.8599328456152112,
      "compression_loss": 98.431640625,
      "distillation_loss": 4.589573383331299,
      "epoch": 3.75,
      "learning_rate": 4.167814652473388e-05,
      "loss": 103.453,
      "step": 4433,
      "task_loss": 2.583601951599121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9270739263848399,
      "compression/movement_sparsity/importance_threshold": -0.00047330078319172443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8906873037758973,
      "compression/movement_sparsity/model_sparsity": 0.8600894548165527,
      "compression_loss": 98.44664001464844,
      "distillation_loss": 3.5141005516052246,
      "epoch": 3.75,
      "learning_rate": 4.167501565435191e-05,
      "loss": 102.3379,
      "step": 4434,
      "task_loss": 1.7071340084075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9272212517414994,
      "compression/movement_sparsity/importance_threshold": -0.0004723446202827093,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8907281917467208,
      "compression/movement_sparsity/model_sparsity": 0.8601289381597923,
      "compression_loss": 98.46157836914062,
      "distillation_loss": 4.201456069946289,
      "epoch": 3.75,
      "learning_rate": 4.167188478396994e-05,
      "loss": 102.5042,
      "step": 4435,
      "task_loss": 1.976671814918518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9273683785464952,
      "compression/movement_sparsity/importance_threshold": -0.000471389746002757,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8908338398719745,
      "compression/movement_sparsity/model_sparsity": 0.8602309569469319,
      "compression_loss": 98.47648620605469,
      "distillation_loss": 4.305334091186523,
      "epoch": 3.75,
      "learning_rate": 4.166875391358798e-05,
      "loss": 102.9936,
      "step": 4436,
      "task_loss": 2.3879311084747314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9275153069337128,
      "compression/movement_sparsity/importance_threshold": -0.00047043615948293236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8908839452243804,
      "compression/movement_sparsity/model_sparsity": 0.8602793410263405,
      "compression_loss": 98.49138641357422,
      "distillation_loss": 3.095916748046875,
      "epoch": 3.75,
      "learning_rate": 4.166562304320601e-05,
      "loss": 102.233,
      "step": 4437,
      "task_loss": 1.4192885160446167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9276620370370371,
      "compression/movement_sparsity/importance_threshold": -0.0004694838598543012,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8910771644367519,
      "compression/movement_sparsity/model_sparsity": 0.8604659225643553,
      "compression_loss": 98.50631713867188,
      "distillation_loss": 6.335461616516113,
      "epoch": 3.75,
      "learning_rate": 4.166249217282405e-05,
      "loss": 103.28,
      "step": 4438,
      "task_loss": 3.0801639556884766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9278085689903532,
      "compression/movement_sparsity/importance_threshold": -0.0004685328462479318,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8911554942939519,
      "compression/movement_sparsity/model_sparsity": 0.8605415615499896,
      "compression_loss": 98.52119445800781,
      "distillation_loss": 4.0575690269470215,
      "epoch": 3.75,
      "learning_rate": 4.165936130244208e-05,
      "loss": 102.6744,
      "step": 4439,
      "task_loss": 2.0254907608032227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9279549029275463,
      "compression/movement_sparsity/importance_threshold": -0.000467583117794889,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8911733566970704,
      "compression/movement_sparsity/model_sparsity": 0.8605588103246099,
      "compression_loss": 98.53596496582031,
      "distillation_loss": 3.3245294094085693,
      "epoch": 3.75,
      "learning_rate": 4.165623043206012e-05,
      "loss": 102.6602,
      "step": 4440,
      "task_loss": 1.848137378692627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9281010389825016,
      "compression/movement_sparsity/importance_threshold": -0.00046663467362623775,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8912469049630485,
      "compression/movement_sparsity/model_sparsity": 0.8606298319813905,
      "compression_loss": 98.55081939697266,
      "distillation_loss": 5.823215484619141,
      "epoch": 3.75,
      "learning_rate": 4.165309956167815e-05,
      "loss": 103.5133,
      "step": 4441,
      "task_loss": 2.6198511123657227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9282469772891043,
      "compression/movement_sparsity/importance_threshold": -0.00046568751287304547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8913160651353365,
      "compression/movement_sparsity/model_sparsity": 0.860696616288999,
      "compression_loss": 98.56565856933594,
      "distillation_loss": 4.044127941131592,
      "epoch": 3.75,
      "learning_rate": 4.1649968691296184e-05,
      "loss": 102.5394,
      "step": 4442,
      "task_loss": 1.912967324256897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9283927179812393,
      "compression/movement_sparsity/importance_threshold": -0.0004647416346663779,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8914352710391922,
      "compression/movement_sparsity/model_sparsity": 0.860811727103337,
      "compression_loss": 98.5804443359375,
      "distillation_loss": 5.277503967285156,
      "epoch": 3.76,
      "learning_rate": 4.1646837820914216e-05,
      "loss": 103.3955,
      "step": 4443,
      "task_loss": 2.4384348392486572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.928538261192792,
      "compression/movement_sparsity/importance_threshold": -0.0004637970381372999,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8915414319036542,
      "compression/movement_sparsity/model_sparsity": 0.8609142410155157,
      "compression_loss": 98.59525299072266,
      "distillation_loss": 3.4935193061828613,
      "epoch": 3.76,
      "learning_rate": 4.1643706950532254e-05,
      "loss": 102.3577,
      "step": 4444,
      "task_loss": 2.2318806648254395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9286836070576474,
      "compression/movement_sparsity/importance_threshold": -0.00046285372241687984,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8916570128605487,
      "compression/movement_sparsity/model_sparsity": 0.8610258514109722,
      "compression_loss": 98.61000061035156,
      "distillation_loss": 4.186989784240723,
      "epoch": 3.76,
      "learning_rate": 4.1640576080150286e-05,
      "loss": 102.5127,
      "step": 4445,
      "task_loss": 2.5130884647369385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9288287557096907,
      "compression/movement_sparsity/importance_threshold": -0.0004619116866361817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8916810519825026,
      "compression/movement_sparsity/model_sparsity": 0.861049064715134,
      "compression_loss": 98.62467956542969,
      "distillation_loss": 5.431525230407715,
      "epoch": 3.76,
      "learning_rate": 4.163744520976832e-05,
      "loss": 103.1569,
      "step": 4446,
      "task_loss": 2.3700380325317383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.928973707282807,
      "compression/movement_sparsity/importance_threshold": -0.00046097092992627205,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8917861992927156,
      "compression/movement_sparsity/model_sparsity": 0.8611505998917702,
      "compression_loss": 98.63932800292969,
      "distillation_loss": 4.785214900970459,
      "epoch": 3.76,
      "learning_rate": 4.163431433938635e-05,
      "loss": 102.9175,
      "step": 4447,
      "task_loss": 3.8161017894744873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9291184619108814,
      "compression/movement_sparsity/importance_threshold": -0.00046003145141821754,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8918003532796994,
      "compression/movement_sparsity/model_sparsity": 0.8611642676457584,
      "compression_loss": 98.65400695800781,
      "distillation_loss": 4.242592811584473,
      "epoch": 3.76,
      "learning_rate": 4.163118346900439e-05,
      "loss": 102.6299,
      "step": 4448,
      "task_loss": 2.195553779602051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9292630197277991,
      "compression/movement_sparsity/importance_threshold": -0.0004590932502430839,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8919321511045786,
      "compression/movement_sparsity/model_sparsity": 0.8612915378098954,
      "compression_loss": 98.66868591308594,
      "distillation_loss": 3.703857183456421,
      "epoch": 3.76,
      "learning_rate": 4.162805259862242e-05,
      "loss": 102.3081,
      "step": 4449,
      "task_loss": 1.1028790473937988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9294073808674452,
      "compression/movement_sparsity/importance_threshold": -0.00045815632553193684,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8920437732378179,
      "compression/movement_sparsity/model_sparsity": 0.8613993253794682,
      "compression_loss": 98.68330383300781,
      "distillation_loss": 3.832453727722168,
      "epoch": 3.76,
      "learning_rate": 4.162492172824045e-05,
      "loss": 102.69,
      "step": 4450,
      "task_loss": 2.9609053134918213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.929551545463705,
      "compression/movement_sparsity/importance_threshold": -0.0004572206764158421,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8920511185250816,
      "compression/movement_sparsity/model_sparsity": 0.8614064183335176,
      "compression_loss": 98.69788360595703,
      "distillation_loss": 6.250268936157227,
      "epoch": 3.76,
      "learning_rate": 4.162179085785849e-05,
      "loss": 103.1911,
      "step": 4451,
      "task_loss": 3.3039557933807373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9296955136504633,
      "compression/movement_sparsity/importance_threshold": -0.00045628630202586805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8920848758436587,
      "compression/movement_sparsity/model_sparsity": 0.8614390159843519,
      "compression_loss": 98.71240234375,
      "distillation_loss": 5.855362892150879,
      "epoch": 3.76,
      "learning_rate": 4.161865998747652e-05,
      "loss": 103.5432,
      "step": 4452,
      "task_loss": 3.1981797218322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9298392855616057,
      "compression/movement_sparsity/importance_threshold": -0.0004553532014930769,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8921912751914736,
      "compression/movement_sparsity/model_sparsity": 0.8615417601872466,
      "compression_loss": 98.72698211669922,
      "distillation_loss": 4.656683921813965,
      "epoch": 3.76,
      "learning_rate": 4.1615529117094554e-05,
      "loss": 102.7055,
      "step": 4453,
      "task_loss": 2.660473585128784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9299828613310169,
      "compression/movement_sparsity/importance_threshold": -0.0004544213739485379,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8923268410533256,
      "compression/movement_sparsity/model_sparsity": 0.8616726689446947,
      "compression_loss": 98.74144744873047,
      "distillation_loss": 4.6848649978637695,
      "epoch": 3.76,
      "learning_rate": 4.1612398246712586e-05,
      "loss": 103.3436,
      "step": 4454,
      "task_loss": 2.332627296447754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9301262410925824,
      "compression/movement_sparsity/importance_threshold": -0.00045349081852331507,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8924293769708265,
      "compression/movement_sparsity/model_sparsity": 0.861771682437992,
      "compression_loss": 98.75597381591797,
      "distillation_loss": 4.7595930099487305,
      "epoch": 3.77,
      "learning_rate": 4.1609267376330624e-05,
      "loss": 103.0363,
      "step": 4455,
      "task_loss": 2.0028018951416016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.930269424980187,
      "compression/movement_sparsity/importance_threshold": -0.0004525615343484758,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8924332284769728,
      "compression/movement_sparsity/model_sparsity": 0.8617754016330537,
      "compression_loss": 98.77041625976562,
      "distillation_loss": 3.9076905250549316,
      "epoch": 3.77,
      "learning_rate": 4.1606136505948656e-05,
      "loss": 102.2835,
      "step": 4456,
      "task_loss": 2.044459104537964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.930412413127716,
      "compression/movement_sparsity/importance_threshold": -0.0004516335205550868,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8925105447799238,
      "compression/movement_sparsity/model_sparsity": 0.8618500618831455,
      "compression_loss": 98.78485107421875,
      "distillation_loss": 6.431154251098633,
      "epoch": 3.77,
      "learning_rate": 4.160300563556669e-05,
      "loss": 103.0194,
      "step": 4457,
      "task_loss": 3.995347738265991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9305552056690547,
      "compression/movement_sparsity/importance_threshold": -0.0004507067762742111,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8927182399318052,
      "compression/movement_sparsity/model_sparsity": 0.8620506220676147,
      "compression_loss": 98.7992935180664,
      "distillation_loss": 5.332747459411621,
      "epoch": 3.77,
      "learning_rate": 4.159987476518472e-05,
      "loss": 103.0928,
      "step": 4458,
      "task_loss": 1.7774864435195923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9306978027380881,
      "compression/movement_sparsity/importance_threshold": -0.00044978130063691706,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8926850788216099,
      "compression/movement_sparsity/model_sparsity": 0.8620186001435701,
      "compression_loss": 98.813720703125,
      "distillation_loss": 4.489331245422363,
      "epoch": 3.77,
      "learning_rate": 4.159674389480276e-05,
      "loss": 102.7709,
      "step": 4459,
      "task_loss": 2.5787432193756104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9308402044687013,
      "compression/movement_sparsity/importance_threshold": -0.00044885709277427046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8927693469142925,
      "compression/movement_sparsity/model_sparsity": 0.8620999733680301,
      "compression_loss": 98.828125,
      "distillation_loss": 3.2915191650390625,
      "epoch": 3.77,
      "learning_rate": 4.159361302442079e-05,
      "loss": 103.069,
      "step": 4460,
      "task_loss": 2.7292308807373047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9309824109947794,
      "compression/movement_sparsity/importance_threshold": -0.0004479341518173379,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8928089589991789,
      "compression/movement_sparsity/model_sparsity": 0.8621382246559396,
      "compression_loss": 98.84245300292969,
      "distillation_loss": 4.1890764236450195,
      "epoch": 3.77,
      "learning_rate": 4.159048215403882e-05,
      "loss": 103.4922,
      "step": 4461,
      "task_loss": 2.247316360473633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9311244224502077,
      "compression/movement_sparsity/importance_threshold": -0.0004470124768971833,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8928978059722337,
      "compression/movement_sparsity/model_sparsity": 0.8622240194621448,
      "compression_loss": 98.85684967041016,
      "distillation_loss": 3.8742027282714844,
      "epoch": 3.77,
      "learning_rate": 4.158735128365686e-05,
      "loss": 103.0748,
      "step": 4462,
      "task_loss": 1.7955517768859863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9312662389688712,
      "compression/movement_sparsity/importance_threshold": -0.0004460920671448751,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8929848404718078,
      "compression/movement_sparsity/model_sparsity": 0.8623080640589091,
      "compression_loss": 98.87114715576172,
      "distillation_loss": 3.59493350982666,
      "epoch": 3.77,
      "learning_rate": 4.158422041327489e-05,
      "loss": 102.8754,
      "step": 4463,
      "task_loss": 1.7760859727859497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9314078606846552,
      "compression/movement_sparsity/importance_threshold": -0.00044517292169147724,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8929836838275471,
      "compression/movement_sparsity/model_sparsity": 0.8623069471489371,
      "compression_loss": 98.88544464111328,
      "distillation_loss": 5.622312545776367,
      "epoch": 3.77,
      "learning_rate": 4.1581089542892924e-05,
      "loss": 103.3414,
      "step": 4464,
      "task_loss": 3.6341607570648193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9315492877314446,
      "compression/movement_sparsity/importance_threshold": -0.0004442550396680572,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8930826424947572,
      "compression/movement_sparsity/model_sparsity": 0.862402506281496,
      "compression_loss": 98.89974212646484,
      "distillation_loss": 4.63020658493042,
      "epoch": 3.77,
      "learning_rate": 4.1577958672510956e-05,
      "loss": 103.4013,
      "step": 4465,
      "task_loss": 2.9918441772460938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9316905202431248,
      "compression/movement_sparsity/importance_threshold": -0.00044333842020568073,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8930888192135925,
      "compression/movement_sparsity/model_sparsity": 0.8624084708110376,
      "compression_loss": 98.9139633178711,
      "distillation_loss": 3.2491817474365234,
      "epoch": 3.77,
      "learning_rate": 4.1574827802128994e-05,
      "loss": 103.0766,
      "step": 4466,
      "task_loss": 0.9399847984313965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9318315583535808,
      "compression/movement_sparsity/importance_threshold": -0.0004424230624354144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8931974364565877,
      "compression/movement_sparsity/model_sparsity": 0.86251335671759,
      "compression_loss": 98.92816925048828,
      "distillation_loss": 3.5754899978637695,
      "epoch": 3.78,
      "learning_rate": 4.1571696931747026e-05,
      "loss": 103.0083,
      "step": 4467,
      "task_loss": 2.222385883331299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9319724021966976,
      "compression/movement_sparsity/importance_threshold": -0.00044150896548832315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8932488057707629,
      "compression/movement_sparsity/model_sparsity": 0.8625629613377929,
      "compression_loss": 98.94235229492188,
      "distillation_loss": 3.746732234954834,
      "epoch": 3.78,
      "learning_rate": 4.156856606136506e-05,
      "loss": 103.175,
      "step": 4468,
      "task_loss": 2.5957627296447754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9321130519063607,
      "compression/movement_sparsity/importance_threshold": -0.0004405961284954735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.893261409615954,
      "compression/movement_sparsity/model_sparsity": 0.8625751322021277,
      "compression_loss": 98.9565658569336,
      "distillation_loss": 5.249558925628662,
      "epoch": 3.78,
      "learning_rate": 4.1565435190983096e-05,
      "loss": 103.8044,
      "step": 4469,
      "task_loss": 3.0654940605163574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.932253507616455,
      "compression/movement_sparsity/importance_threshold": -0.00043968455058793123,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8933244884627477,
      "compression/movement_sparsity/model_sparsity": 0.8626360440964808,
      "compression_loss": 98.97073364257812,
      "distillation_loss": 5.597637176513672,
      "epoch": 3.78,
      "learning_rate": 4.156230432060113e-05,
      "loss": 103.4417,
      "step": 4470,
      "task_loss": 3.0430383682250977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9323937694608657,
      "compression/movement_sparsity/importance_threshold": -0.00043877423089676206,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8933505069965292,
      "compression/movement_sparsity/model_sparsity": 0.8626611688135845,
      "compression_loss": 98.98484802246094,
      "distillation_loss": 3.8404667377471924,
      "epoch": 3.78,
      "learning_rate": 4.1559173450219167e-05,
      "loss": 103.067,
      "step": 4471,
      "task_loss": 2.3698019981384277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9325338375734779,
      "compression/movement_sparsity/importance_threshold": -0.00043786516855303347,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8934847015791032,
      "compression/movement_sparsity/model_sparsity": 0.8627907533994162,
      "compression_loss": 98.9989242553711,
      "distillation_loss": 6.135897636413574,
      "epoch": 3.78,
      "learning_rate": 4.15560425798372e-05,
      "loss": 103.6012,
      "step": 4472,
      "task_loss": 3.042968988418579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9326737120881767,
      "compression/movement_sparsity/importance_threshold": -0.0004369573626878103,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8936083075008165,
      "compression/movement_sparsity/model_sparsity": 0.8629101130774625,
      "compression_loss": 99.01300811767578,
      "distillation_loss": 4.69561767578125,
      "epoch": 3.78,
      "learning_rate": 4.155291170945523e-05,
      "loss": 103.534,
      "step": 4473,
      "task_loss": 1.9008699655532837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9328133931388474,
      "compression/movement_sparsity/importance_threshold": -0.0004360508124321592,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8936496128175072,
      "compression/movement_sparsity/model_sparsity": 0.8629499994294547,
      "compression_loss": 99.027099609375,
      "distillation_loss": 4.835062026977539,
      "epoch": 3.78,
      "learning_rate": 4.154978083907327e-05,
      "loss": 103.2797,
      "step": 4474,
      "task_loss": 3.266671657562256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.932952880859375,
      "compression/movement_sparsity/importance_threshold": -0.00043514551691714587,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8936927425318462,
      "compression/movement_sparsity/model_sparsity": 0.8629916475054236,
      "compression_loss": 99.04104614257812,
      "distillation_loss": 3.283834218978882,
      "epoch": 3.78,
      "learning_rate": 4.15466499686913e-05,
      "loss": 103.3851,
      "step": 4475,
      "task_loss": 1.1404616832733154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9330921753836448,
      "compression/movement_sparsity/importance_threshold": -0.00043424147527383605,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8937446603577327,
      "compression/movement_sparsity/model_sparsity": 0.863041781794273,
      "compression_loss": 99.0550537109375,
      "distillation_loss": 5.465261459350586,
      "epoch": 3.78,
      "learning_rate": 4.154351909830933e-05,
      "loss": 103.377,
      "step": 4476,
      "task_loss": 2.793916940689087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9332312768455415,
      "compression/movement_sparsity/importance_threshold": -0.0004333386866332972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8938037088358655,
      "compression/movement_sparsity/model_sparsity": 0.8630988017755276,
      "compression_loss": 99.06903839111328,
      "distillation_loss": 3.74177885055542,
      "epoch": 3.78,
      "learning_rate": 4.154038822792737e-05,
      "loss": 103.5717,
      "step": 4477,
      "task_loss": 2.579580783843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9333701853789509,
      "compression/movement_sparsity/importance_threshold": -0.0004324371501265934,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8938302401088553,
      "compression/movement_sparsity/model_sparsity": 0.8631244216176704,
      "compression_loss": 99.0829849243164,
      "distillation_loss": 4.0651631355285645,
      "epoch": 3.78,
      "learning_rate": 4.15372573575454e-05,
      "loss": 102.8914,
      "step": 4478,
      "task_loss": 2.3306782245635986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9335089011177578,
      "compression/movement_sparsity/importance_threshold": -0.0004315368648847911,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8938853774600035,
      "compression/movement_sparsity/model_sparsity": 0.8631776648311844,
      "compression_loss": 99.09693908691406,
      "distillation_loss": 3.923036813735962,
      "epoch": 3.79,
      "learning_rate": 4.1534126487163434e-05,
      "loss": 103.6869,
      "step": 4479,
      "task_loss": 2.1073946952819824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9336474241958472,
      "compression/movement_sparsity/importance_threshold": -0.00043063783003895705,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8939400855411168,
      "compression/movement_sparsity/model_sparsity": 0.8632304935214098,
      "compression_loss": 99.11096954345703,
      "distillation_loss": 5.14935302734375,
      "epoch": 3.79,
      "learning_rate": 4.1530995616781466e-05,
      "loss": 103.6048,
      "step": 4480,
      "task_loss": 3.126893997192383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9337857547471043,
      "compression/movement_sparsity/importance_threshold": -0.00042974004472015777,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8940060381123108,
      "compression/movement_sparsity/model_sparsity": 0.8632941804188894,
      "compression_loss": 99.12496948242188,
      "distillation_loss": 4.621941566467285,
      "epoch": 3.79,
      "learning_rate": 4.1527864746399505e-05,
      "loss": 103.5581,
      "step": 4481,
      "task_loss": 2.3639769554138184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9339238929054146,
      "compression/movement_sparsity/importance_threshold": -0.00042884350805945815,
      "compression/movement_sparsity/linear_layer_sparsity": 0.89411216320427,
      "compression/movement_sparsity/model_sparsity": 0.8633966597874608,
      "compression_loss": 99.13893127441406,
      "distillation_loss": 3.829904556274414,
      "epoch": 3.79,
      "learning_rate": 4.1524733876017536e-05,
      "loss": 103.3384,
      "step": 4482,
      "task_loss": 2.2156357765197754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9340618388046628,
      "compression/movement_sparsity/importance_threshold": -0.0004279482191879248,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8942013082815157,
      "compression/movement_sparsity/model_sparsity": 0.8634827424570608,
      "compression_loss": 99.15289306640625,
      "distillation_loss": 3.5327649116516113,
      "epoch": 3.79,
      "learning_rate": 4.152160300563557e-05,
      "loss": 103.6933,
      "step": 4483,
      "task_loss": 1.7134519815444946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9341995925787342,
      "compression/movement_sparsity/importance_threshold": -0.0004270541772366243,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8943221954930081,
      "compression/movement_sparsity/model_sparsity": 0.8635994768209458,
      "compression_loss": 99.16687774658203,
      "distillation_loss": 4.055639266967773,
      "epoch": 3.79,
      "learning_rate": 4.15184721352536e-05,
      "loss": 103.0948,
      "step": 4484,
      "task_loss": 1.7365601062774658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.934337154361514,
      "compression/movement_sparsity/importance_threshold": -0.0004261613813366207,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8943548915606656,
      "compression/movement_sparsity/model_sparsity": 0.8636310496780945,
      "compression_loss": 99.18077087402344,
      "distillation_loss": 4.231998920440674,
      "epoch": 3.79,
      "learning_rate": 4.151534126487164e-05,
      "loss": 103.5486,
      "step": 4485,
      "task_loss": 2.820758581161499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9344745242868874,
      "compression/movement_sparsity/importance_threshold": -0.0004252698306189814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8944099335184728,
      "compression/movement_sparsity/model_sparsity": 0.863684200775322,
      "compression_loss": 99.19465637207031,
      "distillation_loss": 4.707241058349609,
      "epoch": 3.79,
      "learning_rate": 4.151221039448967e-05,
      "loss": 103.1456,
      "step": 4486,
      "task_loss": 3.3994479179382324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9346117024887393,
      "compression/movement_sparsity/importance_threshold": -0.0004243795242147739,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8944608854867808,
      "compression/movement_sparsity/model_sparsity": 0.8637334023867721,
      "compression_loss": 99.20853424072266,
      "distillation_loss": 5.219758987426758,
      "epoch": 3.79,
      "learning_rate": 4.15090795241077e-05,
      "loss": 103.7853,
      "step": 4487,
      "task_loss": 4.232064247131348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.934748689100955,
      "compression/movement_sparsity/importance_threshold": -0.0004234904612550614,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8944888357357192,
      "compression/movement_sparsity/model_sparsity": 0.8637603924586745,
      "compression_loss": 99.22229766845703,
      "distillation_loss": 3.9475603103637695,
      "epoch": 3.79,
      "learning_rate": 4.150594865372574e-05,
      "loss": 102.9463,
      "step": 4488,
      "task_loss": 3.069196939468384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9348854842574196,
      "compression/movement_sparsity/importance_threshold": -0.0004226026408709121,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8945546332927339,
      "compression/movement_sparsity/model_sparsity": 0.8638239296671888,
      "compression_loss": 99.23612213134766,
      "distillation_loss": 5.716420650482178,
      "epoch": 3.79,
      "learning_rate": 4.150281778334377e-05,
      "loss": 103.6993,
      "step": 4489,
      "task_loss": 2.2899162769317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9350220880920183,
      "compression/movement_sparsity/importance_threshold": -0.000421716062193391,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8946766413759841,
      "compression/movement_sparsity/model_sparsity": 0.8639417463974386,
      "compression_loss": 99.2499008178711,
      "distillation_loss": 3.531751871109009,
      "epoch": 3.79,
      "learning_rate": 4.1499686912961804e-05,
      "loss": 103.415,
      "step": 4490,
      "task_loss": 2.5611653327941895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9351585007386362,
      "compression/movement_sparsity/importance_threshold": -0.00042083072435356375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8948368664165072,
      "compression/movement_sparsity/model_sparsity": 0.8640964672149098,
      "compression_loss": 99.26371765136719,
      "distillation_loss": 3.6139590740203857,
      "epoch": 3.8,
      "learning_rate": 4.1496556042579836e-05,
      "loss": 103.3738,
      "step": 4491,
      "task_loss": 2.152653455734253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9352947223311583,
      "compression/movement_sparsity/importance_threshold": -0.00041994662648249786,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8948718638485185,
      "compression/movement_sparsity/model_sparsity": 0.8641302623774668,
      "compression_loss": 99.2774887084961,
      "distillation_loss": 5.428610801696777,
      "epoch": 3.8,
      "learning_rate": 4.1493425172197875e-05,
      "loss": 103.4499,
      "step": 4492,
      "task_loss": 3.5060925483703613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.93543075300347,
      "compression/movement_sparsity/importance_threshold": -0.0004190637677112582,
      "compression/movement_sparsity/linear_layer_sparsity": 0.895013964154235,
      "compression/movement_sparsity/model_sparsity": 0.8642674811005303,
      "compression_loss": 99.29115295410156,
      "distillation_loss": 5.494523048400879,
      "epoch": 3.8,
      "learning_rate": 4.1490294301815906e-05,
      "loss": 103.9601,
      "step": 4493,
      "task_loss": 2.7337887287139893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9355665928894563,
      "compression/movement_sparsity/importance_threshold": -0.00041818214717091046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.895039016830438,
      "compression/movement_sparsity/model_sparsity": 0.8642916731402347,
      "compression_loss": 99.30488586425781,
      "distillation_loss": 3.989633083343506,
      "epoch": 3.8,
      "learning_rate": 4.148716343143394e-05,
      "loss": 103.1846,
      "step": 4494,
      "task_loss": 1.6610260009765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9357022421230023,
      "compression/movement_sparsity/importance_threshold": -0.00041730176399252215,
      "compression/movement_sparsity/linear_layer_sparsity": 0.895118586801072,
      "compression/movement_sparsity/model_sparsity": 0.8643685096375916,
      "compression_loss": 99.31859588623047,
      "distillation_loss": 4.864150047302246,
      "epoch": 3.8,
      "learning_rate": 4.148403256105197e-05,
      "loss": 103.2267,
      "step": 4495,
      "task_loss": 2.2815091609954834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9358377008379933,
      "compression/movement_sparsity/importance_threshold": -0.00041642261730715814,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8951761328340827,
      "compression/movement_sparsity/model_sparsity": 0.8644240787873361,
      "compression_loss": 99.33219909667969,
      "distillation_loss": 6.066831111907959,
      "epoch": 3.8,
      "learning_rate": 4.148090169067001e-05,
      "loss": 104.338,
      "step": 4496,
      "task_loss": 3.3299429416656494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9359729691683143,
      "compression/movement_sparsity/importance_threshold": -0.0004155447062458859,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8951796981602058,
      "compression/movement_sparsity/model_sparsity": 0.8644275216335386,
      "compression_loss": 99.34584045410156,
      "distillation_loss": 2.8134894371032715,
      "epoch": 3.8,
      "learning_rate": 4.147777082028804e-05,
      "loss": 103.2007,
      "step": 4497,
      "task_loss": 1.627724528312683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9361080472478505,
      "compression/movement_sparsity/importance_threshold": -0.0004146680299397694,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8952712757676493,
      "compression/movement_sparsity/model_sparsity": 0.8645159532684407,
      "compression_loss": 99.3594741821289,
      "distillation_loss": 4.590512275695801,
      "epoch": 3.8,
      "learning_rate": 4.147463994990607e-05,
      "loss": 103.2655,
      "step": 4498,
      "task_loss": 2.4228553771972656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.936242935210487,
      "compression/movement_sparsity/importance_threshold": -0.00041379258751987613,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8952809581917696,
      "compression/movement_sparsity/model_sparsity": 0.8645253030715059,
      "compression_loss": 99.37309265136719,
      "distillation_loss": 5.057433605194092,
      "epoch": 3.8,
      "learning_rate": 4.147150907952411e-05,
      "loss": 103.7737,
      "step": 4499,
      "task_loss": 2.084150552749634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9363776331901089,
      "compression/movement_sparsity/importance_threshold": -0.00041291837811727097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8952280387358017,
      "compression/movement_sparsity/model_sparsity": 0.8644742015616497,
      "compression_loss": 99.38665008544922,
      "distillation_loss": 3.54097318649292,
      "epoch": 3.8,
      "learning_rate": 4.146837820914214e-05,
      "loss": 103.5744,
      "step": 4500,
      "task_loss": 1.7322368621826172
    },
    {
      "epoch": 3.8,
      "eval_accuracy": 0.5845544554455445,
      "eval_loss": 103.1210708618164,
      "eval_runtime": 210.3364,
      "eval_samples_per_second": 120.046,
      "eval_steps_per_second": 0.941,
      "step": 4500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9365121413206015,
      "compression/movement_sparsity/importance_threshold": -0.00041204540086302137,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8952323314361506,
      "compression/movement_sparsity/model_sparsity": 0.8644783467945357,
      "compression_loss": 99.40016174316406,
      "distillation_loss": 5.261808395385742,
      "epoch": 3.8,
      "learning_rate": 4.1465247338760174e-05,
      "loss": 103.899,
      "step": 4501,
      "task_loss": 2.3957977294921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9366464597358498,
      "compression/movement_sparsity/importance_threshold": -0.0004111736548881922,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8952796703816649,
      "compression/movement_sparsity/model_sparsity": 0.86452405950164,
      "compression_loss": 99.41363525390625,
      "distillation_loss": 3.613737106323242,
      "epoch": 3.81,
      "learning_rate": 4.1462116468378206e-05,
      "loss": 103.6102,
      "step": 4502,
      "task_loss": 2.689242124557495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.936780588569739,
      "compression/movement_sparsity/importance_threshold": -0.0004103031393238501,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8953778539779786,
      "compression/movement_sparsity/model_sparsity": 0.8646188701893723,
      "compression_loss": 99.42716217041016,
      "distillation_loss": 4.073810577392578,
      "epoch": 3.81,
      "learning_rate": 4.1458985597996245e-05,
      "loss": 103.797,
      "step": 4503,
      "task_loss": 2.607189416885376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9369145279561542,
      "compression/movement_sparsity/importance_threshold": -0.0004094338533010616,
      "compression/movement_sparsity/linear_layer_sparsity": 0.895417954953738,
      "compression/movement_sparsity/model_sparsity": 0.8646575935732493,
      "compression_loss": 99.44070434570312,
      "distillation_loss": 3.822589874267578,
      "epoch": 3.81,
      "learning_rate": 4.1455854727614276e-05,
      "loss": 103.086,
      "step": 4504,
      "task_loss": 1.613885760307312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9370482780289806,
      "compression/movement_sparsity/importance_threshold": -0.00040856579595089076,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8955035347048607,
      "compression/movement_sparsity/model_sparsity": 0.8647402333966467,
      "compression_loss": 99.4541244506836,
      "distillation_loss": 3.6968088150024414,
      "epoch": 3.81,
      "learning_rate": 4.1452723857232315e-05,
      "loss": 103.2327,
      "step": 4505,
      "task_loss": 1.9439810514450073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9371818389221033,
      "compression/movement_sparsity/importance_threshold": -0.00040769896640440676,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8955605918469982,
      "compression/movement_sparsity/model_sparsity": 0.8647953304504237,
      "compression_loss": 99.46756744384766,
      "distillation_loss": 4.251734733581543,
      "epoch": 3.81,
      "learning_rate": 4.144959298685035e-05,
      "loss": 103.8147,
      "step": 4506,
      "task_loss": 2.1952884197235107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9373152107694074,
      "compression/movement_sparsity/importance_threshold": -0.00040683336379267274,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8957116114301065,
      "compression/movement_sparsity/model_sparsity": 0.8649411620462615,
      "compression_loss": 99.4809799194336,
      "distillation_loss": 5.458251953125,
      "epoch": 3.81,
      "learning_rate": 4.1446462116468385e-05,
      "loss": 104.1068,
      "step": 4507,
      "task_loss": 3.1676697731018066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9374483937047781,
      "compression/movement_sparsity/importance_threshold": -0.0004059689872467562,
      "compression/movement_sparsity/linear_layer_sparsity": 0.895822732748305,
      "compression/movement_sparsity/model_sparsity": 0.8650484660053308,
      "compression_loss": 99.49435424804688,
      "distillation_loss": 4.807710647583008,
      "epoch": 3.81,
      "learning_rate": 4.144333124608642e-05,
      "loss": 104.1579,
      "step": 4508,
      "task_loss": 2.6813502311706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9375813878621005,
      "compression/movement_sparsity/importance_threshold": -0.0004051058358977228,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8959035786048762,
      "compression/movement_sparsity/model_sparsity": 0.8651265345580178,
      "compression_loss": 99.50768280029297,
      "distillation_loss": 6.0586347579956055,
      "epoch": 3.81,
      "learning_rate": 4.144020037570445e-05,
      "loss": 104.2858,
      "step": 4509,
      "task_loss": 2.9718077182769775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9377141933752599,
      "compression/movement_sparsity/importance_threshold": -0.0004042439088766383,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8959849848973263,
      "compression/movement_sparsity/model_sparsity": 0.8652051442938872,
      "compression_loss": 99.52103424072266,
      "distillation_loss": 5.754048824310303,
      "epoch": 3.81,
      "learning_rate": 4.143706950532248e-05,
      "loss": 103.4928,
      "step": 4510,
      "task_loss": 2.371142864227295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9378468103781411,
      "compression/movement_sparsity/importance_threshold": -0.00040338320531457025,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8959650119165362,
      "compression/movement_sparsity/model_sparsity": 0.8651858574464313,
      "compression_loss": 99.53422546386719,
      "distillation_loss": 5.329265117645264,
      "epoch": 3.81,
      "learning_rate": 4.143393863494052e-05,
      "loss": 104.1329,
      "step": 4511,
      "task_loss": 2.609250068664551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9379792390046297,
      "compression/movement_sparsity/importance_threshold": -0.0004025237243425817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8959999258793739,
      "compression/movement_sparsity/model_sparsity": 0.8652195720072378,
      "compression_loss": 99.54750061035156,
      "distillation_loss": 3.084571123123169,
      "epoch": 3.81,
      "learning_rate": 4.143080776455855e-05,
      "loss": 103.3043,
      "step": 4512,
      "task_loss": 2.57709002494812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9381114793886104,
      "compression/movement_sparsity/importance_threshold": -0.00040166546509174186,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8960387271208611,
      "compression/movement_sparsity/model_sparsity": 0.8652570403067131,
      "compression_loss": 99.5606918334961,
      "distillation_loss": 5.930343151092529,
      "epoch": 3.81,
      "learning_rate": 4.142767689417658e-05,
      "loss": 104.0844,
      "step": 4513,
      "task_loss": 2.5774576663970947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9382435316639686,
      "compression/movement_sparsity/importance_threshold": -0.00040080842669311476,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8961936459067862,
      "compression/movement_sparsity/model_sparsity": 0.8654066371557558,
      "compression_loss": 99.5739517211914,
      "distillation_loss": 5.6854705810546875,
      "epoch": 3.82,
      "learning_rate": 4.142454602379462e-05,
      "loss": 105.2846,
      "step": 4514,
      "task_loss": 2.750324249267578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9383753959645893,
      "compression/movement_sparsity/importance_threshold": -0.00039995260827776786,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8962645470075491,
      "compression/movement_sparsity/model_sparsity": 0.8654751025855901,
      "compression_loss": 99.58717346191406,
      "distillation_loss": 4.3391265869140625,
      "epoch": 3.82,
      "learning_rate": 4.142141515341265e-05,
      "loss": 103.77,
      "step": 4515,
      "task_loss": 2.3447625637054443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9385070724243578,
      "compression/movement_sparsity/importance_threshold": -0.000399098008976766,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8962963368384662,
      "compression/movement_sparsity/model_sparsity": 0.8655058003380184,
      "compression_loss": 99.6003646850586,
      "distillation_loss": 3.403304100036621,
      "epoch": 3.82,
      "learning_rate": 4.1418284283030685e-05,
      "loss": 103.1246,
      "step": 4516,
      "task_loss": 1.5900479555130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9386385611771592,
      "compression/movement_sparsity/importance_threshold": -0.000398244627921175,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8963946158281211,
      "compression/movement_sparsity/model_sparsity": 0.865600703142037,
      "compression_loss": 99.61360931396484,
      "distillation_loss": 3.952195167541504,
      "epoch": 3.82,
      "learning_rate": 4.1415153412648717e-05,
      "loss": 103.8213,
      "step": 4517,
      "task_loss": 1.780625581741333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9387698623568784,
      "compression/movement_sparsity/importance_threshold": -0.0003973924642420622,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8964542366663003,
      "compression/movement_sparsity/model_sparsity": 0.8656582758210097,
      "compression_loss": 99.62678527832031,
      "distillation_loss": 5.036187171936035,
      "epoch": 3.82,
      "learning_rate": 4.1412022542266755e-05,
      "loss": 104.3613,
      "step": 4518,
      "task_loss": 1.9454435110092163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9389009760974009,
      "compression/movement_sparsity/importance_threshold": -0.00039654151707049345,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8965298120407764,
      "compression/movement_sparsity/model_sparsity": 0.8657312549488755,
      "compression_loss": 99.63996124267578,
      "distillation_loss": 3.2574825286865234,
      "epoch": 3.82,
      "learning_rate": 4.140889167188479e-05,
      "loss": 103.5242,
      "step": 4519,
      "task_loss": 1.916933536529541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9390319025326116,
      "compression/movement_sparsity/importance_threshold": -0.00039569178553753356,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8966541214883803,
      "compression/movement_sparsity/model_sparsity": 0.8658512939845336,
      "compression_loss": 99.65312194824219,
      "distillation_loss": 4.220731735229492,
      "epoch": 3.82,
      "learning_rate": 4.140576080150282e-05,
      "loss": 104.2491,
      "step": 4520,
      "task_loss": 1.577354073524475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9391626417963957,
      "compression/movement_sparsity/importance_threshold": -0.00039484326877425,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8966541453367156,
      "compression/movement_sparsity/model_sparsity": 0.8658513170136052,
      "compression_loss": 99.66622924804688,
      "distillation_loss": 4.958728313446045,
      "epoch": 3.82,
      "learning_rate": 4.140262993112085e-05,
      "loss": 104.0817,
      "step": 4521,
      "task_loss": 3.313663959503174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9392931940226384,
      "compression/movement_sparsity/importance_threshold": -0.00039399596591170767,
      "compression/movement_sparsity/linear_layer_sparsity": 0.896668442413711,
      "compression/movement_sparsity/model_sparsity": 0.8658651229420229,
      "compression_loss": 99.67936706542969,
      "distillation_loss": 3.7188241481781006,
      "epoch": 3.82,
      "learning_rate": 4.139949906073889e-05,
      "loss": 103.6273,
      "step": 4522,
      "task_loss": 1.6565232276916504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9394235593452248,
      "compression/movement_sparsity/importance_threshold": -0.00039314987608097315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8967161748567574,
      "compression/movement_sparsity/model_sparsity": 0.8659112156288084,
      "compression_loss": 99.69247436523438,
      "distillation_loss": 5.640217304229736,
      "epoch": 3.82,
      "learning_rate": 4.139636819035692e-05,
      "loss": 104.5955,
      "step": 4523,
      "task_loss": 2.803363800048828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.93955373789804,
      "compression/movement_sparsity/importance_threshold": -0.00039230499841311304,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8967791225377071,
      "compression/movement_sparsity/model_sparsity": 0.8659720008632678,
      "compression_loss": 99.70559692382812,
      "distillation_loss": 4.650172233581543,
      "epoch": 3.82,
      "learning_rate": 4.139323731997495e-05,
      "loss": 104.868,
      "step": 4524,
      "task_loss": 3.247243881225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9396837298149692,
      "compression/movement_sparsity/importance_threshold": -0.0003914613320391922,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8968520984436386,
      "compression/movement_sparsity/model_sparsity": 0.8660424698223304,
      "compression_loss": 99.71873474121094,
      "distillation_loss": 4.9277496337890625,
      "epoch": 3.82,
      "learning_rate": 4.139010644959299e-05,
      "loss": 104.2309,
      "step": 4525,
      "task_loss": 2.6433651447296143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9398135352298975,
      "compression/movement_sparsity/importance_threshold": -0.0003906188760902773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8969409692650286,
      "compression/movement_sparsity/model_sparsity": 0.8661282876576071,
      "compression_loss": 99.73179626464844,
      "distillation_loss": 3.7554702758789062,
      "epoch": 3.83,
      "learning_rate": 4.138697557921102e-05,
      "loss": 104.2121,
      "step": 4526,
      "task_loss": 2.212545871734619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9399431542767102,
      "compression/movement_sparsity/importance_threshold": -0.00038977762969743396,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8969943537635344,
      "compression/movement_sparsity/model_sparsity": 0.8661798382343593,
      "compression_loss": 99.74490356445312,
      "distillation_loss": 4.692024230957031,
      "epoch": 3.83,
      "learning_rate": 4.1383844708829055e-05,
      "loss": 103.819,
      "step": 4527,
      "task_loss": 3.0202016830444336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9400725870892921,
      "compression/movement_sparsity/importance_threshold": -0.00038893759199172886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8971558189174916,
      "compression/movement_sparsity/model_sparsity": 0.8663357565635531,
      "compression_loss": 99.75799560546875,
      "distillation_loss": 2.4251763820648193,
      "epoch": 3.83,
      "learning_rate": 4.1380713838447087e-05,
      "loss": 103.6276,
      "step": 4528,
      "task_loss": 2.419297456741333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9402018338015287,
      "compression/movement_sparsity/importance_threshold": -0.00038809876210422773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8971788325610288,
      "compression/movement_sparsity/model_sparsity": 0.8663579796176366,
      "compression_loss": 99.77102661132812,
      "distillation_loss": 4.812941551208496,
      "epoch": 3.83,
      "learning_rate": 4.1377582968065125e-05,
      "loss": 104.4546,
      "step": 4529,
      "task_loss": 2.3952527046203613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9403308945473048,
      "compression/movement_sparsity/importance_threshold": -0.00038726113916599716,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8972307026902449,
      "compression/movement_sparsity/model_sparsity": 0.8664080678483428,
      "compression_loss": 99.7840576171875,
      "distillation_loss": 5.288850784301758,
      "epoch": 3.83,
      "learning_rate": 4.137445209768316e-05,
      "loss": 104.242,
      "step": 4530,
      "task_loss": 3.619065523147583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9404597694605058,
      "compression/movement_sparsity/importance_threshold": -0.000386424722308102,
      "compression/movement_sparsity/linear_layer_sparsity": 0.897285708875549,
      "compression/movement_sparsity/model_sparsity": 0.8664611844019631,
      "compression_loss": 99.7970962524414,
      "distillation_loss": 4.36412239074707,
      "epoch": 3.83,
      "learning_rate": 4.137132122730119e-05,
      "loss": 104.1718,
      "step": 4531,
      "task_loss": 2.793273687362671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9405884586750167,
      "compression/movement_sparsity/importance_threshold": -0.00038558951066160977,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8973018422743604,
      "compression/movement_sparsity/model_sparsity": 0.866476763568893,
      "compression_loss": 99.81007385253906,
      "distillation_loss": 2.4807024002075195,
      "epoch": 3.83,
      "learning_rate": 4.136819035691922e-05,
      "loss": 103.77,
      "step": 4532,
      "task_loss": 0.7518596053123474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9407169623247228,
      "compression/movement_sparsity/importance_threshold": -0.0003847555033575844,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8973112623667927,
      "compression/movement_sparsity/model_sparsity": 0.8664858600521708,
      "compression_loss": 99.8230209350586,
      "distillation_loss": 4.341029167175293,
      "epoch": 3.83,
      "learning_rate": 4.136505948653726e-05,
      "loss": 104.6602,
      "step": 4533,
      "task_loss": 1.3949520587921143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9408452805435091,
      "compression/movement_sparsity/importance_threshold": -0.0003839226995270943,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8974687210004243,
      "compression/movement_sparsity/model_sparsity": 0.8666379094973377,
      "compression_loss": 99.83597564697266,
      "distillation_loss": 3.3386058807373047,
      "epoch": 3.83,
      "learning_rate": 4.136192861615529e-05,
      "loss": 104.4929,
      "step": 4534,
      "task_loss": 1.7800004482269287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9409734134652609,
      "compression/movement_sparsity/importance_threshold": -0.0003830910983012043,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8975224989964621,
      "compression/movement_sparsity/model_sparsity": 0.866689840053771,
      "compression_loss": 99.84892272949219,
      "distillation_loss": 5.5670294761657715,
      "epoch": 3.83,
      "learning_rate": 4.135879774577332e-05,
      "loss": 104.3963,
      "step": 4535,
      "task_loss": 3.430874824523926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9411013612238631,
      "compression/movement_sparsity/importance_threshold": -0.00038226069881098015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8976079714300759,
      "compression/movement_sparsity/model_sparsity": 0.8667723762463463,
      "compression_loss": 99.86177825927734,
      "distillation_loss": 5.224770545959473,
      "epoch": 3.83,
      "learning_rate": 4.135566687539136e-05,
      "loss": 103.7354,
      "step": 4536,
      "task_loss": 2.0580203533172607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.941229123953201,
      "compression/movement_sparsity/importance_threshold": -0.00038143150018748843,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8976311043152895,
      "compression/movement_sparsity/model_sparsity": 0.8667947144457877,
      "compression_loss": 99.87467193603516,
      "distillation_loss": 3.8436005115509033,
      "epoch": 3.83,
      "learning_rate": 4.135253600500939e-05,
      "loss": 104.2316,
      "step": 4537,
      "task_loss": 1.3202227354049683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9413567017871597,
      "compression/movement_sparsity/importance_threshold": -0.0003806035015617949,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8976739597737727,
      "compression/movement_sparsity/model_sparsity": 0.8668360976874333,
      "compression_loss": 99.88752746582031,
      "distillation_loss": 4.008355140686035,
      "epoch": 3.84,
      "learning_rate": 4.134940513462743e-05,
      "loss": 104.0785,
      "step": 4538,
      "task_loss": 2.2898292541503906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9414840948596243,
      "compression/movement_sparsity/importance_threshold": -0.000379776702064967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8977142873087173,
      "compression/movement_sparsity/model_sparsity": 0.8668750398474905,
      "compression_loss": 99.90036010742188,
      "distillation_loss": 5.604606628417969,
      "epoch": 3.84,
      "learning_rate": 4.134627426424546e-05,
      "loss": 104.886,
      "step": 4539,
      "task_loss": 2.8869292736053467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9416113033044801,
      "compression/movement_sparsity/importance_threshold": -0.0003789511008280679,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8977356554171207,
      "compression/movement_sparsity/model_sparsity": 0.8668956738956343,
      "compression_loss": 99.91320037841797,
      "distillation_loss": 4.1502790451049805,
      "epoch": 3.84,
      "learning_rate": 4.1343143393863495e-05,
      "loss": 103.9656,
      "step": 4540,
      "task_loss": 2.759917974472046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.941738327255612,
      "compression/movement_sparsity/importance_threshold": -0.0003781266969821659,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8977763883737648,
      "compression/movement_sparsity/model_sparsity": 0.8669350075499084,
      "compression_loss": 99.92605590820312,
      "distillation_loss": 5.73134183883667,
      "epoch": 3.84,
      "learning_rate": 4.1340012523481534e-05,
      "loss": 103.8283,
      "step": 4541,
      "task_loss": 3.781029224395752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9418651668469054,
      "compression/movement_sparsity/importance_threshold": -0.00037730348965832675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8978145695585349,
      "compression/movement_sparsity/model_sparsity": 0.8669718770935225,
      "compression_loss": 99.93888092041016,
      "distillation_loss": 3.626842498779297,
      "epoch": 3.84,
      "learning_rate": 4.1336881653099565e-05,
      "loss": 103.9691,
      "step": 4542,
      "task_loss": 1.3053442239761353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9419918222122452,
      "compression/movement_sparsity/importance_threshold": -0.0003764814779876153,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8979005189588541,
      "compression/movement_sparsity/model_sparsity": 0.8670548738675296,
      "compression_loss": 99.95175170898438,
      "distillation_loss": 4.115375518798828,
      "epoch": 3.84,
      "learning_rate": 4.13337507827176e-05,
      "loss": 104.4646,
      "step": 4543,
      "task_loss": 3.405061721801758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9421182934855167,
      "compression/movement_sparsity/importance_threshold": -0.00037566066110109996,
      "compression/movement_sparsity/linear_layer_sparsity": 0.897969357178616,
      "compression/movement_sparsity/model_sparsity": 0.8671213472826714,
      "compression_loss": 99.96453094482422,
      "distillation_loss": 4.602190017700195,
      "epoch": 3.84,
      "learning_rate": 4.1330619912335636e-05,
      "loss": 104.3347,
      "step": 4544,
      "task_loss": 3.1808714866638184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9422445808006049,
      "compression/movement_sparsity/importance_threshold": -0.00037484103812984466,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8979742818598496,
      "compression/movement_sparsity/model_sparsity": 0.8671261027859546,
      "compression_loss": 99.97740173339844,
      "distillation_loss": 4.896975517272949,
      "epoch": 3.84,
      "learning_rate": 4.132748904195367e-05,
      "loss": 105.3298,
      "step": 4545,
      "task_loss": 1.8886102437973022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9423706842913951,
      "compression/movement_sparsity/importance_threshold": -0.00037402260820491515,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8979507197046012,
      "compression/movement_sparsity/model_sparsity": 0.8671033500632246,
      "compression_loss": 99.9901351928711,
      "distillation_loss": 4.649235725402832,
      "epoch": 3.84,
      "learning_rate": 4.13243581715717e-05,
      "loss": 105.2147,
      "step": 4546,
      "task_loss": 3.061427116394043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9424966040917724,
      "compression/movement_sparsity/importance_threshold": -0.0003732053704573789,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8980508827127424,
      "compression/movement_sparsity/model_sparsity": 0.8672000721638987,
      "compression_loss": 100.00291442871094,
      "distillation_loss": 5.351968765258789,
      "epoch": 3.84,
      "learning_rate": 4.132122730118973e-05,
      "loss": 104.5068,
      "step": 4547,
      "task_loss": 2.408273935317993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9426223403356219,
      "compression/movement_sparsity/importance_threshold": -0.00037238932401830165,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8981358662554833,
      "compression/movement_sparsity/model_sparsity": 0.8672821362605064,
      "compression_loss": 100.01567077636719,
      "distillation_loss": 4.905787467956543,
      "epoch": 3.84,
      "learning_rate": 4.131809643080777e-05,
      "loss": 104.5165,
      "step": 4548,
      "task_loss": 3.524320125579834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9427478931568287,
      "compression/movement_sparsity/importance_threshold": -0.00037157446801874914,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8981467053238642,
      "compression/movement_sparsity/model_sparsity": 0.8672926029735437,
      "compression_loss": 100.02838134765625,
      "distillation_loss": 3.9205758571624756,
      "epoch": 3.84,
      "learning_rate": 4.13149655604258e-05,
      "loss": 104.4322,
      "step": 4549,
      "task_loss": 2.078174591064453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9428732626892781,
      "compression/movement_sparsity/importance_threshold": -0.0003707608015897871,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8982612846506772,
      "compression/movement_sparsity/model_sparsity": 0.8674032461479934,
      "compression_loss": 100.0409927368164,
      "distillation_loss": 4.900690078735352,
      "epoch": 3.85,
      "learning_rate": 4.131183469004383e-05,
      "loss": 103.9821,
      "step": 4550,
      "task_loss": 1.6776789426803589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9429984490668549,
      "compression/movement_sparsity/importance_threshold": -0.000369948323862483,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8983195580579136,
      "compression/movement_sparsity/model_sparsity": 0.8674595176844213,
      "compression_loss": 100.05361938476562,
      "distillation_loss": 3.9833860397338867,
      "epoch": 3.85,
      "learning_rate": 4.130870381966187e-05,
      "loss": 104.5564,
      "step": 4551,
      "task_loss": 2.3233702182769775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9431234524234448,
      "compression/movement_sparsity/importance_threshold": -0.0003691370339679008,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8983713327937886,
      "compression/movement_sparsity/model_sparsity": 0.8675095137988412,
      "compression_loss": 100.06617736816406,
      "distillation_loss": 4.009873390197754,
      "epoch": 3.85,
      "learning_rate": 4.1305572949279903e-05,
      "loss": 104.141,
      "step": 4552,
      "task_loss": 2.5289177894592285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9432482728929324,
      "compression/movement_sparsity/importance_threshold": -0.0003683269310371072,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8984311324944825,
      "compression/movement_sparsity/model_sparsity": 0.8675672591958509,
      "compression_loss": 100.07875061035156,
      "distillation_loss": 4.01463508605957,
      "epoch": 3.85,
      "learning_rate": 4.1302442078897935e-05,
      "loss": 104.8957,
      "step": 4553,
      "task_loss": 2.5166492462158203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.943372910609203,
      "compression/movement_sparsity/importance_threshold": -0.00036751801420117046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8984823706428138,
      "compression/movement_sparsity/model_sparsity": 0.86761673715616,
      "compression_loss": 100.09130096435547,
      "distillation_loss": 5.691941261291504,
      "epoch": 3.85,
      "learning_rate": 4.129931120851597e-05,
      "loss": 105.0518,
      "step": 4554,
      "task_loss": 2.3328723907470703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.943497365706142,
      "compression/movement_sparsity/importance_threshold": -0.00036671028259115286,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8986325555341874,
      "compression/movement_sparsity/model_sparsity": 0.8677617627344922,
      "compression_loss": 100.1038589477539,
      "distillation_loss": 4.320714950561523,
      "epoch": 3.85,
      "learning_rate": 4.1296180338134006e-05,
      "loss": 104.1126,
      "step": 4555,
      "task_loss": 3.6645591259002686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9436216383176342,
      "compression/movement_sparsity/importance_threshold": -0.00036590373533812275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8987534308215122,
      "compression/movement_sparsity/model_sparsity": 0.8678784855838415,
      "compression_loss": 100.11631774902344,
      "distillation_loss": 4.818197250366211,
      "epoch": 3.85,
      "learning_rate": 4.129304946775204e-05,
      "loss": 104.1675,
      "step": 4556,
      "task_loss": 2.3907017707824707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9437457285775649,
      "compression/movement_sparsity/importance_threshold": -0.0003650983715731467,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8988051936332194,
      "compression/movement_sparsity/model_sparsity": 0.8679284701837255,
      "compression_loss": 100.1288070678711,
      "distillation_loss": 4.874901294708252,
      "epoch": 3.85,
      "learning_rate": 4.128991859737007e-05,
      "loss": 104.3821,
      "step": 4557,
      "task_loss": 2.270557403564453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9438696366198193,
      "compression/movement_sparsity/importance_threshold": -0.00036429419042728877,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8988432794246484,
      "compression/movement_sparsity/model_sparsity": 0.8679652476110533,
      "compression_loss": 100.1412124633789,
      "distillation_loss": 4.5893940925598145,
      "epoch": 3.85,
      "learning_rate": 4.12867877269881e-05,
      "loss": 105.0313,
      "step": 4558,
      "task_loss": 2.685469150543213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9439933625782824,
      "compression/movement_sparsity/importance_threshold": -0.0003634911910316164,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8988861825798022,
      "compression/movement_sparsity/model_sparsity": 0.8680066769108421,
      "compression_loss": 100.15364837646484,
      "distillation_loss": 4.357693672180176,
      "epoch": 3.85,
      "learning_rate": 4.128365685660614e-05,
      "loss": 105.1541,
      "step": 4559,
      "task_loss": 2.295363426208496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9441169065868393,
      "compression/movement_sparsity/importance_threshold": -0.00036268937251719615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.898944312897027,
      "compression/movement_sparsity/model_sparsity": 0.8680628102728405,
      "compression_loss": 100.16596984863281,
      "distillation_loss": 5.853177070617676,
      "epoch": 3.85,
      "learning_rate": 4.128052598622417e-05,
      "loss": 105.9258,
      "step": 4560,
      "task_loss": 2.8003523349761963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9442402687793753,
      "compression/movement_sparsity/importance_threshold": -0.00036188873401509294,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8989871683555104,
      "compression/movement_sparsity/model_sparsity": 0.8681041935144861,
      "compression_loss": 100.17832946777344,
      "distillation_loss": 4.245377540588379,
      "epoch": 3.85,
      "learning_rate": 4.12773951158422e-05,
      "loss": 103.8754,
      "step": 4561,
      "task_loss": 1.61696457862854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9443634492897756,
      "compression/movement_sparsity/importance_threshold": -0.00036108927465637163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8990208899015846,
      "compression/movement_sparsity/model_sparsity": 0.8681367566217131,
      "compression_loss": 100.19066619873047,
      "distillation_loss": 4.66460657119751,
      "epoch": 3.86,
      "learning_rate": 4.127426424546024e-05,
      "loss": 103.7898,
      "step": 4562,
      "task_loss": 2.746424913406372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9444864482519251,
      "compression/movement_sparsity/importance_threshold": -0.00036029099357210055,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8991120382389931,
      "compression/movement_sparsity/model_sparsity": 0.8682247737333265,
      "compression_loss": 100.20296478271484,
      "distillation_loss": 3.660703420639038,
      "epoch": 3.86,
      "learning_rate": 4.1271133375078273e-05,
      "loss": 103.5956,
      "step": 4563,
      "task_loss": 1.2595893144607544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.944609265799709,
      "compression/movement_sparsity/importance_threshold": -0.00035949388989334544,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8991426475773144,
      "compression/movement_sparsity/model_sparsity": 0.8682543315467111,
      "compression_loss": 100.21521759033203,
      "distillation_loss": 5.062169075012207,
      "epoch": 3.86,
      "learning_rate": 4.1268002504696305e-05,
      "loss": 104.7582,
      "step": 4564,
      "task_loss": 3.332879066467285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9447319020670126,
      "compression/movement_sparsity/importance_threshold": -0.00035869796275117116,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8992251389690193,
      "compression/movement_sparsity/model_sparsity": 0.8683339891053378,
      "compression_loss": 100.22746276855469,
      "distillation_loss": 4.148728847503662,
      "epoch": 3.86,
      "learning_rate": 4.126487163431434e-05,
      "loss": 104.5881,
      "step": 4565,
      "task_loss": 0.9361843466758728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9448543571877209,
      "compression/movement_sparsity/importance_threshold": -0.0003579032112766443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8992721678861751,
      "compression/movement_sparsity/model_sparsity": 0.8683794024345114,
      "compression_loss": 100.23966979980469,
      "distillation_loss": 4.7280073165893555,
      "epoch": 3.86,
      "learning_rate": 4.1261740763932376e-05,
      "loss": 104.3875,
      "step": 4566,
      "task_loss": 2.028907299041748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9449766312957192,
      "compression/movement_sparsity/importance_threshold": -0.0003571096346008315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8993758246754336,
      "compression/movement_sparsity/model_sparsity": 0.8684794982941734,
      "compression_loss": 100.25194549560547,
      "distillation_loss": 4.436640739440918,
      "epoch": 3.86,
      "learning_rate": 4.125860989355041e-05,
      "loss": 104.7009,
      "step": 4567,
      "task_loss": 3.1713123321533203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9450987245248924,
      "compression/movement_sparsity/importance_threshold": -0.0003563172318547976,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8994896885521886,
      "compression/movement_sparsity/model_sparsity": 0.8685894505964754,
      "compression_loss": 100.26408386230469,
      "distillation_loss": 5.375784873962402,
      "epoch": 3.86,
      "learning_rate": 4.125547902316844e-05,
      "loss": 105.1612,
      "step": 4568,
      "task_loss": 2.9243879318237305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9452206370091258,
      "compression/movement_sparsity/importance_threshold": -0.0003555260021696092,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8995513841955365,
      "compression/movement_sparsity/model_sparsity": 0.8686490268046764,
      "compression_loss": 100.27619171142578,
      "distillation_loss": 3.658583641052246,
      "epoch": 3.86,
      "learning_rate": 4.125234815278647e-05,
      "loss": 104.612,
      "step": 4569,
      "task_loss": 1.1587982177734375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9453423688823045,
      "compression/movement_sparsity/importance_threshold": -0.0003547359446763338,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8996039220781401,
      "compression/movement_sparsity/model_sparsity": 0.8686997598493871,
      "compression_loss": 100.288330078125,
      "distillation_loss": 4.0002875328063965,
      "epoch": 3.86,
      "learning_rate": 4.124921728240451e-05,
      "loss": 104.5945,
      "step": 4570,
      "task_loss": 2.273941993713379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9454639202783137,
      "compression/movement_sparsity/importance_threshold": -0.0003539470585060345,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8996744773780415,
      "compression/movement_sparsity/model_sparsity": 0.8687678913576834,
      "compression_loss": 100.3004379272461,
      "distillation_loss": 5.991607189178467,
      "epoch": 3.86,
      "learning_rate": 4.124608641202254e-05,
      "loss": 105.5962,
      "step": 4571,
      "task_loss": 4.033348083496094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9455852913310384,
      "compression/movement_sparsity/importance_threshold": -0.00035315934278977966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8997737699219454,
      "compression/movement_sparsity/model_sparsity": 0.8688637728972446,
      "compression_loss": 100.31263732910156,
      "distillation_loss": 5.201147079467773,
      "epoch": 3.86,
      "learning_rate": 4.124295554164058e-05,
      "loss": 105.0856,
      "step": 4572,
      "task_loss": 2.4417216777801514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9457064821743638,
      "compression/movement_sparsity/importance_threshold": -0.000352372796658635,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8998573583370727,
      "compression/movement_sparsity/model_sparsity": 0.8689444897931643,
      "compression_loss": 100.32476043701172,
      "distillation_loss": 3.877317428588867,
      "epoch": 3.87,
      "learning_rate": 4.123982467125861e-05,
      "loss": 104.9015,
      "step": 4573,
      "task_loss": 2.971978187561035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9458274929421752,
      "compression/movement_sparsity/importance_threshold": -0.0003515874192436654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8999612655338517,
      "compression/movement_sparsity/model_sparsity": 0.8690448274580779,
      "compression_loss": 100.33687591552734,
      "distillation_loss": 3.4000258445739746,
      "epoch": 3.87,
      "learning_rate": 4.123669380087665e-05,
      "loss": 104.8266,
      "step": 4574,
      "task_loss": 1.7719323635101318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9459483237683575,
      "compression/movement_sparsity/importance_threshold": -0.0003508032096759383,
      "compression/movement_sparsity/linear_layer_sparsity": 0.8999911474979472,
      "compression/movement_sparsity/model_sparsity": 0.869073682884779,
      "compression_loss": 100.3489761352539,
      "distillation_loss": 3.732917070388794,
      "epoch": 3.87,
      "learning_rate": 4.123356293049468e-05,
      "loss": 104.3986,
      "step": 4575,
      "task_loss": 2.575914144515991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.946068974786796,
      "compression/movement_sparsity/importance_threshold": -0.0003500201670865186,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9000782177700242,
      "compression/movement_sparsity/model_sparsity": 0.8691577620251507,
      "compression_loss": 100.36109924316406,
      "distillation_loss": 4.489272117614746,
      "epoch": 3.87,
      "learning_rate": 4.1230432060112714e-05,
      "loss": 104.2431,
      "step": 4576,
      "task_loss": 2.3525326251983643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9461894461313758,
      "compression/movement_sparsity/importance_threshold": -0.0003492382906064729,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9001487969182609,
      "compression/movement_sparsity/model_sparsity": 0.8692259165625187,
      "compression_loss": 100.37312316894531,
      "distillation_loss": 4.997652053833008,
      "epoch": 3.87,
      "learning_rate": 4.122730118973075e-05,
      "loss": 104.3963,
      "step": 4577,
      "task_loss": 3.355085611343384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.946309737935982,
      "compression/movement_sparsity/importance_threshold": -0.0003484575793668669,
      "compression/movement_sparsity/linear_layer_sparsity": 0.900218934872295,
      "compression/movement_sparsity/model_sparsity": 0.8692936450620622,
      "compression_loss": 100.38511657714844,
      "distillation_loss": 4.706137657165527,
      "epoch": 3.87,
      "learning_rate": 4.1224170319348784e-05,
      "loss": 104.9286,
      "step": 4578,
      "task_loss": 2.4296185970306396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9464298503344998,
      "compression/movement_sparsity/importance_threshold": -0.00034767803249876727,
      "compression/movement_sparsity/linear_layer_sparsity": 0.900243462885122,
      "compression/movement_sparsity/model_sparsity": 0.8693173304621915,
      "compression_loss": 100.39705657958984,
      "distillation_loss": 4.33980655670166,
      "epoch": 3.87,
      "learning_rate": 4.1221039448966816e-05,
      "loss": 105.2083,
      "step": 4579,
      "task_loss": 2.0307490825653076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9465497834608143,
      "compression/movement_sparsity/importance_threshold": -0.0003468996491332397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9003223293298656,
      "compression/movement_sparsity/model_sparsity": 0.8693934876019366,
      "compression_loss": 100.40902709960938,
      "distillation_loss": 3.6383535861968994,
      "epoch": 3.87,
      "learning_rate": 4.121790857858485e-05,
      "loss": 104.3387,
      "step": 4580,
      "task_loss": 1.8129959106445312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9466695374488105,
      "compression/movement_sparsity/importance_threshold": -0.0003461224284013508,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9003786948702803,
      "compression/movement_sparsity/model_sparsity": 0.8694479168126374,
      "compression_loss": 100.4209976196289,
      "distillation_loss": 5.92132568359375,
      "epoch": 3.87,
      "learning_rate": 4.1214777708202886e-05,
      "loss": 104.3941,
      "step": 4581,
      "task_loss": 3.2964248657226562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.946789112432374,
      "compression/movement_sparsity/importance_threshold": -0.0003453463694341654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9004415113853861,
      "compression/movement_sparsity/model_sparsity": 0.869508575387203,
      "compression_loss": 100.43290710449219,
      "distillation_loss": 4.115144729614258,
      "epoch": 3.87,
      "learning_rate": 4.121164683782092e-05,
      "loss": 104.2581,
      "step": 4582,
      "task_loss": 3.125844955444336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9469085085453894,
      "compression/movement_sparsity/importance_threshold": -0.00034457147136275016,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9005042563554859,
      "compression/movement_sparsity/model_sparsity": 0.8695691648745539,
      "compression_loss": 100.44480895996094,
      "distillation_loss": 5.145026206970215,
      "epoch": 3.87,
      "learning_rate": 4.120851596743895e-05,
      "loss": 104.6408,
      "step": 4583,
      "task_loss": 2.313863515853882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9470277259217422,
      "compression/movement_sparsity/importance_threshold": -0.0003437977333181708,
      "compression/movement_sparsity/linear_layer_sparsity": 0.900423470119753,
      "compression/movement_sparsity/model_sparsity": 0.8694911538945459,
      "compression_loss": 100.45662689208984,
      "distillation_loss": 3.6565868854522705,
      "epoch": 3.87,
      "learning_rate": 4.120538509705699e-05,
      "loss": 104.6371,
      "step": 4584,
      "task_loss": 2.1390221118927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9471467646953173,
      "compression/movement_sparsity/importance_threshold": -0.0003430251544314939,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9004642626972352,
      "compression/movement_sparsity/model_sparsity": 0.8695305451214991,
      "compression_loss": 100.46849060058594,
      "distillation_loss": 3.6213202476501465,
      "epoch": 3.88,
      "learning_rate": 4.120225422667502e-05,
      "loss": 104.3434,
      "step": 4585,
      "task_loss": 2.5940160751342773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.947265625,
      "compression/movement_sparsity/importance_threshold": -0.0003422537338337861,
      "compression/movement_sparsity/linear_layer_sparsity": 0.900489875809317,
      "compression/movement_sparsity/model_sparsity": 0.8695552783443857,
      "compression_loss": 100.48020935058594,
      "distillation_loss": 5.036615371704102,
      "epoch": 3.88,
      "learning_rate": 4.119912335629305e-05,
      "loss": 105.0686,
      "step": 4586,
      "task_loss": 2.619068145751953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9473843069696755,
      "compression/movement_sparsity/importance_threshold": -0.00034148347065611137,
      "compression/movement_sparsity/linear_layer_sparsity": 0.900506676961516,
      "compression/movement_sparsity/model_sparsity": 0.8695715023253202,
      "compression_loss": 100.49200439453125,
      "distillation_loss": 4.005194664001465,
      "epoch": 3.88,
      "learning_rate": 4.1195992485911084e-05,
      "loss": 104.3189,
      "step": 4587,
      "task_loss": 1.719730019569397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9475028107382286,
      "compression/movement_sparsity/importance_threshold": -0.0003407143640295389,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9005644853262147,
      "compression/movement_sparsity/model_sparsity": 0.8696273247948522,
      "compression_loss": 100.50372314453125,
      "distillation_loss": 5.418208122253418,
      "epoch": 3.88,
      "learning_rate": 4.119286161552912e-05,
      "loss": 104.9933,
      "step": 4588,
      "task_loss": 2.9065704345703125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9476211364395448,
      "compression/movement_sparsity/importance_threshold": -0.00033994641308513103,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9006821768607807,
      "compression/movement_sparsity/model_sparsity": 0.8697409732631443,
      "compression_loss": 100.51543426513672,
      "distillation_loss": 4.689842224121094,
      "epoch": 3.88,
      "learning_rate": 4.1189730745147154e-05,
      "loss": 105.8599,
      "step": 4589,
      "task_loss": 3.018312454223633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9477392842075092,
      "compression/movement_sparsity/importance_threshold": -0.000339179616953956,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9007372665152583,
      "compression/movement_sparsity/model_sparsity": 0.869794170418515,
      "compression_loss": 100.5272445678711,
      "distillation_loss": 4.772582530975342,
      "epoch": 3.88,
      "learning_rate": 4.1186599874765186e-05,
      "loss": 104.9087,
      "step": 4590,
      "task_loss": 3.070620059967041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9478572541760069,
      "compression/movement_sparsity/importance_threshold": -0.00033841397476707964,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9007993079594677,
      "compression/movement_sparsity/model_sparsity": 0.8698540805482541,
      "compression_loss": 100.53894805908203,
      "distillation_loss": 3.4688515663146973,
      "epoch": 3.88,
      "learning_rate": 4.118346900438322e-05,
      "loss": 104.2897,
      "step": 4591,
      "task_loss": 2.6497347354888916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9479750464789227,
      "compression/movement_sparsity/importance_threshold": -0.0003376494856555685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9008555423340385,
      "compression/movement_sparsity/model_sparsity": 0.869908383099061,
      "compression_loss": 100.55064392089844,
      "distillation_loss": 7.072486400604248,
      "epoch": 3.88,
      "learning_rate": 4.1180338134001256e-05,
      "loss": 105.4531,
      "step": 4592,
      "task_loss": 3.8340654373168945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9480926612501424,
      "compression/movement_sparsity/importance_threshold": -0.00033688614875048654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9009026785687031,
      "compression/movement_sparsity/model_sparsity": 0.8699539000590569,
      "compression_loss": 100.56240844726562,
      "distillation_loss": 5.129284381866455,
      "epoch": 3.88,
      "learning_rate": 4.117720726361929e-05,
      "loss": 105.2016,
      "step": 4593,
      "task_loss": 2.416576862335205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9482100986235505,
      "compression/movement_sparsity/importance_threshold": -0.00033612396318290216,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9009855992304429,
      "compression/movement_sparsity/model_sparsity": 0.8700339721409721,
      "compression_loss": 100.57411193847656,
      "distillation_loss": 5.969608783721924,
      "epoch": 3.88,
      "learning_rate": 4.117407639323732e-05,
      "loss": 104.6138,
      "step": 4594,
      "task_loss": 3.9726576805114746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9483273587330325,
      "compression/movement_sparsity/importance_threshold": -0.0003353629280838811,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9010679713804713,
      "compression/movement_sparsity/model_sparsity": 0.8701135145542408,
      "compression_loss": 100.58582305908203,
      "distillation_loss": 3.8323535919189453,
      "epoch": 3.88,
      "learning_rate": 4.117094552285535e-05,
      "loss": 104.6597,
      "step": 4595,
      "task_loss": 2.0595638751983643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9484444417124736,
      "compression/movement_sparsity/importance_threshold": -0.0003346030425844873,
      "compression/movement_sparsity/linear_layer_sparsity": 0.90110953902885,
      "compression/movement_sparsity/model_sparsity": 0.8701536542260206,
      "compression_loss": 100.59749603271484,
      "distillation_loss": 3.95436429977417,
      "epoch": 3.88,
      "learning_rate": 4.116781465247339e-05,
      "loss": 104.109,
      "step": 4596,
      "task_loss": 3.818039894104004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9485613476957586,
      "compression/movement_sparsity/importance_threshold": -0.00033384430581578917,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9011157395960206,
      "compression/movement_sparsity/model_sparsity": 0.8701596417846338,
      "compression_loss": 100.60913848876953,
      "distillation_loss": 4.414793014526367,
      "epoch": 3.89,
      "learning_rate": 4.116468378209142e-05,
      "loss": 105.2556,
      "step": 4597,
      "task_loss": 2.3718819618225098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.948678076816773,
      "compression/movement_sparsity/importance_threshold": -0.0003330867169088515,
      "compression/movement_sparsity/linear_layer_sparsity": 0.901223104801414,
      "compression/movement_sparsity/model_sparsity": 0.8702633186649278,
      "compression_loss": 100.62083435058594,
      "distillation_loss": 4.25513219833374,
      "epoch": 3.89,
      "learning_rate": 4.1161552911709453e-05,
      "loss": 105.0215,
      "step": 4598,
      "task_loss": 1.6051677465438843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9487946292094017,
      "compression/movement_sparsity/importance_threshold": -0.0003323302749947401,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9012030721997857,
      "compression/movement_sparsity/model_sparsity": 0.8702439742447929,
      "compression_loss": 100.63252258300781,
      "distillation_loss": 3.5074031352996826,
      "epoch": 3.89,
      "learning_rate": 4.115842204132749e-05,
      "loss": 104.2617,
      "step": 4599,
      "task_loss": 1.444356083869934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9489110050075299,
      "compression/movement_sparsity/importance_threshold": -0.00033157497920452243,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9012818551753559,
      "compression/movement_sparsity/model_sparsity": 0.8703200507827875,
      "compression_loss": 100.64411926269531,
      "distillation_loss": 5.495142936706543,
      "epoch": 3.89,
      "learning_rate": 4.1155291170945524e-05,
      "loss": 105.5399,
      "step": 4600,
      "task_loss": 2.333914041519165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9490272043450427,
      "compression/movement_sparsity/importance_threshold": -0.0003308208286692642,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014357007861937,
      "compression/movement_sparsity/model_sparsity": 0.8704686113236086,
      "compression_loss": 100.65570068359375,
      "distillation_loss": 3.959157943725586,
      "epoch": 3.89,
      "learning_rate": 4.1152160300563556e-05,
      "loss": 105.127,
      "step": 4601,
      "task_loss": 2.703773021697998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9491432273558256,
      "compression/movement_sparsity/importance_threshold": -0.0003300678225200285,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014590721547601,
      "compression/movement_sparsity/model_sparsity": 0.870491179813766,
      "compression_loss": 100.66728973388672,
      "distillation_loss": 2.9800703525543213,
      "epoch": 3.89,
      "learning_rate": 4.114902943018159e-05,
      "loss": 104.2281,
      "step": 4602,
      "task_loss": 1.5689337253570557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9492590741737632,
      "compression/movement_sparsity/importance_threshold": -0.0003293159598878855,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014810006990424,
      "compression/movement_sparsity/model_sparsity": 0.8705123550450922,
      "compression_loss": 100.67884063720703,
      "distillation_loss": 3.7003986835479736,
      "epoch": 3.89,
      "learning_rate": 4.1145898559799626e-05,
      "loss": 104.4454,
      "step": 4603,
      "task_loss": 1.427895426750183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9493747449327409,
      "compression/movement_sparsity/importance_threshold": -0.0003285652399039,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9015121108524043,
      "compression/movement_sparsity/model_sparsity": 0.8705423964689801,
      "compression_loss": 100.69029998779297,
      "distillation_loss": 3.2990903854370117,
      "epoch": 3.89,
      "learning_rate": 4.114276768941766e-05,
      "loss": 104.1736,
      "step": 4604,
      "task_loss": 3.822112798690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9494902397666438,
      "compression/movement_sparsity/importance_threshold": -0.00032781566169913685,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014936283925687,
      "compression/movement_sparsity/model_sparsity": 0.8705245489384985,
      "compression_loss": 100.70176696777344,
      "distillation_loss": 5.413264751434326,
      "epoch": 3.89,
      "learning_rate": 4.113963681903569e-05,
      "loss": 105.3005,
      "step": 4605,
      "task_loss": 2.7830452919006348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9496055588093572,
      "compression/movement_sparsity/importance_threshold": -0.0003270672244046636,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014972652636977,
      "compression/movement_sparsity/model_sparsity": 0.8705280608719159,
      "compression_loss": 100.7132339477539,
      "distillation_loss": 3.6144630908966064,
      "epoch": 3.89,
      "learning_rate": 4.113650594865373e-05,
      "loss": 104.4845,
      "step": 4606,
      "task_loss": 3.4208884239196777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.949720702194766,
      "compression/movement_sparsity/importance_threshold": -0.00032631992715154417,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014663339728503,
      "compression/movement_sparsity/model_sparsity": 0.8704981921660648,
      "compression_loss": 100.72468566894531,
      "distillation_loss": 4.369352340698242,
      "epoch": 3.89,
      "learning_rate": 4.113337507827176e-05,
      "loss": 104.9842,
      "step": 4607,
      "task_loss": 2.761279582977295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9498356700567555,
      "compression/movement_sparsity/importance_threshold": -0.00032557376907084695,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9014761475628146,
      "compression/movement_sparsity/model_sparsity": 0.8705076686290237,
      "compression_loss": 100.73605346679688,
      "distillation_loss": 5.178452014923096,
      "epoch": 3.89,
      "learning_rate": 4.11302442078898e-05,
      "loss": 104.7333,
      "step": 4608,
      "task_loss": 2.9123711585998535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9499504625292108,
      "compression/movement_sparsity/importance_threshold": -0.0003248287492936359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9015435071857896,
      "compression/movement_sparsity/model_sparsity": 0.8705727142417271,
      "compression_loss": 100.74738311767578,
      "distillation_loss": 5.050841331481934,
      "epoch": 3.9,
      "learning_rate": 4.112711333750783e-05,
      "loss": 105.0343,
      "step": 4609,
      "task_loss": 1.991439938545227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.950065079746017,
      "compression/movement_sparsity/importance_threshold": -0.0003240848669509794,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9015571365093974,
      "compression/movement_sparsity/model_sparsity": 0.8705858753561403,
      "compression_loss": 100.75880432128906,
      "distillation_loss": 2.588820219039917,
      "epoch": 3.9,
      "learning_rate": 4.112398246712587e-05,
      "loss": 104.6764,
      "step": 4610,
      "task_loss": 1.285973072052002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9501795218410594,
      "compression/movement_sparsity/importance_threshold": -0.0003233421211739406,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9016238999239906,
      "compression/movement_sparsity/model_sparsity": 0.8706503452420539,
      "compression_loss": 100.77017211914062,
      "distillation_loss": 4.522249698638916,
      "epoch": 3.9,
      "learning_rate": 4.11208515967439e-05,
      "loss": 104.4881,
      "step": 4611,
      "task_loss": 3.599580764770508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9502937889482228,
      "compression/movement_sparsity/importance_threshold": -0.0003226005110935886,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9017028856104106,
      "compression/movement_sparsity/model_sparsity": 0.870726617527157,
      "compression_loss": 100.78146362304688,
      "distillation_loss": 3.5847699642181396,
      "epoch": 3.9,
      "learning_rate": 4.111772072636193e-05,
      "loss": 105.1797,
      "step": 4612,
      "task_loss": 2.415595054626465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9504078812013926,
      "compression/movement_sparsity/importance_threshold": -0.0003218600358409875,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9018123017726373,
      "compression/movement_sparsity/model_sparsity": 0.8708322749076076,
      "compression_loss": 100.79280853271484,
      "distillation_loss": 5.465292930603027,
      "epoch": 3.9,
      "learning_rate": 4.1114589855979964e-05,
      "loss": 105.5101,
      "step": 4613,
      "task_loss": 3.386854410171509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.950521798734454,
      "compression/movement_sparsity/importance_threshold": -0.00032112069454720386,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9019231607591478,
      "compression/movement_sparsity/model_sparsity": 0.8709393255468895,
      "compression_loss": 100.80410766601562,
      "distillation_loss": 4.792135238647461,
      "epoch": 3.9,
      "learning_rate": 4.1111458985598e-05,
      "loss": 105.2835,
      "step": 4614,
      "task_loss": 2.58837890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9506355416812919,
      "compression/movement_sparsity/importance_threshold": -0.00032038248634330344,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9019595652429401,
      "compression/movement_sparsity/model_sparsity": 0.8709744794246702,
      "compression_loss": 100.81539916992188,
      "distillation_loss": 4.06812047958374,
      "epoch": 3.9,
      "learning_rate": 4.1108328115216034e-05,
      "loss": 105.02,
      "step": 4615,
      "task_loss": 2.676288366317749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9507491101757917,
      "compression/movement_sparsity/importance_threshold": -0.0003196454103603528,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9020554474749001,
      "compression/movement_sparsity/model_sparsity": 0.8710670678069942,
      "compression_loss": 100.82669067382812,
      "distillation_loss": 4.225161075592041,
      "epoch": 3.9,
      "learning_rate": 4.1105197244834066e-05,
      "loss": 104.7487,
      "step": 4616,
      "task_loss": 2.0559780597686768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9508625043518383,
      "compression/movement_sparsity/importance_threshold": -0.00031890946572941774,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9020545889348304,
      "compression/movement_sparsity/model_sparsity": 0.8710662387604169,
      "compression_loss": 100.83789825439453,
      "distillation_loss": 4.894096374511719,
      "epoch": 3.9,
      "learning_rate": 4.11020663744521e-05,
      "loss": 105.7969,
      "step": 4617,
      "task_loss": 2.5070176124572754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.950975724343317,
      "compression/movement_sparsity/importance_threshold": -0.00031817465158156394,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9020945468205781,
      "compression/movement_sparsity/model_sparsity": 0.8711048239698644,
      "compression_loss": 100.8490982055664,
      "distillation_loss": 5.51568603515625,
      "epoch": 3.9,
      "learning_rate": 4.1098935504070137e-05,
      "loss": 105.8471,
      "step": 4618,
      "task_loss": 3.4415700435638428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9510887702841129,
      "compression/movement_sparsity/importance_threshold": -0.000317440967047858,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9021871618306059,
      "compression/movement_sparsity/model_sparsity": 0.8711942573693806,
      "compression_loss": 100.86029815673828,
      "distillation_loss": 6.360787868499756,
      "epoch": 3.9,
      "learning_rate": 4.109580463368817e-05,
      "loss": 105.6298,
      "step": 4619,
      "task_loss": 3.17024827003479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9512016423081112,
      "compression/movement_sparsity/importance_threshold": -0.0003167084112593657,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9021614056285124,
      "compression/movement_sparsity/model_sparsity": 0.8711693859720644,
      "compression_loss": 100.87141418457031,
      "distillation_loss": 3.6564440727233887,
      "epoch": 3.9,
      "learning_rate": 4.10926737633062e-05,
      "loss": 105.4128,
      "step": 4620,
      "task_loss": 2.247269868850708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.951314340549197,
      "compression/movement_sparsity/importance_threshold": -0.00031597698334715277,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9023022419724596,
      "compression/movement_sparsity/model_sparsity": 0.8713053841543338,
      "compression_loss": 100.88259887695312,
      "distillation_loss": 4.738427639007568,
      "epoch": 3.91,
      "learning_rate": 4.108954289292424e-05,
      "loss": 105.2189,
      "step": 4621,
      "task_loss": 3.011610746383667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9514268651412552,
      "compression/movement_sparsity/importance_threshold": -0.00031524668244228664,
      "compression/movement_sparsity/linear_layer_sparsity": 0.902331014988965,
      "compression/movement_sparsity/model_sparsity": 0.871333168729206,
      "compression_loss": 100.89369201660156,
      "distillation_loss": 4.730954170227051,
      "epoch": 3.91,
      "learning_rate": 4.108641202254227e-05,
      "loss": 105.615,
      "step": 4622,
      "task_loss": 2.5221590995788574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9515392162181713,
      "compression/movement_sparsity/importance_threshold": -0.00031451750767583133,
      "compression/movement_sparsity/linear_layer_sparsity": 0.902381179962209,
      "compression/movement_sparsity/model_sparsity": 0.8713816103812936,
      "compression_loss": 100.90480041503906,
      "distillation_loss": 3.5265092849731445,
      "epoch": 3.91,
      "learning_rate": 4.10832811521603e-05,
      "loss": 105.1077,
      "step": 4623,
      "task_loss": 1.5801843404769897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9516513939138304,
      "compression/movement_sparsity/importance_threshold": -0.00031378945817885345,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9024240234965246,
      "compression/movement_sparsity/model_sparsity": 0.8714229821084034,
      "compression_loss": 100.91588592529297,
      "distillation_loss": 4.965545177459717,
      "epoch": 3.91,
      "learning_rate": 4.1080150281778334e-05,
      "loss": 105.0291,
      "step": 4624,
      "task_loss": 2.4195353984832764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9517633983621173,
      "compression/movement_sparsity/importance_threshold": -0.00031306253308242046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9025250092722328,
      "compression/movement_sparsity/model_sparsity": 0.8715204987120474,
      "compression_loss": 100.92691040039062,
      "distillation_loss": 4.469172954559326,
      "epoch": 3.91,
      "learning_rate": 4.107701941139637e-05,
      "loss": 104.3236,
      "step": 4625,
      "task_loss": 3.2882766723632812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9518752296969175,
      "compression/movement_sparsity/importance_threshold": -0.00031233673151759723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9025964469605392,
      "compression/movement_sparsity/model_sparsity": 0.8715894822959924,
      "compression_loss": 100.93798065185547,
      "distillation_loss": 4.811069965362549,
      "epoch": 3.91,
      "learning_rate": 4.1073888541014404e-05,
      "loss": 105.7166,
      "step": 4626,
      "task_loss": 2.2579410076141357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9519868880521161,
      "compression/movement_sparsity/importance_threshold": -0.0003116120526154495,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9026064871096886,
      "compression/movement_sparsity/model_sparsity": 0.8715991775351315,
      "compression_loss": 100.94898223876953,
      "distillation_loss": 5.136645317077637,
      "epoch": 3.91,
      "learning_rate": 4.1070757670632436e-05,
      "loss": 105.6778,
      "step": 4627,
      "task_loss": 2.320871114730835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.952098373561598,
      "compression/movement_sparsity/importance_threshold": -0.00031088849550704473,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9026689578239329,
      "compression/movement_sparsity/model_sparsity": 0.871659502188159,
      "compression_loss": 100.96002197265625,
      "distillation_loss": 4.077414512634277,
      "epoch": 3.91,
      "learning_rate": 4.106762680025047e-05,
      "loss": 104.5942,
      "step": 4628,
      "task_loss": 3.1586973667144775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9522096863592486,
      "compression/movement_sparsity/importance_threshold": -0.00031016605932344694,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9026585837980897,
      "compression/movement_sparsity/model_sparsity": 0.8716494845420178,
      "compression_loss": 100.9710693359375,
      "distillation_loss": 5.904484748840332,
      "epoch": 3.91,
      "learning_rate": 4.1064495929868506e-05,
      "loss": 105.2009,
      "step": 4629,
      "task_loss": 2.8846917152404785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.952320826578953,
      "compression/movement_sparsity/importance_threshold": -0.0003094447431957227,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9026794153189496,
      "compression/movement_sparsity/model_sparsity": 0.8716696004360509,
      "compression_loss": 100.98210144042969,
      "distillation_loss": 4.881065368652344,
      "epoch": 3.91,
      "learning_rate": 4.106136505948654e-05,
      "loss": 105.7797,
      "step": 4630,
      "task_loss": 3.0778565406799316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9524317943545961,
      "compression/movement_sparsity/importance_threshold": -0.0003087245462549404,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9026763985045376,
      "compression/movement_sparsity/model_sparsity": 0.8716666872584948,
      "compression_loss": 100.9931411743164,
      "distillation_loss": 3.926767349243164,
      "epoch": 3.91,
      "learning_rate": 4.105823418910457e-05,
      "loss": 104.7998,
      "step": 4631,
      "task_loss": 1.8330944776535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9525425898200633,
      "compression/movement_sparsity/importance_threshold": -0.0003080054676321631,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9027012842423937,
      "compression/movement_sparsity/model_sparsity": 0.871690718094698,
      "compression_loss": 101.0041275024414,
      "distillation_loss": 4.834381103515625,
      "epoch": 3.91,
      "learning_rate": 4.10551033187226e-05,
      "loss": 104.9776,
      "step": 4632,
      "task_loss": 3.03425931930542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9526532131092398,
      "compression/movement_sparsity/importance_threshold": -0.0003072875064584575,
      "compression/movement_sparsity/linear_layer_sparsity": 0.902796403327625,
      "compression/movement_sparsity/model_sparsity": 0.8717825695467311,
      "compression_loss": 101.01509094238281,
      "distillation_loss": 6.7089738845825195,
      "epoch": 3.92,
      "learning_rate": 4.105197244834064e-05,
      "loss": 106.0798,
      "step": 4633,
      "task_loss": 3.4084396362304688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9527636643560105,
      "compression/movement_sparsity/importance_threshold": -0.00030657066186489095,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9029178986716668,
      "compression/movement_sparsity/model_sparsity": 0.8718998911519417,
      "compression_loss": 101.02601623535156,
      "distillation_loss": 5.702532768249512,
      "epoch": 3.92,
      "learning_rate": 4.104884157795867e-05,
      "loss": 105.5913,
      "step": 4634,
      "task_loss": 2.5024216175079346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9528739436942606,
      "compression/movement_sparsity/importance_threshold": -0.0003058549329825293,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9028976752833564,
      "compression/movement_sparsity/model_sparsity": 0.8718803624992342,
      "compression_loss": 101.03695678710938,
      "distillation_loss": 3.1224308013916016,
      "epoch": 3.92,
      "learning_rate": 4.1045710707576704e-05,
      "loss": 105.4553,
      "step": 4635,
      "task_loss": 1.9786745309829712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9529840512578753,
      "compression/movement_sparsity/importance_threshold": -0.00030514031894243645,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9029027549787693,
      "compression/movement_sparsity/model_sparsity": 0.8718852676914827,
      "compression_loss": 101.04791259765625,
      "distillation_loss": 3.4683737754821777,
      "epoch": 3.92,
      "learning_rate": 4.104257983719474e-05,
      "loss": 105.2427,
      "step": 4636,
      "task_loss": 1.6941593885421753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9530939871807399,
      "compression/movement_sparsity/importance_threshold": -0.00030442681887567994,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9029685763841192,
      "compression/movement_sparsity/model_sparsity": 0.8719488279290685,
      "compression_loss": 101.05874633789062,
      "distillation_loss": 3.1010584831237793,
      "epoch": 3.92,
      "learning_rate": 4.1039448966812774e-05,
      "loss": 104.8862,
      "step": 4637,
      "task_loss": 1.8707209825515747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9532037515967392,
      "compression/movement_sparsity/importance_threshold": -0.0003037144319133272,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9030972023804072,
      "compression/movement_sparsity/model_sparsity": 0.8720730352266842,
      "compression_loss": 101.0696029663086,
      "distillation_loss": 3.9027957916259766,
      "epoch": 3.92,
      "learning_rate": 4.1036318096430806e-05,
      "loss": 105.6905,
      "step": 4638,
      "task_loss": 2.948152780532837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9533133446397585,
      "compression/movement_sparsity/importance_threshold": -0.0003030031571864423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9031494660071553,
      "compression/movement_sparsity/model_sparsity": 0.8721235034370717,
      "compression_loss": 101.08052825927734,
      "distillation_loss": 4.928401947021484,
      "epoch": 3.92,
      "learning_rate": 4.1033187226048845e-05,
      "loss": 105.0611,
      "step": 4639,
      "task_loss": 1.8813085556030273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.953422766443683,
      "compression/movement_sparsity/importance_threshold": -0.00030229299382609175,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9032642599689857,
      "compression/movement_sparsity/model_sparsity": 0.8722343538731657,
      "compression_loss": 101.0912857055664,
      "distillation_loss": 4.713939666748047,
      "epoch": 3.92,
      "learning_rate": 4.1030056355666876e-05,
      "loss": 105.1799,
      "step": 4640,
      "task_loss": 3.034125566482544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9535320171423978,
      "compression/movement_sparsity/importance_threshold": -0.0003015839409633422,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9033682864074409,
      "compression/movement_sparsity/model_sparsity": 0.8723348066834373,
      "compression_loss": 101.1020736694336,
      "distillation_loss": 3.92116117477417,
      "epoch": 3.92,
      "learning_rate": 4.1026925485284915e-05,
      "loss": 104.9877,
      "step": 4641,
      "task_loss": 1.6019446849822998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.953641096869788,
      "compression/movement_sparsity/importance_threshold": -0.00030087599772925765,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9034129424152373,
      "compression/movement_sparsity/model_sparsity": 0.8723779286199879,
      "compression_loss": 101.11283874511719,
      "distillation_loss": 5.278929233551025,
      "epoch": 3.92,
      "learning_rate": 4.102379461490295e-05,
      "loss": 105.6137,
      "step": 4642,
      "task_loss": 1.9051085710525513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9537500057597388,
      "compression/movement_sparsity/importance_threshold": -0.0003001691632549073,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9034070161039223,
      "compression/movement_sparsity/model_sparsity": 0.872372205895698,
      "compression_loss": 101.12357330322266,
      "distillation_loss": 4.100269317626953,
      "epoch": 3.92,
      "learning_rate": 4.102066374452098e-05,
      "loss": 105.4378,
      "step": 4643,
      "task_loss": 2.258197546005249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9538587439461352,
      "compression/movement_sparsity/importance_threshold": -0.00029946343667135514,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9034668992737895,
      "compression/movement_sparsity/model_sparsity": 0.8724300318944581,
      "compression_loss": 101.13428497314453,
      "distillation_loss": 4.243312358856201,
      "epoch": 3.93,
      "learning_rate": 4.101753287413902e-05,
      "loss": 105.2812,
      "step": 4644,
      "task_loss": 2.2319164276123047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9539673115628625,
      "compression/movement_sparsity/importance_threshold": -0.0002987588171096678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9034837719709943,
      "compression/movement_sparsity/model_sparsity": 0.8724463249626074,
      "compression_loss": 101.14497375488281,
      "distillation_loss": 4.16384744644165,
      "epoch": 3.93,
      "learning_rate": 4.101440200375705e-05,
      "loss": 105.1358,
      "step": 4645,
      "task_loss": 2.694849967956543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9540757087438059,
      "compression/movement_sparsity/importance_threshold": -0.00029805530370091097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.903461712260868,
      "compression/movement_sparsity/model_sparsity": 0.8724250230713875,
      "compression_loss": 101.15569305419922,
      "distillation_loss": 3.699084520339966,
      "epoch": 3.93,
      "learning_rate": 4.101127113337508e-05,
      "loss": 105.917,
      "step": 4646,
      "task_loss": 2.155829429626465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9541839356228503,
      "compression/movement_sparsity/importance_threshold": -0.0002973528955761513,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9035150609868708,
      "compression/movement_sparsity/model_sparsity": 0.8724765391045323,
      "compression_loss": 101.1663818359375,
      "distillation_loss": 5.5700154304504395,
      "epoch": 3.93,
      "learning_rate": 4.100814026299312e-05,
      "loss": 105.2181,
      "step": 4647,
      "task_loss": 2.4601385593414307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9542919923338811,
      "compression/movement_sparsity/importance_threshold": -0.0002966515918664536,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9035075129887573,
      "compression/movement_sparsity/model_sparsity": 0.8724692504033743,
      "compression_loss": 101.17709350585938,
      "distillation_loss": 4.9870147705078125,
      "epoch": 3.93,
      "learning_rate": 4.100500939261115e-05,
      "loss": 105.9235,
      "step": 4648,
      "task_loss": 3.279409885406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9543998790107833,
      "compression/movement_sparsity/importance_threshold": -0.00029595139170288456,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9035552096593008,
      "compression/movement_sparsity/model_sparsity": 0.8725153085465525,
      "compression_loss": 101.1877670288086,
      "distillation_loss": 4.386382102966309,
      "epoch": 3.93,
      "learning_rate": 4.100187852222918e-05,
      "loss": 105.4513,
      "step": 4649,
      "task_loss": 1.932860255241394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9545075957874419,
      "compression/movement_sparsity/importance_threshold": -0.0002952522942165116,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9035431781741562,
      "compression/movement_sparsity/model_sparsity": 0.8725036903799358,
      "compression_loss": 101.19841766357422,
      "distillation_loss": 6.38057804107666,
      "epoch": 3.93,
      "learning_rate": 4.0998747651847215e-05,
      "loss": 105.8229,
      "step": 4650,
      "task_loss": 3.206296920776367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9546151427977424,
      "compression/movement_sparsity/importance_threshold": -0.0002945542985383987,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9036144846966186,
      "compression/movement_sparsity/model_sparsity": 0.8725725473039871,
      "compression_loss": 101.20905303955078,
      "distillation_loss": 3.6160573959350586,
      "epoch": 3.93,
      "learning_rate": 4.099561678146525e-05,
      "loss": 105.3239,
      "step": 4651,
      "task_loss": 2.227640151977539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9547225201755696,
      "compression/movement_sparsity/importance_threshold": -0.00029385740379961334,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9036634095564285,
      "compression/movement_sparsity/model_sparsity": 0.8726197914443522,
      "compression_loss": 101.21965789794922,
      "distillation_loss": 4.053164005279541,
      "epoch": 3.93,
      "learning_rate": 4.0992485911083285e-05,
      "loss": 105.5276,
      "step": 4652,
      "task_loss": 1.522519826889038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9548297280548088,
      "compression/movement_sparsity/importance_threshold": -0.0002931616091312204,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9036579244393161,
      "compression/movement_sparsity/model_sparsity": 0.8726144947578867,
      "compression_loss": 101.23029327392578,
      "distillation_loss": 4.704656600952148,
      "epoch": 3.93,
      "learning_rate": 4.098935504070132e-05,
      "loss": 105.3343,
      "step": 4653,
      "task_loss": 2.4082140922546387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9549367665693451,
      "compression/movement_sparsity/importance_threshold": -0.0002924669136642865,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9037693915583761,
      "compression/movement_sparsity/model_sparsity": 0.8727221326384941,
      "compression_loss": 101.2408447265625,
      "distillation_loss": 4.057040214538574,
      "epoch": 3.93,
      "learning_rate": 4.098622417031935e-05,
      "loss": 105.7469,
      "step": 4654,
      "task_loss": 2.716005325317383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9550436358530636,
      "compression/movement_sparsity/importance_threshold": -0.0002917733165298791,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9039174897204135,
      "compression/movement_sparsity/model_sparsity": 0.8728651431730622,
      "compression_loss": 101.25138854980469,
      "distillation_loss": 5.200481414794922,
      "epoch": 3.93,
      "learning_rate": 4.098309329993739e-05,
      "loss": 105.0197,
      "step": 4655,
      "task_loss": 2.737880229949951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9551503360398497,
      "compression/movement_sparsity/importance_threshold": -0.0002910808168590613,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9040610209262464,
      "compression/movement_sparsity/model_sparsity": 0.8730037436404211,
      "compression_loss": 101.26190185546875,
      "distillation_loss": 5.224555969238281,
      "epoch": 3.94,
      "learning_rate": 4.097996242955542e-05,
      "loss": 105.9385,
      "step": 4656,
      "task_loss": 2.7645864486694336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9552568672635882,
      "compression/movement_sparsity/importance_threshold": -0.0002903894137829006,
      "compression/movement_sparsity/linear_layer_sparsity": 0.904050134161195,
      "compression/movement_sparsity/model_sparsity": 0.8729932308692407,
      "compression_loss": 101.27246856689453,
      "distillation_loss": 3.113921642303467,
      "epoch": 3.94,
      "learning_rate": 4.097683155917345e-05,
      "loss": 105.0287,
      "step": 4657,
      "task_loss": 2.2281739711761475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9553632296581643,
      "compression/movement_sparsity/importance_threshold": -0.00028969910643246357,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9040714545729278,
      "compression/movement_sparsity/model_sparsity": 0.8730138188592413,
      "compression_loss": 101.28302001953125,
      "distillation_loss": 6.1024065017700195,
      "epoch": 3.94,
      "learning_rate": 4.097370068879149e-05,
      "loss": 105.4812,
      "step": 4658,
      "task_loss": 4.122501850128174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9554694233574633,
      "compression/movement_sparsity/importance_threshold": -0.000289009893938816,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9041143219555787,
      "compression/movement_sparsity/model_sparsity": 0.8730552136154227,
      "compression_loss": 101.2935791015625,
      "distillation_loss": 3.9201693534851074,
      "epoch": 3.94,
      "learning_rate": 4.097056981840952e-05,
      "loss": 105.8023,
      "step": 4659,
      "task_loss": 2.0746264457702637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9555754484953703,
      "compression/movement_sparsity/importance_threshold": -0.0002883217754330236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9041998301616956,
      "compression/movement_sparsity/model_sparsity": 0.8731377843516054,
      "compression_loss": 101.30413818359375,
      "distillation_loss": 3.8624472618103027,
      "epoch": 3.94,
      "learning_rate": 4.096743894802755e-05,
      "loss": 104.924,
      "step": 4660,
      "task_loss": 1.7499442100524902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9556813052057704,
      "compression/movement_sparsity/importance_threshold": -0.0002876347500461521,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9043138609767973,
      "compression/movement_sparsity/model_sparsity": 0.8732478978574085,
      "compression_loss": 101.31464385986328,
      "distillation_loss": 5.104468822479248,
      "epoch": 3.94,
      "learning_rate": 4.0964308077645584e-05,
      "loss": 105.175,
      "step": 4661,
      "task_loss": 2.553333044052124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9557869936225487,
      "compression/movement_sparsity/importance_threshold": -0.0002869488169092681,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9043723132465483,
      "compression/movement_sparsity/model_sparsity": 0.8733043421118734,
      "compression_loss": 101.32512664794922,
      "distillation_loss": 1.6891396045684814,
      "epoch": 3.94,
      "learning_rate": 4.096117720726362e-05,
      "loss": 105.3076,
      "step": 4662,
      "task_loss": 0.9750037789344788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9558925138795905,
      "compression/movement_sparsity/importance_threshold": -0.0002862639751534373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9044154906575578,
      "compression/movement_sparsity/model_sparsity": 0.8733460362459854,
      "compression_loss": 101.33556365966797,
      "distillation_loss": 2.956501007080078,
      "epoch": 3.94,
      "learning_rate": 4.0958046336881655e-05,
      "loss": 105.6095,
      "step": 4663,
      "task_loss": 2.1116254329681396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9559978661107807,
      "compression/movement_sparsity/importance_threshold": -0.0002855802239097264,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9044363221784176,
      "compression/movement_sparsity/model_sparsity": 0.8733661521400186,
      "compression_loss": 101.34598541259766,
      "distillation_loss": 4.750007152557373,
      "epoch": 3.94,
      "learning_rate": 4.0954915466499687e-05,
      "loss": 105.2613,
      "step": 4664,
      "task_loss": 2.1608355045318604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9561030504500045,
      "compression/movement_sparsity/importance_threshold": -0.00028489756230920104,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9044306343504553,
      "compression/movement_sparsity/model_sparsity": 0.8733606597064445,
      "compression_loss": 101.35643005371094,
      "distillation_loss": 4.676169395446777,
      "epoch": 3.94,
      "learning_rate": 4.095178459611772e-05,
      "loss": 105.7568,
      "step": 4665,
      "task_loss": 3.349846363067627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9562080670311472,
      "compression/movement_sparsity/importance_threshold": -0.000284215989482927,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9045288894917748,
      "compression/movement_sparsity/model_sparsity": 0.8734555394813915,
      "compression_loss": 101.36677551269531,
      "distillation_loss": 3.909311532974243,
      "epoch": 3.94,
      "learning_rate": 4.094865372573576e-05,
      "loss": 105.4214,
      "step": 4666,
      "task_loss": 1.5802407264709473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.956312915988094,
      "compression/movement_sparsity/importance_threshold": -0.00028353550456197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9045355670256509,
      "compression/movement_sparsity/model_sparsity": 0.8734619876214365,
      "compression_loss": 101.3771743774414,
      "distillation_loss": 4.0445146560668945,
      "epoch": 3.94,
      "learning_rate": 4.094552285535379e-05,
      "loss": 105.4979,
      "step": 4667,
      "task_loss": 2.406919240951538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9564175974547297,
      "compression/movement_sparsity/importance_threshold": -0.00028285610667739755,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9046111185517918,
      "compression/movement_sparsity/model_sparsity": 0.8735349437202307,
      "compression_loss": 101.38754272460938,
      "distillation_loss": 4.612880706787109,
      "epoch": 3.95,
      "learning_rate": 4.094239198497182e-05,
      "loss": 106.1755,
      "step": 4668,
      "task_loss": 3.124878168106079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9565221115649396,
      "compression/movement_sparsity/importance_threshold": -0.00028217779496027447,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9045926837886267,
      "compression/movement_sparsity/model_sparsity": 0.8735171422478923,
      "compression_loss": 101.39789581298828,
      "distillation_loss": 3.3281517028808594,
      "epoch": 3.95,
      "learning_rate": 4.093926111458985e-05,
      "loss": 105.6907,
      "step": 4669,
      "task_loss": 2.3057453632354736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.956626458452609,
      "compression/movement_sparsity/importance_threshold": -0.0002815005685416665,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9046014361276714,
      "compression/movement_sparsity/model_sparsity": 0.8735255939171656,
      "compression_loss": 101.4082260131836,
      "distillation_loss": 5.149050235748291,
      "epoch": 3.95,
      "learning_rate": 4.093613024420789e-05,
      "loss": 105.8883,
      "step": 4670,
      "task_loss": 1.7692673206329346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9567306382516227,
      "compression/movement_sparsity/importance_threshold": -0.00028082442655264113,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9046018177010358,
      "compression/movement_sparsity/model_sparsity": 0.873525962382311,
      "compression_loss": 101.41852569580078,
      "distillation_loss": 4.295919418334961,
      "epoch": 3.95,
      "learning_rate": 4.093299937382592e-05,
      "loss": 105.7549,
      "step": 4671,
      "task_loss": 2.827812910079956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9568346510958662,
      "compression/movement_sparsity/importance_threshold": -0.0002801493681242632,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9046683068597733,
      "compression/movement_sparsity/model_sparsity": 0.8735901674339013,
      "compression_loss": 101.42880249023438,
      "distillation_loss": 4.039035320281982,
      "epoch": 3.95,
      "learning_rate": 4.0929868503443954e-05,
      "loss": 105.3921,
      "step": 4672,
      "task_loss": 2.123638153076172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9569384971192245,
      "compression/movement_sparsity/importance_threshold": -0.0002794753923875985,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9046413224684133,
      "compression/movement_sparsity/model_sparsity": 0.8735641100393983,
      "compression_loss": 101.43904876708984,
      "distillation_loss": 6.634730339050293,
      "epoch": 3.95,
      "learning_rate": 4.092673763306199e-05,
      "loss": 105.8612,
      "step": 4673,
      "task_loss": 3.991177558898926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9570421764555826,
      "compression/movement_sparsity/importance_threshold": -0.00027880249847371443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048130185582022,
      "compression/movement_sparsity/model_sparsity": 0.8737299078403038,
      "compression_loss": 101.44927215576172,
      "distillation_loss": 4.888792037963867,
      "epoch": 3.95,
      "learning_rate": 4.0923606762680025e-05,
      "loss": 105.974,
      "step": 4674,
      "task_loss": 2.743758201599121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9571456892388259,
      "compression/movement_sparsity/importance_threshold": -0.00027813068551367504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.904840956882973,
      "compression/movement_sparsity/model_sparsity": 0.8737568863976705,
      "compression_loss": 101.45947265625,
      "distillation_loss": 3.7873692512512207,
      "epoch": 3.95,
      "learning_rate": 4.092047589229806e-05,
      "loss": 105.4576,
      "step": 4675,
      "task_loss": 2.4788427352905273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9572490356028394,
      "compression/movement_sparsity/importance_threshold": -0.00027745995263854864,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048799846836452,
      "compression/movement_sparsity/model_sparsity": 0.873794573473326,
      "compression_loss": 101.4697036743164,
      "distillation_loss": 6.498286247253418,
      "epoch": 3.95,
      "learning_rate": 4.0917345021916095e-05,
      "loss": 106.2659,
      "step": 4676,
      "task_loss": 3.209911346435547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9573522156815082,
      "compression/movement_sparsity/importance_threshold": -0.0002767902989794001,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9047927713215564,
      "compression/movement_sparsity/model_sparsity": 0.8737103561585247,
      "compression_loss": 101.47989654541016,
      "distillation_loss": 2.8484814167022705,
      "epoch": 3.95,
      "learning_rate": 4.0914214151534134e-05,
      "loss": 104.8972,
      "step": 4677,
      "task_loss": 2.139747381210327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9574552296087175,
      "compression/movement_sparsity/importance_threshold": -0.0002761217236672952,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048352809791783,
      "compression/movement_sparsity/model_sparsity": 0.8737514054786323,
      "compression_loss": 101.49007415771484,
      "distillation_loss": 2.802572727203369,
      "epoch": 3.95,
      "learning_rate": 4.0911083281152165e-05,
      "loss": 104.9176,
      "step": 4678,
      "task_loss": 2.5844101905822754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9575580775183525,
      "compression/movement_sparsity/importance_threshold": -0.0002754542258333005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048105741038368,
      "compression/movement_sparsity/model_sparsity": 0.873727547360466,
      "compression_loss": 101.50020599365234,
      "distillation_loss": 4.564849853515625,
      "epoch": 3.95,
      "learning_rate": 4.09079524107702e-05,
      "loss": 105.4872,
      "step": 4679,
      "task_loss": 2.487870454788208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9576607595442982,
      "compression/movement_sparsity/importance_threshold": -0.00027478780460848257,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048629450480935,
      "compression/movement_sparsity/model_sparsity": 0.8737781192016756,
      "compression_loss": 101.51033020019531,
      "distillation_loss": 5.171796798706055,
      "epoch": 3.96,
      "learning_rate": 4.090482154038823e-05,
      "loss": 106.2071,
      "step": 4680,
      "task_loss": 2.852546453475952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9577632758204399,
      "compression/movement_sparsity/importance_threshold": -0.00027412245912390547,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048723770646935,
      "compression/movement_sparsity/model_sparsity": 0.8737872271994891,
      "compression_loss": 101.52049255371094,
      "distillation_loss": 4.86936092376709,
      "epoch": 3.96,
      "learning_rate": 4.090169067000627e-05,
      "loss": 106.0816,
      "step": 4681,
      "task_loss": 2.1388707160949707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9578656264806625,
      "compression/movement_sparsity/importance_threshold": -0.0002734581885106375,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9048879858001289,
      "compression/movement_sparsity/model_sparsity": 0.8738022997268441,
      "compression_loss": 101.5306396484375,
      "distillation_loss": 3.4570508003234863,
      "epoch": 3.96,
      "learning_rate": 4.08985597996243e-05,
      "loss": 105.8264,
      "step": 4682,
      "task_loss": 1.7082393169403076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9579678116588514,
      "compression/movement_sparsity/importance_threshold": -0.0002727949918997436,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9049754376455702,
      "compression/movement_sparsity/model_sparsity": 0.8738867473323613,
      "compression_loss": 101.54072570800781,
      "distillation_loss": 4.082529067993164,
      "epoch": 3.96,
      "learning_rate": 4.089542892924233e-05,
      "loss": 105.8747,
      "step": 4683,
      "task_loss": 1.6747971773147583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9580698314888917,
      "compression/movement_sparsity/importance_threshold": -0.0002721328684222894,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9050229077569286,
      "compression/movement_sparsity/model_sparsity": 0.8739325866993594,
      "compression_loss": 101.55084991455078,
      "distillation_loss": 4.240242958068848,
      "epoch": 3.96,
      "learning_rate": 4.089229805886037e-05,
      "loss": 105.8156,
      "step": 4684,
      "task_loss": 3.3034210205078125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9581716861046683,
      "compression/movement_sparsity/importance_threshold": -0.0002714718172093424,
      "compression/movement_sparsity/linear_layer_sparsity": 0.905064189225284,
      "compression/movement_sparsity/model_sparsity": 0.8739724500222801,
      "compression_loss": 101.5609130859375,
      "distillation_loss": 3.0009407997131348,
      "epoch": 3.96,
      "learning_rate": 4.08891671884784e-05,
      "loss": 105.216,
      "step": 4685,
      "task_loss": 1.8811537027359009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9582733756400666,
      "compression/movement_sparsity/importance_threshold": -0.0002708118373919667,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9051581635904222,
      "compression/movement_sparsity/model_sparsity": 0.8740631960788768,
      "compression_loss": 101.5709457397461,
      "distillation_loss": 4.949099063873291,
      "epoch": 3.96,
      "learning_rate": 4.088603631809643e-05,
      "loss": 106.603,
      "step": 4686,
      "task_loss": 3.711230754852295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9583749002289718,
      "compression/movement_sparsity/importance_threshold": -0.0002701529281012296,
      "compression/movement_sparsity/linear_layer_sparsity": 0.905089337294828,
      "compression/movement_sparsity/model_sparsity": 0.8739967341782707,
      "compression_loss": 101.5809555053711,
      "distillation_loss": 4.084665775299072,
      "epoch": 3.96,
      "learning_rate": 4.0882905447714465e-05,
      "loss": 105.8096,
      "step": 4687,
      "task_loss": 2.823697328567505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9584762600052686,
      "compression/movement_sparsity/importance_threshold": -0.00026949508846819785,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9051699088955435,
      "compression/movement_sparsity/model_sparsity": 0.8740745378966345,
      "compression_loss": 101.59095764160156,
      "distillation_loss": 3.305032253265381,
      "epoch": 3.96,
      "learning_rate": 4.0879774577332504e-05,
      "loss": 106.1126,
      "step": 4688,
      "task_loss": 1.9472458362579346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9585774551028428,
      "compression/movement_sparsity/importance_threshold": -0.0002688383176239354,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9052716458938127,
      "compression/movement_sparsity/model_sparsity": 0.8741727799160335,
      "compression_loss": 101.60093688964844,
      "distillation_loss": 4.458347320556641,
      "epoch": 3.96,
      "learning_rate": 4.0876643706950535e-05,
      "loss": 105.8699,
      "step": 4689,
      "task_loss": 1.9441804885864258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9586784856555789,
      "compression/movement_sparsity/importance_threshold": -0.00026818261469950967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9053010985878733,
      "compression/movement_sparsity/model_sparsity": 0.874201220819446,
      "compression_loss": 101.61085510253906,
      "distillation_loss": 4.028903007507324,
      "epoch": 3.96,
      "learning_rate": 4.087351283656857e-05,
      "loss": 105.1906,
      "step": 4690,
      "task_loss": 2.892592430114746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9587793517973624,
      "compression/movement_sparsity/importance_threshold": -0.0002675279788259873,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9054183847007397,
      "compression/movement_sparsity/model_sparsity": 0.8743144777935211,
      "compression_loss": 101.62077331542969,
      "distillation_loss": 3.4157872200012207,
      "epoch": 3.96,
      "learning_rate": 4.08703819661866e-05,
      "loss": 105.996,
      "step": 4691,
      "task_loss": 2.4577319622039795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9588800536620783,
      "compression/movement_sparsity/importance_threshold": -0.0002668744091344332,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9054883318680916,
      "compression/movement_sparsity/model_sparsity": 0.8743820220604919,
      "compression_loss": 101.6307144165039,
      "distillation_loss": 5.2552008628845215,
      "epoch": 3.97,
      "learning_rate": 4.086725109580464e-05,
      "loss": 105.8727,
      "step": 4692,
      "task_loss": 3.7607932090759277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9589805913836119,
      "compression/movement_sparsity/importance_threshold": -0.00026622190475591306,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9055631321716714,
      "compression/movement_sparsity/model_sparsity": 0.8744542527435311,
      "compression_loss": 101.64057922363281,
      "distillation_loss": 4.123255252838135,
      "epoch": 3.97,
      "learning_rate": 4.086412022542267e-05,
      "loss": 105.8067,
      "step": 4693,
      "task_loss": 2.3276443481445312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9590809650958482,
      "compression/movement_sparsity/importance_threshold": -0.00026557046482149436,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9055388545663647,
      "compression/movement_sparsity/model_sparsity": 0.8744308091486533,
      "compression_loss": 101.65045166015625,
      "distillation_loss": 5.366290092468262,
      "epoch": 3.97,
      "learning_rate": 4.08609893550407e-05,
      "loss": 106.294,
      "step": 4694,
      "task_loss": 2.2536306381225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9591811749326724,
      "compression/movement_sparsity/importance_threshold": -0.0002649200884622411,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9056016472331352,
      "compression/movement_sparsity/model_sparsity": 0.8744914446941474,
      "compression_loss": 101.66034698486328,
      "distillation_loss": 3.157841682434082,
      "epoch": 3.97,
      "learning_rate": 4.085785848465874e-05,
      "loss": 105.1714,
      "step": 4695,
      "task_loss": 2.8524930477142334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9592812210279696,
      "compression/movement_sparsity/importance_threshold": -0.0002642707748092216,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9056109003872207,
      "compression/movement_sparsity/model_sparsity": 0.8745003799739239,
      "compression_loss": 101.6701889038086,
      "distillation_loss": 3.8445475101470947,
      "epoch": 3.97,
      "learning_rate": 4.085472761427677e-05,
      "loss": 105.8849,
      "step": 4696,
      "task_loss": 1.5538086891174316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.959381103515625,
      "compression/movement_sparsity/importance_threshold": -0.00026362252299350075,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9056142868508292,
      "compression/movement_sparsity/model_sparsity": 0.8745036501020896,
      "compression_loss": 101.6800308227539,
      "distillation_loss": 4.1866302490234375,
      "epoch": 3.97,
      "learning_rate": 4.08515967438948e-05,
      "loss": 105.6728,
      "step": 4697,
      "task_loss": 2.758531332015991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9594808225295237,
      "compression/movement_sparsity/importance_threshold": -0.0002629753321461443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9056509536663095,
      "compression/movement_sparsity/model_sparsity": 0.8745390572996579,
      "compression_loss": 101.68984985351562,
      "distillation_loss": 4.511089324951172,
      "epoch": 3.97,
      "learning_rate": 4.0848465873512835e-05,
      "loss": 105.7044,
      "step": 4698,
      "task_loss": 2.151195764541626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9595803782035508,
      "compression/movement_sparsity/importance_threshold": -0.00026232920139821966,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9057519513661852,
      "compression/movement_sparsity/model_sparsity": 0.8746365854178376,
      "compression_loss": 101.69966125488281,
      "distillation_loss": 5.833030700683594,
      "epoch": 3.97,
      "learning_rate": 4.0845335003130873e-05,
      "loss": 105.9798,
      "step": 4699,
      "task_loss": 2.9345176219940186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9596797706715915,
      "compression/movement_sparsity/importance_threshold": -0.0002616841298807909,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9058785502539752,
      "compression/movement_sparsity/model_sparsity": 0.8747588352443683,
      "compression_loss": 101.70946502685547,
      "distillation_loss": 4.042781829833984,
      "epoch": 3.97,
      "learning_rate": 4.0842204132748905e-05,
      "loss": 106.3268,
      "step": 4700,
      "task_loss": 1.5597920417785645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9597790000675309,
      "compression/movement_sparsity/importance_threshold": -0.00026104011672492544,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9058789795240101,
      "compression/movement_sparsity/model_sparsity": 0.8747592497676568,
      "compression_loss": 101.71929168701172,
      "distillation_loss": 4.6326751708984375,
      "epoch": 3.97,
      "learning_rate": 4.083907326236694e-05,
      "loss": 105.9519,
      "step": 4701,
      "task_loss": 3.3509528636932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9598780665252543,
      "compression/movement_sparsity/importance_threshold": -0.0002603971610616882,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9058841784610994,
      "compression/movement_sparsity/model_sparsity": 0.8747642701052633,
      "compression_loss": 101.72908782958984,
      "distillation_loss": 4.735093116760254,
      "epoch": 3.97,
      "learning_rate": 4.083594239198497e-05,
      "loss": 106.3131,
      "step": 4702,
      "task_loss": 3.3809025287628174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9599769701786466,
      "compression/movement_sparsity/importance_threshold": -0.00025975526202214744,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9059279401563229,
      "compression/movement_sparsity/model_sparsity": 0.8748065284516292,
      "compression_loss": 101.73886108398438,
      "distillation_loss": 3.5122628211975098,
      "epoch": 3.97,
      "learning_rate": 4.083281152160301e-05,
      "loss": 106.3776,
      "step": 4703,
      "task_loss": 2.2108540534973145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9600757111615931,
      "compression/movement_sparsity/importance_threshold": -0.00025911441873736635,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9060294982920776,
      "compression/movement_sparsity/model_sparsity": 0.8749045977529913,
      "compression_loss": 101.7486343383789,
      "distillation_loss": 3.41514253616333,
      "epoch": 3.98,
      "learning_rate": 4.082968065122104e-05,
      "loss": 106.411,
      "step": 4704,
      "task_loss": 1.7220221757888794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9601742896079788,
      "compression/movement_sparsity/importance_threshold": -0.00025847463033841327,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9060256706342665,
      "compression/movement_sparsity/model_sparsity": 0.8749009015870013,
      "compression_loss": 101.75834655761719,
      "distillation_loss": 3.015875816345215,
      "epoch": 3.98,
      "learning_rate": 4.082654978083907e-05,
      "loss": 105.6279,
      "step": 4705,
      "task_loss": 1.9595389366149902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.960272705651689,
      "compression/movement_sparsity/importance_threshold": -0.00025783589595635304,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9061010790703957,
      "compression/movement_sparsity/model_sparsity": 0.8749737195113659,
      "compression_loss": 101.76811981201172,
      "distillation_loss": 5.043632507324219,
      "epoch": 3.98,
      "learning_rate": 4.082341891045711e-05,
      "loss": 106.8606,
      "step": 4706,
      "task_loss": 2.4567673206329346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9603709594266087,
      "compression/movement_sparsity/importance_threshold": -0.0002571982147222523,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9061915715785843,
      "compression/movement_sparsity/model_sparsity": 0.8750611033235107,
      "compression_loss": 101.77783203125,
      "distillation_loss": 4.682574272155762,
      "epoch": 3.98,
      "learning_rate": 4.082028804007514e-05,
      "loss": 106.5937,
      "step": 4707,
      "task_loss": 2.442762613296509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9604690510666232,
      "compression/movement_sparsity/importance_threshold": -0.0002565615857671767,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9062992706606714,
      "compression/movement_sparsity/model_sparsity": 0.875165102610807,
      "compression_loss": 101.78755187988281,
      "distillation_loss": 4.708950042724609,
      "epoch": 3.98,
      "learning_rate": 4.081715716969318e-05,
      "loss": 106.2357,
      "step": 4708,
      "task_loss": 2.4931373596191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9605669807056174,
      "compression/movement_sparsity/importance_threshold": -0.0002559260082221921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9063172046087957,
      "compression/movement_sparsity/model_sparsity": 0.8751824204726419,
      "compression_loss": 101.79730987548828,
      "distillation_loss": 4.2543535232543945,
      "epoch": 3.98,
      "learning_rate": 4.081402629931121e-05,
      "loss": 106.1018,
      "step": 4709,
      "task_loss": 1.865181803703308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9606647484774767,
      "compression/movement_sparsity/importance_threshold": -0.000255291481218365,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9063857804968696,
      "compression/movement_sparsity/model_sparsity": 0.8752486405679963,
      "compression_loss": 101.8070068359375,
      "distillation_loss": 4.638772487640381,
      "epoch": 3.98,
      "learning_rate": 4.081089542892924e-05,
      "loss": 106.341,
      "step": 4710,
      "task_loss": 2.0091705322265625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9607623545160862,
      "compression/movement_sparsity/importance_threshold": -0.0002546580038867612,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9064151974184272,
      "compression/movement_sparsity/model_sparsity": 0.8752770469278015,
      "compression_loss": 101.81666564941406,
      "distillation_loss": 4.170865535736084,
      "epoch": 3.98,
      "learning_rate": 4.080776455854728e-05,
      "loss": 106.1386,
      "step": 4711,
      "task_loss": 2.0149080753326416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9608597989553309,
      "compression/movement_sparsity/importance_threshold": -0.0002540255753584464,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9064427660940013,
      "compression/movement_sparsity/model_sparsity": 0.8753036685345585,
      "compression_loss": 101.82630920410156,
      "distillation_loss": 3.6139655113220215,
      "epoch": 3.98,
      "learning_rate": 4.0804633688165314e-05,
      "loss": 105.5611,
      "step": 4712,
      "task_loss": 3.2421884536743164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.960957081929096,
      "compression/movement_sparsity/importance_threshold": -0.0002533941947644872,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9064676995285279,
      "compression/movement_sparsity/model_sparsity": 0.8753277454289049,
      "compression_loss": 101.83583068847656,
      "distillation_loss": 5.066997051239014,
      "epoch": 3.98,
      "learning_rate": 4.0801502817783346e-05,
      "loss": 106.1238,
      "step": 4713,
      "task_loss": 2.9662957191467285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9610542035712667,
      "compression/movement_sparsity/importance_threshold": -0.00025276386123594934,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9064497775045712,
      "compression/movement_sparsity/model_sparsity": 0.8753104390816057,
      "compression_loss": 101.84535217285156,
      "distillation_loss": 4.003117561340332,
      "epoch": 3.98,
      "learning_rate": 4.0798371947401384e-05,
      "loss": 106.3934,
      "step": 4714,
      "task_loss": 2.367861747741699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.961151164015728,
      "compression/movement_sparsity/importance_threshold": -0.00025213457390389944,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9064926448872221,
      "compression/movement_sparsity/model_sparsity": 0.875351833837787,
      "compression_loss": 101.8548583984375,
      "distillation_loss": 4.4803900718688965,
      "epoch": 3.99,
      "learning_rate": 4.0795241077019416e-05,
      "loss": 105.821,
      "step": 4715,
      "task_loss": 2.670651912689209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9612479633963652,
      "compression/movement_sparsity/importance_threshold": -0.00025150633189940236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9065264856749727,
      "compression/movement_sparsity/model_sparsity": 0.8753845120903719,
      "compression_loss": 101.8642807006836,
      "distillation_loss": 3.3339970111846924,
      "epoch": 3.99,
      "learning_rate": 4.079211020663745e-05,
      "loss": 105.5701,
      "step": 4716,
      "task_loss": 1.3779469728469849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9613446018470634,
      "compression/movement_sparsity/importance_threshold": -0.00025087913435352556,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9065990561592047,
      "compression/movement_sparsity/model_sparsity": 0.8754545895552176,
      "compression_loss": 101.87374114990234,
      "distillation_loss": 5.220317840576172,
      "epoch": 3.99,
      "learning_rate": 4.078897933625548e-05,
      "loss": 106.4978,
      "step": 4717,
      "task_loss": 2.2851827144622803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9614410795017077,
      "compression/movement_sparsity/importance_threshold": -0.0002502529803973339,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9066647225503753,
      "compression/movement_sparsity/model_sparsity": 0.8755180001038381,
      "compression_loss": 101.88316345214844,
      "distillation_loss": 5.500280380249023,
      "epoch": 3.99,
      "learning_rate": 4.078584846587352e-05,
      "loss": 106.4076,
      "step": 4718,
      "task_loss": 3.4764060974121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9615373964941832,
      "compression/movement_sparsity/importance_threshold": -0.00024962786916189403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9066503777767094,
      "compression/movement_sparsity/model_sparsity": 0.8755041481172773,
      "compression_loss": 101.89256286621094,
      "distillation_loss": 4.245757102966309,
      "epoch": 3.99,
      "learning_rate": 4.078271759549155e-05,
      "loss": 107.0876,
      "step": 4719,
      "task_loss": 3.123845100402832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9616335529583752,
      "compression/movement_sparsity/importance_threshold": -0.0002490037997782725,
      "compression/movement_sparsity/linear_layer_sparsity": 0.906676587097173,
      "compression/movement_sparsity/model_sparsity": 0.8755294570669536,
      "compression_loss": 101.9019546508789,
      "distillation_loss": 4.6381635665893555,
      "epoch": 3.99,
      "learning_rate": 4.077958672510958e-05,
      "loss": 106.1523,
      "step": 4720,
      "task_loss": 2.3972623348236084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9617295490281687,
      "compression/movement_sparsity/importance_threshold": -0.00024838077137753333,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9067604497681561,
      "compression/movement_sparsity/model_sparsity": 0.8756104387971967,
      "compression_loss": 101.9113540649414,
      "distillation_loss": 4.64486026763916,
      "epoch": 3.99,
      "learning_rate": 4.077645585472762e-05,
      "loss": 106.9722,
      "step": 4721,
      "task_loss": 1.5838329792022705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9618253848374488,
      "compression/movement_sparsity/importance_threshold": -0.00024775878309074486,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9067283141363773,
      "compression/movement_sparsity/model_sparsity": 0.8755794071232303,
      "compression_loss": 101.92062377929688,
      "distillation_loss": 4.569716453552246,
      "epoch": 3.99,
      "learning_rate": 4.077332498434565e-05,
      "loss": 106.4057,
      "step": 4722,
      "task_loss": 3.13065505027771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9619210605201008,
      "compression/movement_sparsity/importance_threshold": -0.00024713783404897195,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9068822193680535,
      "compression/movement_sparsity/model_sparsity": 0.8757280252367305,
      "compression_loss": 101.93000793457031,
      "distillation_loss": 4.673598766326904,
      "epoch": 3.99,
      "learning_rate": 4.0770194113963684e-05,
      "loss": 106.1801,
      "step": 4723,
      "task_loss": 2.191633462905884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9620165762100098,
      "compression/movement_sparsity/importance_threshold": -0.0002465179233832812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9069083213710084,
      "compression/movement_sparsity/model_sparsity": 0.8757532305555847,
      "compression_loss": 101.93937683105469,
      "distillation_loss": 6.7890119552612305,
      "epoch": 3.99,
      "learning_rate": 4.0767063243581715e-05,
      "loss": 106.6318,
      "step": 4724,
      "task_loss": 3.5493054389953613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9621119320410608,
      "compression/movement_sparsity/importance_threshold": -0.0002458990502247384,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9069389903301678,
      "compression/movement_sparsity/model_sparsity": 0.8757828459416483,
      "compression_loss": 101.94866943359375,
      "distillation_loss": 3.527641773223877,
      "epoch": 3.99,
      "learning_rate": 4.0763932373199754e-05,
      "loss": 106.9377,
      "step": 4725,
      "task_loss": 2.2168400287628174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9622071281471392,
      "compression/movement_sparsity/importance_threshold": -0.0002452812137044083,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9069298921902617,
      "compression/movement_sparsity/model_sparsity": 0.875774060350837,
      "compression_loss": 101.95809936523438,
      "distillation_loss": 3.8685052394866943,
      "epoch": 3.99,
      "learning_rate": 4.0760801502817786e-05,
      "loss": 106.411,
      "step": 4726,
      "task_loss": 1.513759970664978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9623021646621298,
      "compression/movement_sparsity/importance_threshold": -0.00024466441295335935,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9069678945125171,
      "compression/movement_sparsity/model_sparsity": 0.8758107571764143,
      "compression_loss": 101.96743774414062,
      "distillation_loss": 5.944355487823486,
      "epoch": 4.0,
      "learning_rate": 4.075767063243582e-05,
      "loss": 107.6945,
      "step": 4727,
      "task_loss": 2.888057231903076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9623970417199179,
      "compression/movement_sparsity/importance_threshold": -0.00024404864710265723,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9070499327858519,
      "compression/movement_sparsity/model_sparsity": 0.8758899771826807,
      "compression_loss": 101.97681427001953,
      "distillation_loss": 3.9286811351776123,
      "epoch": 4.0,
      "learning_rate": 4.075453976205385e-05,
      "loss": 106.4211,
      "step": 4728,
      "task_loss": 3.8434433937072754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9624917594543888,
      "compression/movement_sparsity/importance_threshold": -0.00024343391528336596,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9071281434013755,
      "compression/movement_sparsity/model_sparsity": 0.8759655010229571,
      "compression_loss": 101.98612213134766,
      "distillation_loss": 4.36923885345459,
      "epoch": 4.0,
      "learning_rate": 4.075140889167189e-05,
      "loss": 106.2515,
      "step": 4729,
      "task_loss": 1.3009731769561768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9625863179994274,
      "compression/movement_sparsity/importance_threshold": -0.000242820216626553,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9071379569913398,
      "compression/movement_sparsity/model_sparsity": 0.875974977485916,
      "compression_loss": 101.99546813964844,
      "distillation_loss": 5.805533409118652,
      "epoch": 4.0,
      "learning_rate": 4.074827802128992e-05,
      "loss": 107.2558,
      "step": 4730,
      "task_loss": 4.205356597900391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9626807174889191,
      "compression/movement_sparsity/importance_threshold": -0.00024220755026328322,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9071365380153912,
      "compression/movement_sparsity/model_sparsity": 0.8759736072561565,
      "compression_loss": 102.00474548339844,
      "distillation_loss": 3.9001264572143555,
      "epoch": 4.0,
      "learning_rate": 4.074514715090795e-05,
      "loss": 105.4999,
      "step": 4731,
      "task_loss": 2.223771333694458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9627749580567488,
      "compression/movement_sparsity/importance_threshold": -0.00024159591532462495,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9071510378032364,
      "compression/movement_sparsity/model_sparsity": 0.8759876089316826,
      "compression_loss": 102.0140609741211,
      "distillation_loss": 3.3805928230285645,
      "epoch": 4.0,
      "learning_rate": 4.074201628052599e-05,
      "loss": 106.0391,
      "step": 4732,
      "task_loss": 2.718658208847046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9629629629629629,
      "compression/movement_sparsity/importance_threshold": -0.00024037573624540332,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9072069502252809,
      "compression/movement_sparsity/model_sparsity": 0.8760416005900232,
      "compression_loss": 102.03318786621094,
      "distillation_loss": 2.874843120574951,
      "epoch": 4.0,
      "learning_rate": 4.073888541014402e-05,
      "loss": 184.8975,
      "step": 4733,
      "task_loss": 1.763904333114624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9630567275691178,
      "compression/movement_sparsity/importance_threshold": -0.00023976719036697056,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9072741309857414,
      "compression/movement_sparsity/model_sparsity": 0.8761064734846897,
      "compression_loss": 102.04239654541016,
      "distillation_loss": 4.776275157928467,
      "epoch": 4.0,
      "learning_rate": 4.0735754539762054e-05,
      "loss": 106.1724,
      "step": 4734,
      "task_loss": 3.0733437538146973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9631503337891512,
      "compression/movement_sparsity/importance_threshold": -0.00023915967243741312,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073134807389397,
      "compression/movement_sparsity/model_sparsity": 0.8761444714528117,
      "compression_loss": 102.05150604248047,
      "distillation_loss": 4.8445143699646,
      "epoch": 4.0,
      "learning_rate": 4.0732623669380085e-05,
      "loss": 106.0648,
      "step": 4735,
      "task_loss": 3.791348695755005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9632437817569484,
      "compression/movement_sparsity/importance_threshold": -0.00023855318158779674,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073618570870384,
      "compression/movement_sparsity/model_sparsity": 0.8761911859245302,
      "compression_loss": 102.06065368652344,
      "distillation_loss": 5.363153457641602,
      "epoch": 4.0,
      "learning_rate": 4.0729492798998124e-05,
      "loss": 106.3207,
      "step": 4736,
      "task_loss": 4.430835247039795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9633370716063946,
      "compression/movement_sparsity/importance_threshold": -0.00023794771694918542,
      "compression/movement_sparsity/linear_layer_sparsity": 0.90735145921286,
      "compression/movement_sparsity/model_sparsity": 0.8761811452493172,
      "compression_loss": 102.06975555419922,
      "distillation_loss": 4.721225738525391,
      "epoch": 4.0,
      "learning_rate": 4.0726361928616156e-05,
      "loss": 106.4588,
      "step": 4737,
      "task_loss": 2.8120925426483154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9634302034713748,
      "compression/movement_sparsity/importance_threshold": -0.0002373432776526475,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9072600485437634,
      "compression/movement_sparsity/model_sparsity": 0.8760928748179163,
      "compression_loss": 102.07886505126953,
      "distillation_loss": 3.2372875213623047,
      "epoch": 4.01,
      "learning_rate": 4.072323105823419e-05,
      "loss": 105.8973,
      "step": 4738,
      "task_loss": 2.0505712032318115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9635231774857742,
      "compression/movement_sparsity/importance_threshold": -0.00023673986282924699,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073137669189629,
      "compression/movement_sparsity/model_sparsity": 0.8761447478016707,
      "compression_loss": 102.08795166015625,
      "distillation_loss": 5.051644802093506,
      "epoch": 4.01,
      "learning_rate": 4.072010018785222e-05,
      "loss": 106.9286,
      "step": 4739,
      "task_loss": 2.7814853191375732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9636159937834781,
      "compression/movement_sparsity/importance_threshold": -0.00023613747161005134,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9072799619037153,
      "compression/movement_sparsity/model_sparsity": 0.8761121040926932,
      "compression_loss": 102.09706115722656,
      "distillation_loss": 3.7983548641204834,
      "epoch": 4.01,
      "learning_rate": 4.071696931747026e-05,
      "loss": 106.2101,
      "step": 4740,
      "task_loss": 2.5259625911712646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9637086524983712,
      "compression/movement_sparsity/importance_threshold": -0.00023553610312612803,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073895211559536,
      "compression/movement_sparsity/model_sparsity": 0.8762178996475735,
      "compression_loss": 102.10615539550781,
      "distillation_loss": 5.121649742126465,
      "epoch": 4.01,
      "learning_rate": 4.071383844708829e-05,
      "loss": 106.2127,
      "step": 4741,
      "task_loss": 2.024514675140381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9638011537643392,
      "compression/movement_sparsity/importance_threshold": -0.00023493575650853932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9074158854905965,
      "compression/movement_sparsity/model_sparsity": 0.8762433582862151,
      "compression_loss": 102.1152572631836,
      "distillation_loss": 4.735377788543701,
      "epoch": 4.01,
      "learning_rate": 4.071070757670633e-05,
      "loss": 106.9508,
      "step": 4742,
      "task_loss": 2.420778751373291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9638934977152669,
      "compression/movement_sparsity/importance_threshold": -0.00023433643088835356,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073821162478517,
      "compression/movement_sparsity/model_sparsity": 0.8762107491208451,
      "compression_loss": 102.12427520751953,
      "distillation_loss": 2.62825870513916,
      "epoch": 4.01,
      "learning_rate": 4.070757670632436e-05,
      "loss": 105.3587,
      "step": 4743,
      "task_loss": 1.0795023441314697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9639856844850394,
      "compression/movement_sparsity/importance_threshold": -0.00023373812539663735,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9073810788452674,
      "compression/movement_sparsity/model_sparsity": 0.8762097473562309,
      "compression_loss": 102.13330078125,
      "distillation_loss": 3.961312770843506,
      "epoch": 4.01,
      "learning_rate": 4.07044458359424e-05,
      "loss": 105.9915,
      "step": 4744,
      "task_loss": 2.192967414855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9640777142075421,
      "compression/movement_sparsity/importance_threshold": -0.00023314083916445554,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9074420113418867,
      "compression/movement_sparsity/model_sparsity": 0.876268586634141,
      "compression_loss": 102.14239501953125,
      "distillation_loss": 3.751586437225342,
      "epoch": 4.01,
      "learning_rate": 4.070131496556043e-05,
      "loss": 105.9125,
      "step": 4745,
      "task_loss": 2.422184944152832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9641695870166599,
      "compression/movement_sparsity/importance_threshold": -0.00023254457132287475,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9075440941410173,
      "compression/movement_sparsity/model_sparsity": 0.8763671625750781,
      "compression_loss": 102.15130615234375,
      "distillation_loss": 3.3452649116516113,
      "epoch": 4.01,
      "learning_rate": 4.069818409517846e-05,
      "loss": 106.0835,
      "step": 4746,
      "task_loss": 2.490675449371338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9642613030462781,
      "compression/movement_sparsity/importance_threshold": -0.00023194932100295985,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9075618373024594,
      "compression/movement_sparsity/model_sparsity": 0.8763842962043403,
      "compression_loss": 102.16027069091797,
      "distillation_loss": 6.149139881134033,
      "epoch": 4.01,
      "learning_rate": 4.06950532247965e-05,
      "loss": 107.0028,
      "step": 4747,
      "task_loss": 3.5166282653808594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9643528624302817,
      "compression/movement_sparsity/importance_threshold": -0.00023135508733577916,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9075771240853686,
      "compression/movement_sparsity/model_sparsity": 0.876399057839229,
      "compression_loss": 102.16920471191406,
      "distillation_loss": 4.035058498382568,
      "epoch": 4.01,
      "learning_rate": 4.069192235441453e-05,
      "loss": 106.1605,
      "step": 4748,
      "task_loss": 2.7094407081604004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.964444265302556,
      "compression/movement_sparsity/importance_threshold": -0.0002307618694523967,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9076518647681102,
      "compression/movement_sparsity/model_sparsity": 0.8764712309495891,
      "compression_loss": 102.17813873291016,
      "distillation_loss": 3.5685768127441406,
      "epoch": 4.01,
      "learning_rate": 4.0688791484032564e-05,
      "loss": 105.9053,
      "step": 4749,
      "task_loss": 2.195991277694702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.964535511796986,
      "compression/movement_sparsity/importance_threshold": -0.0002301696664838782,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9077283225309913,
      "compression/movement_sparsity/model_sparsity": 0.8765450621531038,
      "compression_loss": 102.18708038330078,
      "distillation_loss": 4.508792877197266,
      "epoch": 4.02,
      "learning_rate": 4.0685660613650596e-05,
      "loss": 106.4583,
      "step": 4750,
      "task_loss": 2.4835891723632812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.964626602047457,
      "compression/movement_sparsity/importance_threshold": -0.00022957847756129197,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9077418803095934,
      "compression/movement_sparsity/model_sparsity": 0.8765581541803021,
      "compression_loss": 102.19597625732422,
      "distillation_loss": 5.926754951477051,
      "epoch": 4.02,
      "learning_rate": 4.0682529743268635e-05,
      "loss": 106.3283,
      "step": 4751,
      "task_loss": 2.18298077583313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9647175361878539,
      "compression/movement_sparsity/importance_threshold": -0.00022898830181570205,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9077644408347604,
      "compression/movement_sparsity/model_sparsity": 0.8765799396820254,
      "compression_loss": 102.20492553710938,
      "distillation_loss": 4.225768089294434,
      "epoch": 4.02,
      "learning_rate": 4.0679398872886666e-05,
      "loss": 106.7032,
      "step": 4752,
      "task_loss": 1.9945875406265259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.964808314352062,
      "compression/movement_sparsity/importance_threshold": -0.0002283991383781759,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9077887422884023,
      "compression/movement_sparsity/model_sparsity": 0.8766034063059747,
      "compression_loss": 102.2137680053711,
      "distillation_loss": 3.4410862922668457,
      "epoch": 4.02,
      "learning_rate": 4.06762680025047e-05,
      "loss": 106.8158,
      "step": 4753,
      "task_loss": 2.2282521724700928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9648989366739665,
      "compression/movement_sparsity/importance_threshold": -0.00022781098637977837,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9078505571734267,
      "compression/movement_sparsity/model_sparsity": 0.8766630976595335,
      "compression_loss": 102.22260284423828,
      "distillation_loss": 3.0488502979278564,
      "epoch": 4.02,
      "learning_rate": 4.067313713212273e-05,
      "loss": 106.6297,
      "step": 4754,
      "task_loss": 1.8006576299667358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9649894032874524,
      "compression/movement_sparsity/importance_threshold": -0.00022722384495157608,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9079082582206166,
      "compression/movement_sparsity/model_sparsity": 0.8767188164982433,
      "compression_loss": 102.23145294189453,
      "distillation_loss": 6.169253349304199,
      "epoch": 4.02,
      "learning_rate": 4.067000626174077e-05,
      "loss": 106.3496,
      "step": 4755,
      "task_loss": 3.5211446285247803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.965079714326405,
      "compression/movement_sparsity/importance_threshold": -0.00022663771322463475,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9079507201815679,
      "compression/movement_sparsity/model_sparsity": 0.8767598197602077,
      "compression_loss": 102.24027252197266,
      "distillation_loss": 5.21381950378418,
      "epoch": 4.02,
      "learning_rate": 4.06668753913588e-05,
      "loss": 106.7939,
      "step": 4756,
      "task_loss": 2.7255361080169678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9651698699247092,
      "compression/movement_sparsity/importance_threshold": -0.000226052590330021,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9080693537253771,
      "compression/movement_sparsity/model_sparsity": 0.8768743778768276,
      "compression_loss": 102.24918365478516,
      "distillation_loss": 4.492337226867676,
      "epoch": 4.02,
      "learning_rate": 4.066374452097683e-05,
      "loss": 106.6864,
      "step": 4757,
      "task_loss": 2.5605671405792236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9652598702162504,
      "compression/movement_sparsity/importance_threshold": -0.00022546847539880056,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9081508434870006,
      "compression/movement_sparsity/model_sparsity": 0.8769530682144475,
      "compression_loss": 102.25791931152344,
      "distillation_loss": 3.2782206535339355,
      "epoch": 4.02,
      "learning_rate": 4.066061365059487e-05,
      "loss": 107.0034,
      "step": 4758,
      "task_loss": 1.8193538188934326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9653497153349135,
      "compression/movement_sparsity/importance_threshold": -0.00022488536756203915,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9082272654773788,
      "compression/movement_sparsity/model_sparsity": 0.8770268648743547,
      "compression_loss": 102.26667785644531,
      "distillation_loss": 2.972283363342285,
      "epoch": 4.02,
      "learning_rate": 4.06574827802129e-05,
      "loss": 106.2226,
      "step": 4759,
      "task_loss": 1.8632569313049316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9654394054145838,
      "compression/movement_sparsity/importance_threshold": -0.0002243032659508034,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9083182230281052,
      "compression/movement_sparsity/model_sparsity": 0.8771146977533955,
      "compression_loss": 102.27548217773438,
      "distillation_loss": 2.9562759399414062,
      "epoch": 4.02,
      "learning_rate": 4.0654351909830934e-05,
      "loss": 105.9176,
      "step": 4760,
      "task_loss": 1.5847476720809937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9655289405891465,
      "compression/movement_sparsity/importance_threshold": -0.00022372216969615902,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9083499413140166,
      "compression/movement_sparsity/model_sparsity": 0.877145326418609,
      "compression_loss": 102.28416442871094,
      "distillation_loss": 3.8236136436462402,
      "epoch": 4.02,
      "learning_rate": 4.0651221039448966e-05,
      "loss": 106.839,
      "step": 4761,
      "task_loss": 2.673823833465576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9656183209924866,
      "compression/movement_sparsity/importance_threshold": -0.00022314207792917175,
      "compression/movement_sparsity/linear_layer_sparsity": 0.908426947588609,
      "compression/movement_sparsity/model_sparsity": 0.87721968729077,
      "compression_loss": 102.2928695678711,
      "distillation_loss": 5.33426570892334,
      "epoch": 4.03,
      "learning_rate": 4.0648090169067004e-05,
      "loss": 107.3694,
      "step": 4762,
      "task_loss": 2.5103399753570557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9657075467584892,
      "compression/movement_sparsity/importance_threshold": -0.0002225629897809082,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9084943429840868,
      "compression/movement_sparsity/model_sparsity": 0.8772847674470808,
      "compression_loss": 102.30152130126953,
      "distillation_loss": 3.2841296195983887,
      "epoch": 4.03,
      "learning_rate": 4.0644959298685036e-05,
      "loss": 105.9625,
      "step": 4763,
      "task_loss": 1.6197351217269897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9657966180210396,
      "compression/movement_sparsity/importance_threshold": -0.00022198490438243412,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9085635985497159,
      "compression/movement_sparsity/model_sparsity": 0.8773516438709755,
      "compression_loss": 102.3101806640625,
      "distillation_loss": 4.329470634460449,
      "epoch": 4.03,
      "learning_rate": 4.064182842830307e-05,
      "loss": 107.0394,
      "step": 4764,
      "task_loss": 1.833674430847168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9658855349140228,
      "compression/movement_sparsity/importance_threshold": -0.00022140782086481608,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9086367413939943,
      "compression/movement_sparsity/model_sparsity": 0.8774222740335392,
      "compression_loss": 102.31887817382812,
      "distillation_loss": 4.805695056915283,
      "epoch": 4.03,
      "learning_rate": 4.06386975579211e-05,
      "loss": 107.0686,
      "step": 4765,
      "task_loss": 2.7547264099121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9659742975713241,
      "compression/movement_sparsity/importance_threshold": -0.0002208317383591181,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9086537929537136,
      "compression/movement_sparsity/model_sparsity": 0.8774387398197254,
      "compression_loss": 102.32748413085938,
      "distillation_loss": 4.294532775878906,
      "epoch": 4.03,
      "learning_rate": 4.063556668753914e-05,
      "loss": 106.8014,
      "step": 4766,
      "task_loss": 2.0070948600769043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9660629061268285,
      "compression/movement_sparsity/importance_threshold": -0.00022025665599640937,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9086745648537353,
      "compression/movement_sparsity/model_sparsity": 0.8774587981410795,
      "compression_loss": 102.33613586425781,
      "distillation_loss": 5.629484176635742,
      "epoch": 4.03,
      "learning_rate": 4.063243581715717e-05,
      "loss": 106.4458,
      "step": 4767,
      "task_loss": 2.523003101348877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9661513607144212,
      "compression/movement_sparsity/importance_threshold": -0.0002196825729077539,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9087417098416929,
      "compression/movement_sparsity/model_sparsity": 0.8775236364921386,
      "compression_loss": 102.34471130371094,
      "distillation_loss": 5.136823654174805,
      "epoch": 4.03,
      "learning_rate": 4.06293049467752e-05,
      "loss": 106.2364,
      "step": 4768,
      "task_loss": 2.2159478664398193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9662396614679873,
      "compression/movement_sparsity/importance_threshold": -0.00021910948822421745,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9087871170720502,
      "compression/movement_sparsity/model_sparsity": 0.8775674838444442,
      "compression_loss": 102.35332489013672,
      "distillation_loss": 4.786014556884766,
      "epoch": 4.03,
      "learning_rate": 4.062617407639324e-05,
      "loss": 106.1696,
      "step": 4769,
      "task_loss": 2.288083791732788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9663278085214121,
      "compression/movement_sparsity/importance_threshold": -0.00021853740107686658,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9087930791558682,
      "compression/movement_sparsity/model_sparsity": 0.8775732411123415,
      "compression_loss": 102.36185455322266,
      "distillation_loss": 4.844325065612793,
      "epoch": 4.03,
      "learning_rate": 4.062304320601127e-05,
      "loss": 107.4598,
      "step": 4770,
      "task_loss": 2.6307532787323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9664158020085805,
      "compression/movement_sparsity/importance_threshold": -0.00021796631059676878,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9088663650901582,
      "compression/movement_sparsity/model_sparsity": 0.8776440094493347,
      "compression_loss": 102.37039947509766,
      "distillation_loss": 5.966167449951172,
      "epoch": 4.03,
      "learning_rate": 4.0619912335629304e-05,
      "loss": 107.1645,
      "step": 4771,
      "task_loss": 2.768897771835327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9665036420633777,
      "compression/movement_sparsity/importance_threshold": -0.00021739621591498805,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9088818784322524,
      "compression/movement_sparsity/model_sparsity": 0.8776589898604034,
      "compression_loss": 102.37899017333984,
      "distillation_loss": 4.714101791381836,
      "epoch": 4.03,
      "learning_rate": 4.0616781465247336e-05,
      "loss": 106.7347,
      "step": 4772,
      "task_loss": 2.030451774597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9665913288196889,
      "compression/movement_sparsity/importance_threshold": -0.00021682711616259186,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9089540196464494,
      "compression/movement_sparsity/model_sparsity": 0.8777286528019603,
      "compression_loss": 102.3875732421875,
      "distillation_loss": 5.123327255249023,
      "epoch": 4.03,
      "learning_rate": 4.0613650594865374e-05,
      "loss": 106.6007,
      "step": 4773,
      "task_loss": 3.2851576805114746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9666788624113993,
      "compression/movement_sparsity/importance_threshold": -0.0002162590104706442,
      "compression/movement_sparsity/linear_layer_sparsity": 0.908935990304984,
      "compression/movement_sparsity/model_sparsity": 0.877711242823839,
      "compression_loss": 102.39608764648438,
      "distillation_loss": 5.3328752517700195,
      "epoch": 4.04,
      "learning_rate": 4.0610519724483406e-05,
      "loss": 106.8239,
      "step": 4774,
      "task_loss": 2.3546202182769775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.966766242972394,
      "compression/movement_sparsity/importance_threshold": -0.00021569189797021344,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9089985564125693,
      "compression/movement_sparsity/model_sparsity": 0.877771659593153,
      "compression_loss": 102.40460205078125,
      "distillation_loss": 4.534553050994873,
      "epoch": 4.04,
      "learning_rate": 4.0607388854101445e-05,
      "loss": 106.3217,
      "step": 4775,
      "task_loss": 2.3237061500549316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.966853470636558,
      "compression/movement_sparsity/importance_threshold": -0.00021512577779236527,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9090352470763848,
      "compression/movement_sparsity/model_sparsity": 0.8778070898197928,
      "compression_loss": 102.41315460205078,
      "distillation_loss": 4.813056468963623,
      "epoch": 4.04,
      "learning_rate": 4.0604257983719476e-05,
      "loss": 106.86,
      "step": 4776,
      "task_loss": 2.5021116733551025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9669405455377766,
      "compression/movement_sparsity/importance_threshold": -0.00021456064906816372,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9090719138918651,
      "compression/movement_sparsity/model_sparsity": 0.8778424970173611,
      "compression_loss": 102.42166900634766,
      "distillation_loss": 5.21835994720459,
      "epoch": 4.04,
      "learning_rate": 4.060112711333751e-05,
      "loss": 106.4006,
      "step": 4777,
      "task_loss": 3.1152639389038086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9670274678099349,
      "compression/movement_sparsity/importance_threshold": -0.000213996510928678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9091428865376339,
      "compression/movement_sparsity/model_sparsity": 0.8779110315344101,
      "compression_loss": 102.43013763427734,
      "distillation_loss": 3.961397171020508,
      "epoch": 4.04,
      "learning_rate": 4.059799624295555e-05,
      "loss": 106.4147,
      "step": 4778,
      "task_loss": 2.514514923095703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9671142375869181,
      "compression/movement_sparsity/importance_threshold": -0.0002134333625049712,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9091958894627752,
      "compression/movement_sparsity/model_sparsity": 0.8779622136460169,
      "compression_loss": 102.43856048583984,
      "distillation_loss": 5.484292030334473,
      "epoch": 4.04,
      "learning_rate": 4.059486537257358e-05,
      "loss": 106.9094,
      "step": 4779,
      "task_loss": 2.2985546588897705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9672008550026112,
      "compression/movement_sparsity/importance_threshold": -0.00021287120292810997,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9092511222072646,
      "compression/movement_sparsity/model_sparsity": 0.8780155489758171,
      "compression_loss": 102.44706726074219,
      "distillation_loss": 3.8057703971862793,
      "epoch": 4.04,
      "learning_rate": 4.059173450219161e-05,
      "loss": 106.6663,
      "step": 4780,
      "task_loss": 1.9703232049942017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9672873201908995,
      "compression/movement_sparsity/importance_threshold": -0.00021231003132916176,
      "compression/movement_sparsity/linear_layer_sparsity": 0.90929109201718,
      "compression/movement_sparsity/model_sparsity": 0.8780541456998004,
      "compression_loss": 102.45549774169922,
      "distillation_loss": 4.496603965759277,
      "epoch": 4.04,
      "learning_rate": 4.058860363180965e-05,
      "loss": 106.6457,
      "step": 4781,
      "task_loss": 2.514622926712036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9673736332856679,
      "compression/movement_sparsity/importance_threshold": -0.00021174984683919144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9093007386687973,
      "compression/movement_sparsity/model_sparsity": 0.8780634609592582,
      "compression_loss": 102.46388244628906,
      "distillation_loss": 5.529583930969238,
      "epoch": 4.04,
      "learning_rate": 4.058547276142768e-05,
      "loss": 106.7105,
      "step": 4782,
      "task_loss": 2.671614408493042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9674597944208019,
      "compression/movement_sparsity/importance_threshold": -0.00021119064858926562,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9093710435611784,
      "compression/movement_sparsity/model_sparsity": 0.8781313506623029,
      "compression_loss": 102.47227478027344,
      "distillation_loss": 3.6557211875915527,
      "epoch": 4.04,
      "learning_rate": 4.058234189104571e-05,
      "loss": 106.3312,
      "step": 4783,
      "task_loss": 2.012655735015869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9675458037301863,
      "compression/movement_sparsity/importance_threshold": -0.00021063243571045002,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9093886317084413,
      "compression/movement_sparsity/model_sparsity": 0.8781483346025998,
      "compression_loss": 102.48070526123047,
      "distillation_loss": 3.5731394290924072,
      "epoch": 4.04,
      "learning_rate": 4.057921102066375e-05,
      "loss": 106.5429,
      "step": 4784,
      "task_loss": 2.142951726913452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9676316613477064,
      "compression/movement_sparsity/importance_threshold": -0.00021007520733381125,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9094970581647542,
      "compression/movement_sparsity/model_sparsity": 0.8782530362765796,
      "compression_loss": 102.48908996582031,
      "distillation_loss": 5.857938766479492,
      "epoch": 4.04,
      "learning_rate": 4.057608015028178e-05,
      "loss": 107.0811,
      "step": 4785,
      "task_loss": 3.9624807834625244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9677173674072472,
      "compression/movement_sparsity/importance_threshold": -0.00020951896259041505,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9094576010940472,
      "compression/movement_sparsity/model_sparsity": 0.8782149346776355,
      "compression_loss": 102.49750518798828,
      "distillation_loss": 5.134703159332275,
      "epoch": 4.05,
      "learning_rate": 4.0572949279899815e-05,
      "loss": 107.221,
      "step": 4786,
      "task_loss": 3.6493544578552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9678029220426941,
      "compression/movement_sparsity/importance_threshold": -0.00020896370061132628,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9094636585712061,
      "compression/movement_sparsity/model_sparsity": 0.878220784061819,
      "compression_loss": 102.50590515136719,
      "distillation_loss": 5.3236613273620605,
      "epoch": 4.05,
      "learning_rate": 4.0569818409517846e-05,
      "loss": 107.408,
      "step": 4787,
      "task_loss": 2.5965070724487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9678883253879321,
      "compression/movement_sparsity/importance_threshold": -0.0002084094205276124,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9095075395081061,
      "compression/movement_sparsity/model_sparsity": 0.878263157553543,
      "compression_loss": 102.51426696777344,
      "distillation_loss": 4.180915355682373,
      "epoch": 4.05,
      "learning_rate": 4.0566687539135885e-05,
      "loss": 107.0379,
      "step": 4788,
      "task_loss": 2.055954933166504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9679735775768464,
      "compression/movement_sparsity/importance_threshold": -0.00020785612147033918,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9095293368865445,
      "compression/movement_sparsity/model_sparsity": 0.8782842061249754,
      "compression_loss": 102.52265167236328,
      "distillation_loss": 6.06610107421875,
      "epoch": 4.05,
      "learning_rate": 4.056355666875392e-05,
      "loss": 107.4861,
      "step": 4789,
      "task_loss": 2.8245134353637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.968058678743322,
      "compression/movement_sparsity/importance_threshold": -0.00020730380257057233,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9095376957280572,
      "compression/movement_sparsity/model_sparsity": 0.8782922778145673,
      "compression_loss": 102.53105163574219,
      "distillation_loss": 4.640871047973633,
      "epoch": 4.05,
      "learning_rate": 4.056042579837195e-05,
      "loss": 106.7592,
      "step": 4790,
      "task_loss": 3.0910794734954834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9681436290212441,
      "compression/movement_sparsity/importance_threshold": -0.00020675246295937845,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9095285856639834,
      "compression/movement_sparsity/model_sparsity": 0.8782834807092204,
      "compression_loss": 102.53939819335938,
      "distillation_loss": 4.669769763946533,
      "epoch": 4.05,
      "learning_rate": 4.055729492798998e-05,
      "loss": 106.6228,
      "step": 4791,
      "task_loss": 2.3145253658294678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.968228428544498,
      "compression/movement_sparsity/importance_threshold": -0.00020620210176782242,
      "compression/movement_sparsity/linear_layer_sparsity": 0.909603493285072,
      "compression/movement_sparsity/model_sparsity": 0.8783558150230817,
      "compression_loss": 102.54769897460938,
      "distillation_loss": 4.155488967895508,
      "epoch": 4.05,
      "learning_rate": 4.055416405760802e-05,
      "loss": 106.9444,
      "step": 4792,
      "task_loss": 2.3427414894104004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9683130774469686,
      "compression/movement_sparsity/importance_threshold": -0.0002056527181269717,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9096858773592681,
      "compression/movement_sparsity/model_sparsity": 0.8784353689508861,
      "compression_loss": 102.55604553222656,
      "distillation_loss": 4.8056793212890625,
      "epoch": 4.05,
      "learning_rate": 4.055103318722605e-05,
      "loss": 106.9131,
      "step": 4793,
      "task_loss": 3.776576280593872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.968397575862541,
      "compression/movement_sparsity/importance_threshold": -0.00020510431116789202,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9097250601741196,
      "compression/movement_sparsity/model_sparsity": 0.878473205715507,
      "compression_loss": 102.5643539428711,
      "distillation_loss": 4.079629898071289,
      "epoch": 4.05,
      "learning_rate": 4.054790231684408e-05,
      "loss": 107.1674,
      "step": 4794,
      "task_loss": 2.421884775161743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9684819239251007,
      "compression/movement_sparsity/importance_threshold": -0.00020455688002164827,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9098060610448699,
      "compression/movement_sparsity/model_sparsity": 0.8785514239571593,
      "compression_loss": 102.5726318359375,
      "distillation_loss": 3.0924665927886963,
      "epoch": 4.05,
      "learning_rate": 4.054477144646212e-05,
      "loss": 106.7889,
      "step": 4795,
      "task_loss": 1.2240666151046753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9685661217685325,
      "compression/movement_sparsity/importance_threshold": -0.0002040104238193079,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9098653122338526,
      "compression/movement_sparsity/model_sparsity": 0.8786086396855224,
      "compression_loss": 102.58097076416016,
      "distillation_loss": 4.186288356781006,
      "epoch": 4.05,
      "learning_rate": 4.054164057608015e-05,
      "loss": 106.6493,
      "step": 4796,
      "task_loss": 3.1425390243530273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9686501695267218,
      "compression/movement_sparsity/importance_threshold": -0.0002034649416919358,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9099003215900314,
      "compression/movement_sparsity/model_sparsity": 0.8786424463626151,
      "compression_loss": 102.58924102783203,
      "distillation_loss": 4.488948822021484,
      "epoch": 4.05,
      "learning_rate": 4.0538509705698185e-05,
      "loss": 107.036,
      "step": 4797,
      "task_loss": 2.311079263687134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9687340673335535,
      "compression/movement_sparsity/importance_threshold": -0.0002029204327705994,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9099064148396934,
      "compression/movement_sparsity/model_sparsity": 0.8786483302904061,
      "compression_loss": 102.5975341796875,
      "distillation_loss": 5.079647541046143,
      "epoch": 4.06,
      "learning_rate": 4.0535378835316216e-05,
      "loss": 106.577,
      "step": 4798,
      "task_loss": 2.1009864807128906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9688178153229129,
      "compression/movement_sparsity/importance_threshold": -0.00020237689618636274,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9099640324177098,
      "compression/movement_sparsity/model_sparsity": 0.8787039685273653,
      "compression_loss": 102.60585021972656,
      "distillation_loss": 2.9498276710510254,
      "epoch": 4.06,
      "learning_rate": 4.0532247964934255e-05,
      "loss": 106.8543,
      "step": 4799,
      "task_loss": 2.199976682662964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.968901413628685,
      "compression/movement_sparsity/importance_threshold": -0.00020183433107029414,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9099968596512115,
      "compression/movement_sparsity/model_sparsity": 0.8787356680444077,
      "compression_loss": 102.61404418945312,
      "distillation_loss": 4.629912376403809,
      "epoch": 4.06,
      "learning_rate": 4.052911709455229e-05,
      "loss": 107.1861,
      "step": 4800,
      "task_loss": 2.2776384353637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9689848623847551,
      "compression/movement_sparsity/importance_threshold": -0.00020129273655345847,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9100737824566304,
      "compression/movement_sparsity/model_sparsity": 0.8788099483148183,
      "compression_loss": 102.62227630615234,
      "distillation_loss": 5.217840194702148,
      "epoch": 4.06,
      "learning_rate": 4.052598622417032e-05,
      "loss": 107.2902,
      "step": 4801,
      "task_loss": 3.3077914714813232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9690681617250083,
      "compression/movement_sparsity/importance_threshold": -0.0002007521117669206,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9100926345656627,
      "compression/movement_sparsity/model_sparsity": 0.8788281527959095,
      "compression_loss": 102.63042449951172,
      "distillation_loss": 4.774022102355957,
      "epoch": 4.06,
      "learning_rate": 4.052285535378835e-05,
      "loss": 107.2651,
      "step": 4802,
      "task_loss": 2.360692262649536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9691513117833296,
      "compression/movement_sparsity/importance_threshold": -0.00020021245584174972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.910082570568178,
      "compression/movement_sparsity/model_sparsity": 0.8788184345276989,
      "compression_loss": 102.63856506347656,
      "distillation_loss": 2.9765448570251465,
      "epoch": 4.06,
      "learning_rate": 4.051972448340639e-05,
      "loss": 106.8125,
      "step": 4803,
      "task_loss": 1.7794299125671387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9692343126936044,
      "compression/movement_sparsity/importance_threshold": -0.00019967376790900812,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9101337490956711,
      "compression/movement_sparsity/model_sparsity": 0.878867854915329,
      "compression_loss": 102.64669799804688,
      "distillation_loss": 4.417428970336914,
      "epoch": 4.06,
      "learning_rate": 4.051659361302442e-05,
      "loss": 106.4494,
      "step": 4804,
      "task_loss": 1.8016687631607056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9693171645897176,
      "compression/movement_sparsity/importance_threshold": -0.000199136047099765,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9101401642978593,
      "compression/movement_sparsity/model_sparsity": 0.8788740497355866,
      "compression_loss": 102.65485382080078,
      "distillation_loss": 6.321595191955566,
      "epoch": 4.06,
      "learning_rate": 4.051346274264245e-05,
      "loss": 108.2758,
      "step": 4805,
      "task_loss": 3.4170355796813965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9693998676055544,
      "compression/movement_sparsity/importance_threshold": -0.00019859929254508434,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9101687823001853,
      "compression/movement_sparsity/model_sparsity": 0.8789016846214934,
      "compression_loss": 102.66294860839844,
      "distillation_loss": 3.7921719551086426,
      "epoch": 4.06,
      "learning_rate": 4.051033187226049e-05,
      "loss": 107.0062,
      "step": 4806,
      "task_loss": 2.4778647422790527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.969482421875,
      "compression/movement_sparsity/importance_threshold": -0.00019806350337603362,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9102196865718228,
      "compression/movement_sparsity/model_sparsity": 0.8789508401748003,
      "compression_loss": 102.6710433959961,
      "distillation_loss": 3.5522236824035645,
      "epoch": 4.06,
      "learning_rate": 4.050720100187852e-05,
      "loss": 106.2199,
      "step": 4807,
      "task_loss": 1.4650229215621948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9695648275319395,
      "compression/movement_sparsity/importance_threshold": -0.00019752867872367772,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9102887871232727,
      "compression/movement_sparsity/model_sparsity": 0.8790175669097297,
      "compression_loss": 102.67908477783203,
      "distillation_loss": 5.524815559387207,
      "epoch": 4.06,
      "learning_rate": 4.0504070131496554e-05,
      "loss": 107.2469,
      "step": 4808,
      "task_loss": 3.1743905544281006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9696470847102581,
      "compression/movement_sparsity/importance_threshold": -0.00019699481771908323,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9103407645699974,
      "compression/movement_sparsity/model_sparsity": 0.8790677587712581,
      "compression_loss": 102.6871337890625,
      "distillation_loss": 5.033406734466553,
      "epoch": 4.07,
      "learning_rate": 4.050093926111459e-05,
      "loss": 107.4391,
      "step": 4809,
      "task_loss": 4.109838962554932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9697291935438409,
      "compression/movement_sparsity/importance_threshold": -0.0001964619194933159,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9103637066685287,
      "compression/movement_sparsity/model_sparsity": 0.8790899127381268,
      "compression_loss": 102.69512939453125,
      "distillation_loss": 6.075071334838867,
      "epoch": 4.07,
      "learning_rate": 4.0497808390732625e-05,
      "loss": 108.1443,
      "step": 4810,
      "task_loss": 2.9902663230895996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.969811154166573,
      "compression/movement_sparsity/importance_threshold": -0.0001959299831774423,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9102781269174062,
      "compression/movement_sparsity/model_sparsity": 0.8790072729147294,
      "compression_loss": 102.70313262939453,
      "distillation_loss": 4.113101005554199,
      "epoch": 4.07,
      "learning_rate": 4.049467752035066e-05,
      "loss": 106.9826,
      "step": 4811,
      "task_loss": 1.7221742868423462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9698929667123396,
      "compression/movement_sparsity/importance_threshold": -0.00019539900790252734,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9102881670665556,
      "compression/movement_sparsity/model_sparsity": 0.8790169681538684,
      "compression_loss": 102.71116638183594,
      "distillation_loss": 5.085420608520508,
      "epoch": 4.07,
      "learning_rate": 4.0491546649968695e-05,
      "loss": 106.4105,
      "step": 4812,
      "task_loss": 3.3925178050994873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9699746313150257,
      "compression/movement_sparsity/importance_threshold": -0.00019486899279963932,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9103655549145123,
      "compression/movement_sparsity/model_sparsity": 0.879091697491175,
      "compression_loss": 102.7191390991211,
      "distillation_loss": 4.421382904052734,
      "epoch": 4.07,
      "learning_rate": 4.048841577958673e-05,
      "loss": 107.1485,
      "step": 4813,
      "task_loss": 2.00091814994812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9700561481085167,
      "compression/movement_sparsity/importance_threshold": -0.00019433993699984227,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9104759250101498,
      "compression/movement_sparsity/model_sparsity": 0.8791982760344892,
      "compression_loss": 102.7270278930664,
      "distillation_loss": 4.075606346130371,
      "epoch": 4.07,
      "learning_rate": 4.0485284909204765e-05,
      "loss": 106.7051,
      "step": 4814,
      "task_loss": 2.225390672683716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9701375172266976,
      "compression/movement_sparsity/importance_threshold": -0.0001938118396342019,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9104857147517789,
      "compression/movement_sparsity/model_sparsity": 0.8792077294683766,
      "compression_loss": 102.73492431640625,
      "distillation_loss": 4.449033737182617,
      "epoch": 4.07,
      "learning_rate": 4.04821540388228e-05,
      "loss": 106.7153,
      "step": 4815,
      "task_loss": 1.8759071826934814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9702187388034534,
      "compression/movement_sparsity/importance_threshold": -0.0001932846998337857,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9105362851467226,
      "compression/movement_sparsity/model_sparsity": 0.8792565626146812,
      "compression_loss": 102.74285125732422,
      "distillation_loss": 4.275077819824219,
      "epoch": 4.07,
      "learning_rate": 4.047902316844083e-05,
      "loss": 107.3785,
      "step": 4816,
      "task_loss": 1.3977067470550537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9702998129726695,
      "compression/movement_sparsity/importance_threshold": -0.0001927585167296594,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9105789021218532,
      "compression/movement_sparsity/model_sparsity": 0.8792977155656109,
      "compression_loss": 102.75074768066406,
      "distillation_loss": 4.798806190490723,
      "epoch": 4.07,
      "learning_rate": 4.047589229805887e-05,
      "loss": 107.3084,
      "step": 4817,
      "task_loss": 2.32519793510437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9703807398682309,
      "compression/movement_sparsity/importance_threshold": -0.00019223328945288873,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9105936880897216,
      "compression/movement_sparsity/model_sparsity": 0.8793119935899961,
      "compression_loss": 102.75853729248047,
      "distillation_loss": 3.0738956928253174,
      "epoch": 4.07,
      "learning_rate": 4.04727614276769e-05,
      "loss": 106.9335,
      "step": 4818,
      "task_loss": 1.6451330184936523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9704615196240227,
      "compression/movement_sparsity/importance_threshold": -0.00019170901713453942,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9105312173754774,
      "compression/movement_sparsity/model_sparsity": 0.8792516689369685,
      "compression_loss": 102.7663345336914,
      "distillation_loss": 2.340630531311035,
      "epoch": 4.07,
      "learning_rate": 4.046963055729493e-05,
      "loss": 106.1453,
      "step": 4819,
      "task_loss": 1.6985048055648804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9705421523739303,
      "compression/movement_sparsity/importance_threshold": -0.0001911856989056781,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9106661989531153,
      "compression/movement_sparsity/model_sparsity": 0.8793820134821627,
      "compression_loss": 102.77413177490234,
      "distillation_loss": 4.847789764404297,
      "epoch": 4.07,
      "learning_rate": 4.046649968691296e-05,
      "loss": 107.4584,
      "step": 4820,
      "task_loss": 3.3693039417266846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9706226382518384,
      "compression/movement_sparsity/importance_threshold": -0.00019066333389737046,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9107246512228663,
      "compression/movement_sparsity/model_sparsity": 0.8794384577366275,
      "compression_loss": 102.78185272216797,
      "distillation_loss": 4.841208457946777,
      "epoch": 4.08,
      "learning_rate": 4.0463368816531e-05,
      "loss": 107.5103,
      "step": 4821,
      "task_loss": 3.122145175933838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9707029773916325,
      "compression/movement_sparsity/importance_threshold": -0.00019014192124068314,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9107830557959468,
      "compression/movement_sparsity/model_sparsity": 0.8794948559329492,
      "compression_loss": 102.78961181640625,
      "distillation_loss": 4.07402229309082,
      "epoch": 4.08,
      "learning_rate": 4.046023794614903e-05,
      "loss": 106.9386,
      "step": 4822,
      "task_loss": 2.94842267036438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9707831699271976,
      "compression/movement_sparsity/importance_threshold": -0.000189621460066681,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9108056401694491,
      "compression/movement_sparsity/model_sparsity": 0.8795166644637441,
      "compression_loss": 102.79736328125,
      "distillation_loss": 4.205414295196533,
      "epoch": 4.08,
      "learning_rate": 4.0457107075767065e-05,
      "loss": 107.0387,
      "step": 4823,
      "task_loss": 2.3476462364196777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9708632159924188,
      "compression/movement_sparsity/importance_threshold": -0.0001891019495064315,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9109267897126294,
      "compression/movement_sparsity/model_sparsity": 0.8796336521474166,
      "compression_loss": 102.80502319335938,
      "distillation_loss": 4.694551944732666,
      "epoch": 4.08,
      "learning_rate": 4.04539762053851e-05,
      "loss": 107.2177,
      "step": 4824,
      "task_loss": 2.744784116744995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9709431157211814,
      "compression/movement_sparsity/importance_threshold": -0.00018858338869099864,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9110014469261976,
      "compression/movement_sparsity/model_sparsity": 0.8797057446560262,
      "compression_loss": 102.81270599365234,
      "distillation_loss": 6.07819938659668,
      "epoch": 4.08,
      "learning_rate": 4.0450845335003135e-05,
      "loss": 107.9315,
      "step": 4825,
      "task_loss": 3.659728527069092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9710228692473704,
      "compression/movement_sparsity/importance_threshold": -0.00018806577675145163,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9110894472833503,
      "compression/movement_sparsity/model_sparsity": 0.8797907219301899,
      "compression_loss": 102.82038879394531,
      "distillation_loss": 5.964413642883301,
      "epoch": 4.08,
      "learning_rate": 4.044771446462117e-05,
      "loss": 106.7412,
      "step": 4826,
      "task_loss": 3.0888419151306152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.971102476704871,
      "compression/movement_sparsity/importance_threshold": -0.00018754911281885275,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9111129736660958,
      "compression/movement_sparsity/model_sparsity": 0.8798134401093125,
      "compression_loss": 102.82803344726562,
      "distillation_loss": 4.307492733001709,
      "epoch": 4.08,
      "learning_rate": 4.04445835942392e-05,
      "loss": 106.9804,
      "step": 4827,
      "task_loss": 1.547529935836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9711819382275683,
      "compression/movement_sparsity/importance_threshold": -0.00018703339602427205,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9111567472854871,
      "compression/movement_sparsity/model_sparsity": 0.8798557099702143,
      "compression_loss": 102.835693359375,
      "distillation_loss": 3.724393844604492,
      "epoch": 4.08,
      "learning_rate": 4.044145272385723e-05,
      "loss": 106.9198,
      "step": 4828,
      "task_loss": 2.17825984954834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9712612539493475,
      "compression/movement_sparsity/importance_threshold": -0.0001865186254987718,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112459162110681,
      "compression/movement_sparsity/model_sparsity": 0.8799418156688859,
      "compression_loss": 102.84330749511719,
      "distillation_loss": 3.9189727306365967,
      "epoch": 4.08,
      "learning_rate": 4.043832185347527e-05,
      "loss": 107.2554,
      "step": 4829,
      "task_loss": 2.4328033924102783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9713404240040936,
      "compression/movement_sparsity/importance_threshold": -0.00018600480037342122,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112788388379107,
      "compression/movement_sparsity/model_sparsity": 0.8799736073022146,
      "compression_loss": 102.85098266601562,
      "distillation_loss": 2.809699296951294,
      "epoch": 4.08,
      "learning_rate": 4.04351909830933e-05,
      "loss": 107.1374,
      "step": 4830,
      "task_loss": 2.165678024291992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.971419448525692,
      "compression/movement_sparsity/importance_threshold": -0.00018549191977928342,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112219009374495,
      "compression/movement_sparsity/model_sparsity": 0.8799186253937957,
      "compression_loss": 102.85855102539062,
      "distillation_loss": 3.8819475173950195,
      "epoch": 4.08,
      "learning_rate": 4.043206011271133e-05,
      "loss": 106.7962,
      "step": 4831,
      "task_loss": 1.9968836307525635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9714983276480276,
      "compression/movement_sparsity/importance_threshold": -0.00018497998284742675,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112301166889506,
      "compression/movement_sparsity/model_sparsity": 0.8799265589089581,
      "compression_loss": 102.86611938476562,
      "distillation_loss": 5.131187438964844,
      "epoch": 4.08,
      "learning_rate": 4.042892924232937e-05,
      "loss": 106.9649,
      "step": 4832,
      "task_loss": 2.927401065826416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9715770615049857,
      "compression/movement_sparsity/importance_threshold": -0.00018446898870891522,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112865656985387,
      "compression/movement_sparsity/model_sparsity": 0.8799810687214095,
      "compression_loss": 102.87371826171875,
      "distillation_loss": 4.387632846832275,
      "epoch": 4.09,
      "learning_rate": 4.04257983719474e-05,
      "loss": 107.3576,
      "step": 4833,
      "task_loss": 2.5972061157226562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9716556502304512,
      "compression/movement_sparsity/importance_threshold": -0.00018395893649481715,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112762393693661,
      "compression/movement_sparsity/model_sparsity": 0.8799710971334114,
      "compression_loss": 102.88128662109375,
      "distillation_loss": 6.25490665435791,
      "epoch": 4.09,
      "learning_rate": 4.0422667501565435e-05,
      "loss": 107.0349,
      "step": 4834,
      "task_loss": 2.669628381729126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9717340939583096,
      "compression/movement_sparsity/importance_threshold": -0.00018344982533619741,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9112406338048054,
      "compression/movement_sparsity/model_sparsity": 0.879936714729529,
      "compression_loss": 102.88883972167969,
      "distillation_loss": 7.130356788635254,
      "epoch": 4.09,
      "learning_rate": 4.041953663118347e-05,
      "loss": 107.5807,
      "step": 4835,
      "task_loss": 3.482888698577881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9718123928224458,
      "compression/movement_sparsity/importance_threshold": -0.00018294165436412088,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9113155414258939,
      "compression/movement_sparsity/model_sparsity": 0.8800090490433902,
      "compression_loss": 102.89630889892578,
      "distillation_loss": 3.4635818004608154,
      "epoch": 4.09,
      "learning_rate": 4.0416405760801505e-05,
      "loss": 106.6454,
      "step": 4836,
      "task_loss": 3.1248273849487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9718905469567449,
      "compression/movement_sparsity/importance_threshold": -0.0001824344227096559,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9113442309732258,
      "compression/movement_sparsity/model_sparsity": 0.8800367530165119,
      "compression_loss": 102.90385437011719,
      "distillation_loss": 3.8987066745758057,
      "epoch": 4.09,
      "learning_rate": 4.041327489041954e-05,
      "loss": 107.1784,
      "step": 4837,
      "task_loss": 2.401874303817749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9719685564950922,
      "compression/movement_sparsity/importance_threshold": -0.00018192812950386817,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9113984024667955,
      "compression/movement_sparsity/model_sparsity": 0.8800890635526265,
      "compression_loss": 102.91133117675781,
      "distillation_loss": 4.577128887176514,
      "epoch": 4.09,
      "learning_rate": 4.041014402003757e-05,
      "loss": 107.6208,
      "step": 4838,
      "task_loss": 2.849470853805542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9720464215713728,
      "compression/movement_sparsity/importance_threshold": -0.00018142277387782173,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9114014908262131,
      "compression/movement_sparsity/model_sparsity": 0.8800920458173973,
      "compression_loss": 102.91878509521484,
      "distillation_loss": 5.697328567504883,
      "epoch": 4.09,
      "learning_rate": 4.04070131496556e-05,
      "loss": 107.1888,
      "step": 4839,
      "task_loss": 3.5770835876464844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9721241423194718,
      "compression/movement_sparsity/importance_threshold": -0.00018091835496258403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9114490801792479,
      "compression/movement_sparsity/model_sparsity": 0.8801380003297533,
      "compression_loss": 102.92623901367188,
      "distillation_loss": 3.926116704940796,
      "epoch": 4.09,
      "learning_rate": 4.040388227927364e-05,
      "loss": 107.0386,
      "step": 4840,
      "task_loss": 1.9358716011047363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9722017188732743,
      "compression/movement_sparsity/importance_threshold": -0.0001804148718892208,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9114663582981523,
      "compression/movement_sparsity/model_sparsity": 0.8801546848921196,
      "compression_loss": 102.93365478515625,
      "distillation_loss": 4.354589462280273,
      "epoch": 4.09,
      "learning_rate": 4.040075140889167e-05,
      "loss": 107.1706,
      "step": 4841,
      "task_loss": 2.7274999618530273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9722791513666655,
      "compression/movement_sparsity/importance_threshold": -0.00017991232378879868,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9114908743868116,
      "compression/movement_sparsity/model_sparsity": 0.8801783587777131,
      "compression_loss": 102.94116973876953,
      "distillation_loss": 3.7643747329711914,
      "epoch": 4.09,
      "learning_rate": 4.039762053850971e-05,
      "loss": 107.2402,
      "step": 4842,
      "task_loss": 2.1260159015655518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9723564399335306,
      "compression/movement_sparsity/importance_threshold": -0.00017941070979238336,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9114754206655555,
      "compression/movement_sparsity/model_sparsity": 0.8801634359393234,
      "compression_loss": 102.94855499267578,
      "distillation_loss": 4.310876846313477,
      "epoch": 4.09,
      "learning_rate": 4.039448966812774e-05,
      "loss": 107.0133,
      "step": 4843,
      "task_loss": 3.0646908283233643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9724335847077547,
      "compression/movement_sparsity/importance_threshold": -0.00017891002903103973,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91152079212341,
      "compression/movement_sparsity/model_sparsity": 0.8802072487480217,
      "compression_loss": 102.95600891113281,
      "distillation_loss": 3.312499523162842,
      "epoch": 4.09,
      "learning_rate": 4.039135879774577e-05,
      "loss": 107.1736,
      "step": 4844,
      "task_loss": 1.5483516454696655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9725105858232228,
      "compression/movement_sparsity/importance_threshold": -0.00017841028063583612,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9115757863845466,
      "compression/movement_sparsity/model_sparsity": 0.8802603537871061,
      "compression_loss": 102.96341705322266,
      "distillation_loss": 3.2841696739196777,
      "epoch": 4.1,
      "learning_rate": 4.038822792736381e-05,
      "loss": 106.6025,
      "step": 4845,
      "task_loss": 1.9639689922332764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9725874434138202,
      "compression/movement_sparsity/importance_threshold": -0.00017791146373783654,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9116601737189056,
      "compression/movement_sparsity/model_sparsity": 0.880341842156924,
      "compression_loss": 102.97078704833984,
      "distillation_loss": 3.412898540496826,
      "epoch": 4.1,
      "learning_rate": 4.0385097056981843e-05,
      "loss": 107.5788,
      "step": 4846,
      "task_loss": 3.5966975688934326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9726641576134321,
      "compression/movement_sparsity/importance_threshold": -0.00017741357746810758,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9116787038754117,
      "compression/movement_sparsity/model_sparsity": 0.8803597357455487,
      "compression_loss": 102.97811126708984,
      "distillation_loss": 5.905839920043945,
      "epoch": 4.1,
      "learning_rate": 4.038196618659988e-05,
      "loss": 107.4909,
      "step": 4847,
      "task_loss": 3.6381311416625977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9727407285559434,
      "compression/movement_sparsity/importance_threshold": -0.00017691662095771672,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9117464092992481,
      "compression/movement_sparsity/model_sparsity": 0.8804251152797902,
      "compression_loss": 102.98545837402344,
      "distillation_loss": 4.012759685516357,
      "epoch": 4.1,
      "learning_rate": 4.0378835316217914e-05,
      "loss": 106.9202,
      "step": 4848,
      "task_loss": 1.4443135261535645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9728171563752394,
      "compression/movement_sparsity/importance_threshold": -0.00017642059333772796,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91180581550241,
      "compression/movement_sparsity/model_sparsity": 0.8804824806971185,
      "compression_loss": 102.99275970458984,
      "distillation_loss": 5.741436958312988,
      "epoch": 4.1,
      "learning_rate": 4.0375704445835946e-05,
      "loss": 107.7533,
      "step": 4849,
      "task_loss": 2.545442819595337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9728934412052053,
      "compression/movement_sparsity/importance_threshold": -0.0001759254937392079,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9118821063269442,
      "compression/movement_sparsity/model_sparsity": 0.880556150697132,
      "compression_loss": 102.99999237060547,
      "distillation_loss": 4.678165435791016,
      "epoch": 4.1,
      "learning_rate": 4.037257357545398e-05,
      "loss": 107.4544,
      "step": 4850,
      "task_loss": 2.9499502182006836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.972969583179726,
      "compression/movement_sparsity/importance_threshold": -0.000175431321293224,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9119891257314762,
      "compression/movement_sparsity/model_sparsity": 0.880659493655888,
      "compression_loss": 103.00725555419922,
      "distillation_loss": 3.210360050201416,
      "epoch": 4.1,
      "learning_rate": 4.0369442705072016e-05,
      "loss": 106.4823,
      "step": 4851,
      "task_loss": 1.3300392627716064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9730455824326869,
      "compression/movement_sparsity/importance_threshold": -0.00017493807513084027,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9120733461274882,
      "compression/movement_sparsity/model_sparsity": 0.8807408208222048,
      "compression_loss": 103.01446533203125,
      "distillation_loss": 4.075016498565674,
      "epoch": 4.1,
      "learning_rate": 4.036631183469005e-05,
      "loss": 107.184,
      "step": 4852,
      "task_loss": 2.6462628841400146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.973121439097973,
      "compression/movement_sparsity/importance_threshold": -0.00017444575438312418,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121003782155187,
      "compression/movement_sparsity/model_sparsity": 0.8807669242748511,
      "compression_loss": 103.0217056274414,
      "distillation_loss": 3.698078155517578,
      "epoch": 4.1,
      "learning_rate": 4.036318096430808e-05,
      "loss": 107.7997,
      "step": 4853,
      "task_loss": 1.7382259368896484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9731971533094697,
      "compression/movement_sparsity/importance_threshold": -0.00017395435818113973,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121767525092265,
      "compression/movement_sparsity/model_sparsity": 0.8808406748766151,
      "compression_loss": 103.02893829345703,
      "distillation_loss": 4.879194259643555,
      "epoch": 4.1,
      "learning_rate": 4.036005009392612e-05,
      "loss": 107.3584,
      "step": 4854,
      "task_loss": 2.227598190307617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9732727252010617,
      "compression/movement_sparsity/importance_threshold": -0.00017346388565595613,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121013559972648,
      "compression/movement_sparsity/model_sparsity": 0.8807678684667862,
      "compression_loss": 103.03616333007812,
      "distillation_loss": 3.75762939453125,
      "epoch": 4.1,
      "learning_rate": 4.035691922354415e-05,
      "loss": 107.0123,
      "step": 4855,
      "task_loss": 2.2545909881591797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9733481549066343,
      "compression/movement_sparsity/importance_threshold": -0.00017297433593863737,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121241073091141,
      "compression/movement_sparsity/model_sparsity": 0.8807898382010823,
      "compression_loss": 103.04337310791016,
      "distillation_loss": 6.587848663330078,
      "epoch": 4.1,
      "learning_rate": 4.035378835316218e-05,
      "loss": 107.4795,
      "step": 4856,
      "task_loss": 3.6715574264526367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9734234425600728,
      "compression/movement_sparsity/importance_threshold": -0.0001724857081602492,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121405030396135,
      "compression/movement_sparsity/model_sparsity": 0.8808056706877997,
      "compression_loss": 103.05056762695312,
      "distillation_loss": 4.162094593048096,
      "epoch": 4.11,
      "learning_rate": 4.035065748278021e-05,
      "loss": 107.2129,
      "step": 4857,
      "task_loss": 2.4532887935638428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9734985882952623,
      "compression/movement_sparsity/importance_threshold": -0.00017199800145185906,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121252758775424,
      "compression/movement_sparsity/model_sparsity": 0.8807909666255901,
      "compression_loss": 103.05776977539062,
      "distillation_loss": 6.454315185546875,
      "epoch": 4.11,
      "learning_rate": 4.034752661239825e-05,
      "loss": 108.4352,
      "step": 4858,
      "task_loss": 4.206214427947998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9735735922460879,
      "compression/movement_sparsity/importance_threshold": -0.00017151121494453185,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9121405865087868,
      "compression/movement_sparsity/model_sparsity": 0.8808057512895503,
      "compression_loss": 103.06497955322266,
      "distillation_loss": 3.932981014251709,
      "epoch": 4.11,
      "learning_rate": 4.0344395742016284e-05,
      "loss": 107.1145,
      "step": 4859,
      "task_loss": 2.399012327194214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9736484545464347,
      "compression/movement_sparsity/importance_threshold": -0.00017102534776933416,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9122309478511315,
      "compression/movement_sparsity/model_sparsity": 0.8808930084418013,
      "compression_loss": 103.07212829589844,
      "distillation_loss": 4.696528434753418,
      "epoch": 4.11,
      "learning_rate": 4.0341264871634316e-05,
      "loss": 107.2135,
      "step": 4860,
      "task_loss": 2.447951555252075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9737231753301877,
      "compression/movement_sparsity/importance_threshold": -0.0001705403990573326,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9122262378049153,
      "compression/movement_sparsity/model_sparsity": 0.8808884602001624,
      "compression_loss": 103.07929229736328,
      "distillation_loss": 3.843967914581299,
      "epoch": 4.11,
      "learning_rate": 4.033813400125235e-05,
      "loss": 106.5539,
      "step": 4861,
      "task_loss": 2.963442802429199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9737977547312324,
      "compression/movement_sparsity/importance_threshold": -0.00017005636793959115,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9122534964521308,
      "compression/movement_sparsity/model_sparsity": 0.8809147824289888,
      "compression_loss": 103.0864028930664,
      "distillation_loss": 4.53239107131958,
      "epoch": 4.11,
      "learning_rate": 4.0335003130870386e-05,
      "loss": 107.1592,
      "step": 4862,
      "task_loss": 3.869985818862915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9738721928834537,
      "compression/movement_sparsity/importance_threshold": -0.0001695732535471773,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9122924527077972,
      "compression/movement_sparsity/model_sparsity": 0.8809524004174295,
      "compression_loss": 103.09354400634766,
      "distillation_loss": 3.9507226943969727,
      "epoch": 4.11,
      "learning_rate": 4.033187226048842e-05,
      "loss": 106.9912,
      "step": 4863,
      "task_loss": 4.000669479370117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9739464899207367,
      "compression/movement_sparsity/importance_threshold": -0.00016909105501115764,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9123547684078622,
      "compression/movement_sparsity/model_sparsity": 0.8810125753814918,
      "compression_loss": 103.1005859375,
      "distillation_loss": 4.788640975952148,
      "epoch": 4.11,
      "learning_rate": 4.032874139010645e-05,
      "loss": 107.1196,
      "step": 4864,
      "task_loss": 3.468475818634033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9740206459769667,
      "compression/movement_sparsity/importance_threshold": -0.00016860977146259792,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124051957127943,
      "compression/movement_sparsity/model_sparsity": 0.8810612703533669,
      "compression_loss": 103.10768127441406,
      "distillation_loss": 4.603659629821777,
      "epoch": 4.11,
      "learning_rate": 4.032561051972448e-05,
      "loss": 107.6727,
      "step": 4865,
      "task_loss": 2.7617413997650146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9740946611860288,
      "compression/movement_sparsity/importance_threshold": -0.000168129402032563,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9123917214033658,
      "compression/movement_sparsity/model_sparsity": 0.8810482589279192,
      "compression_loss": 103.11469268798828,
      "distillation_loss": 4.272139549255371,
      "epoch": 4.11,
      "learning_rate": 4.032247964934252e-05,
      "loss": 107.0731,
      "step": 4866,
      "task_loss": 1.6391749382019043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9741685356818082,
      "compression/movement_sparsity/importance_threshold": -0.00016764994585211947,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124452132193802,
      "compression/movement_sparsity/model_sparsity": 0.8810999131354934,
      "compression_loss": 103.12171173095703,
      "distillation_loss": 3.5688412189483643,
      "epoch": 4.11,
      "learning_rate": 4.031934877896055e-05,
      "loss": 107.2389,
      "step": 4867,
      "task_loss": 2.144543170928955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9742422695981897,
      "compression/movement_sparsity/importance_threshold": -0.00016717140205233481,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124518311324181,
      "compression/movement_sparsity/model_sparsity": 0.8811063037028594,
      "compression_loss": 103.12876892089844,
      "distillation_loss": 5.70465087890625,
      "epoch": 4.11,
      "learning_rate": 4.031621790857858e-05,
      "loss": 108.1124,
      "step": 4868,
      "task_loss": 3.167325019836426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9743158630690588,
      "compression/movement_sparsity/importance_threshold": -0.0001666937697642739,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124678929862237,
      "compression/movement_sparsity/model_sparsity": 0.8811218137825746,
      "compression_loss": 103.1358413696289,
      "distillation_loss": 5.836475372314453,
      "epoch": 4.12,
      "learning_rate": 4.031308703819662e-05,
      "loss": 107.9487,
      "step": 4869,
      "task_loss": 2.0082461833953857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9743893162283006,
      "compression/movement_sparsity/importance_threshold": -0.0001662170481190016,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124865066119032,
      "compression/movement_sparsity/model_sparsity": 0.8811397879729499,
      "compression_loss": 103.14276885986328,
      "distillation_loss": 4.967957973480225,
      "epoch": 4.12,
      "learning_rate": 4.0309956167814654e-05,
      "loss": 107.0386,
      "step": 4870,
      "task_loss": 2.947622537612915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9744626292098001,
      "compression/movement_sparsity/importance_threshold": -0.00016574123624758623,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124477172945838,
      "compression/movement_sparsity/model_sparsity": 0.8811023311880103,
      "compression_loss": 103.1498794555664,
      "distillation_loss": 4.1553263664245605,
      "epoch": 4.12,
      "learning_rate": 4.0306825297432685e-05,
      "loss": 107.2634,
      "step": 4871,
      "task_loss": 2.7684144973754883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9745358021474425,
      "compression/movement_sparsity/importance_threshold": -0.0001652663332810918,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124401931448055,
      "compression/movement_sparsity/model_sparsity": 0.8810950655159239,
      "compression_loss": 103.1568374633789,
      "distillation_loss": 7.0473785400390625,
      "epoch": 4.12,
      "learning_rate": 4.030369442705072e-05,
      "loss": 108.8826,
      "step": 4872,
      "task_loss": 3.4608702659606934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.974608835175113,
      "compression/movement_sparsity/importance_threshold": -0.0001647923383505858,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9124589140879938,
      "compression/movement_sparsity/model_sparsity": 0.8811131433371213,
      "compression_loss": 103.163818359375,
      "distillation_loss": 5.356698989868164,
      "epoch": 4.12,
      "learning_rate": 4.0300563556668756e-05,
      "loss": 107.5184,
      "step": 4873,
      "task_loss": 2.6004228591918945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9746817284266966,
      "compression/movement_sparsity/importance_threshold": -0.00016431925058713395,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9125347398699903,
      "compression/movement_sparsity/model_sparsity": 0.8811863642702389,
      "compression_loss": 103.17076873779297,
      "distillation_loss": 3.710014820098877,
      "epoch": 4.12,
      "learning_rate": 4.029743268628679e-05,
      "loss": 107.4233,
      "step": 4874,
      "task_loss": 2.713430404663086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9747544820360787,
      "compression/movement_sparsity/importance_threshold": -0.00016384706912180112,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9125774880109649,
      "compression/movement_sparsity/model_sparsity": 0.8812276438810622,
      "compression_loss": 103.177734375,
      "distillation_loss": 4.193863868713379,
      "epoch": 4.12,
      "learning_rate": 4.029430181590482e-05,
      "loss": 107.3004,
      "step": 4875,
      "task_loss": 1.6833380460739136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9748270961371442,
      "compression/movement_sparsity/importance_threshold": -0.00016337579308565477,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9126112572537096,
      "compression/movement_sparsity/model_sparsity": 0.8812602530464324,
      "compression_loss": 103.1847152709961,
      "distillation_loss": 3.6271731853485107,
      "epoch": 4.12,
      "learning_rate": 4.029117094552286e-05,
      "loss": 107.4487,
      "step": 4876,
      "task_loss": 0.8073420524597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9748995708637783,
      "compression/movement_sparsity/importance_threshold": -0.00016290542160976064,
      "compression/movement_sparsity/linear_layer_sparsity": 0.912609802505258,
      "compression/movement_sparsity/model_sparsity": 0.8812588482730654,
      "compression_loss": 103.19166564941406,
      "distillation_loss": 4.907578468322754,
      "epoch": 4.12,
      "learning_rate": 4.028804007514089e-05,
      "loss": 107.5721,
      "step": 4877,
      "task_loss": 3.2344648838043213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9749719063498662,
      "compression/movement_sparsity/importance_threshold": -0.00016243595382518447,
      "compression/movement_sparsity/linear_layer_sparsity": 0.912605056686539,
      "compression/movement_sparsity/model_sparsity": 0.8812542654878193,
      "compression_loss": 103.1985092163086,
      "distillation_loss": 5.9523773193359375,
      "epoch": 4.12,
      "learning_rate": 4.028490920475893e-05,
      "loss": 107.4528,
      "step": 4878,
      "task_loss": 4.266650199890137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.975044102729293,
      "compression/movement_sparsity/importance_threshold": -0.00016196738886299286,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9126566048632289,
      "compression/movement_sparsity/model_sparsity": 0.881304042826059,
      "compression_loss": 103.20536804199219,
      "distillation_loss": 4.504624366760254,
      "epoch": 4.12,
      "learning_rate": 4.028177833437696e-05,
      "loss": 106.7959,
      "step": 4879,
      "task_loss": 1.8314474821090698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9751161601359437,
      "compression/movement_sparsity/importance_threshold": -0.00016149972585425155,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9126723447645082,
      "compression/movement_sparsity/model_sparsity": 0.8813192420133078,
      "compression_loss": 103.21216583251953,
      "distillation_loss": 5.232707500457764,
      "epoch": 4.13,
      "learning_rate": 4.027864746399499e-05,
      "loss": 107.3584,
      "step": 4880,
      "task_loss": 2.2642223834991455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9751880787037037,
      "compression/movement_sparsity/importance_threshold": -0.0001610329639300254,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9126024452938267,
      "compression/movement_sparsity/model_sparsity": 0.8812517438044802,
      "compression_loss": 103.21903991699219,
      "distillation_loss": 5.393105983734131,
      "epoch": 4.13,
      "learning_rate": 4.027551659361303e-05,
      "loss": 108.4193,
      "step": 4881,
      "task_loss": 2.069713830947876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.975259858566458,
      "compression/movement_sparsity/importance_threshold": -0.00016056710222138188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9126969443223409,
      "compression/movement_sparsity/model_sparsity": 0.881342996500652,
      "compression_loss": 103.2258529663086,
      "distillation_loss": 4.903548240661621,
      "epoch": 4.13,
      "learning_rate": 4.027238572323106e-05,
      "loss": 107.5907,
      "step": 4882,
      "task_loss": 3.4813477993011475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9753314998580918,
      "compression/movement_sparsity/importance_threshold": -0.0001601021398593876,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9127048381213159,
      "compression/movement_sparsity/model_sparsity": 0.881350619123348,
      "compression_loss": 103.23270416259766,
      "distillation_loss": 4.186715602874756,
      "epoch": 4.13,
      "learning_rate": 4.0269254852849094e-05,
      "loss": 107.0065,
      "step": 4883,
      "task_loss": 3.0346081256866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9754030027124901,
      "compression/movement_sparsity/importance_threshold": -0.00015963807597510656,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9127034072211996,
      "compression/movement_sparsity/model_sparsity": 0.8813492373790526,
      "compression_loss": 103.23948669433594,
      "distillation_loss": 5.621318340301514,
      "epoch": 4.13,
      "learning_rate": 4.026612398246713e-05,
      "loss": 107.0063,
      "step": 4884,
      "task_loss": 3.539299488067627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9754743672635382,
      "compression/movement_sparsity/importance_threshold": -0.00015917490969960622,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9127324544935606,
      "compression/movement_sparsity/model_sparsity": 0.8813772867882481,
      "compression_loss": 103.24628448486328,
      "distillation_loss": 4.240365982055664,
      "epoch": 4.13,
      "learning_rate": 4.0262993112085164e-05,
      "loss": 107.7461,
      "step": 4885,
      "task_loss": 1.5251898765563965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9755455936451212,
      "compression/movement_sparsity/importance_threshold": -0.00015871264016395319,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9127830129643366,
      "compression/movement_sparsity/model_sparsity": 0.881426108420017,
      "compression_loss": 103.2530288696289,
      "distillation_loss": 4.662071228027344,
      "epoch": 4.13,
      "learning_rate": 4.0259862241703196e-05,
      "loss": 107.8412,
      "step": 4886,
      "task_loss": 2.657071828842163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9756166819911242,
      "compression/movement_sparsity/importance_threshold": -0.00015825126649921147,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9128061577737179,
      "compression/movement_sparsity/model_sparsity": 0.8814484581339942,
      "compression_loss": 103.25981140136719,
      "distillation_loss": 4.64803409576416,
      "epoch": 4.13,
      "learning_rate": 4.025673137132123e-05,
      "loss": 107.5654,
      "step": 4887,
      "task_loss": 2.0577316284179688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9756876324354323,
      "compression/movement_sparsity/importance_threshold": -0.00015779078783644852,
      "compression/movement_sparsity/linear_layer_sparsity": 0.912921846048121,
      "compression/movement_sparsity/model_sparsity": 0.8815601721602728,
      "compression_loss": 103.26654052734375,
      "distillation_loss": 4.233486175537109,
      "epoch": 4.13,
      "learning_rate": 4.0253600500939266e-05,
      "loss": 107.4082,
      "step": 4888,
      "task_loss": 2.500523805618286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9757584451119308,
      "compression/movement_sparsity/importance_threshold": -0.0001573312033067301,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9128648723751568,
      "compression/movement_sparsity/model_sparsity": 0.8815051557082465,
      "compression_loss": 103.27323150634766,
      "distillation_loss": 4.681158065795898,
      "epoch": 4.13,
      "learning_rate": 4.02504696305573e-05,
      "loss": 107.8147,
      "step": 4889,
      "task_loss": 1.660998821258545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9758291201545047,
      "compression/movement_sparsity/importance_threshold": -0.00015687251204112192,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9129349507083528,
      "compression/movement_sparsity/model_sparsity": 0.881572826635111,
      "compression_loss": 103.2799301147461,
      "distillation_loss": 4.947524070739746,
      "epoch": 4.13,
      "learning_rate": 4.024733876017533e-05,
      "loss": 108.0737,
      "step": 4890,
      "task_loss": 2.839801073074341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9758996576970391,
      "compression/movement_sparsity/importance_threshold": -0.00015641471317069233,
      "compression/movement_sparsity/linear_layer_sparsity": 0.912994869650723,
      "compression/movement_sparsity/model_sparsity": 0.8816306871774786,
      "compression_loss": 103.2865982055664,
      "distillation_loss": 4.058843612670898,
      "epoch": 4.13,
      "learning_rate": 4.024420788979337e-05,
      "loss": 107.743,
      "step": 4891,
      "task_loss": 2.023789644241333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9759700578734194,
      "compression/movement_sparsity/importance_threshold": -0.00015595780582650359,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9130711843235926,
      "compression/movement_sparsity/model_sparsity": 0.8817043802065636,
      "compression_loss": 103.29328918457031,
      "distillation_loss": 2.775730609893799,
      "epoch": 4.14,
      "learning_rate": 4.02410770194114e-05,
      "loss": 107.6248,
      "step": 4892,
      "task_loss": 1.7594448328018188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9760403208175304,
      "compression/movement_sparsity/importance_threshold": -0.00015550178913962404,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9130622769703686,
      "compression/movement_sparsity/model_sparsity": 0.8816957788483251,
      "compression_loss": 103.29998016357422,
      "distillation_loss": 5.059879779815674,
      "epoch": 4.14,
      "learning_rate": 4.023794614902943e-05,
      "loss": 107.9662,
      "step": 4893,
      "task_loss": 3.604630947113037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9761104466632575,
      "compression/movement_sparsity/importance_threshold": -0.00015504666224111854,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9130114561679045,
      "compression/movement_sparsity/model_sparsity": 0.8816467038967688,
      "compression_loss": 103.30664825439453,
      "distillation_loss": 3.983198642730713,
      "epoch": 4.14,
      "learning_rate": 4.0234815278647464e-05,
      "loss": 106.9615,
      "step": 4894,
      "task_loss": 2.8911352157592773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9761804355444857,
      "compression/movement_sparsity/importance_threshold": -0.00015459242426205458,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9131513743509437,
      "compression/movement_sparsity/model_sparsity": 0.881781815459782,
      "compression_loss": 103.31327056884766,
      "distillation_loss": 3.8336145877838135,
      "epoch": 4.14,
      "learning_rate": 4.02316844082655e-05,
      "loss": 107.4055,
      "step": 4895,
      "task_loss": 2.589608907699585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9762502875951002,
      "compression/movement_sparsity/importance_threshold": -0.00015413907433349788,
      "compression/movement_sparsity/linear_layer_sparsity": 0.913147630162306,
      "compression/movement_sparsity/model_sparsity": 0.8817781998955424,
      "compression_loss": 103.31987762451172,
      "distillation_loss": 4.618251800537109,
      "epoch": 4.14,
      "learning_rate": 4.0228553537883534e-05,
      "loss": 107.215,
      "step": 4896,
      "task_loss": 2.2637813091278076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9763200029489862,
      "compression/movement_sparsity/importance_threshold": -0.00015368661158651244,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9131793842207203,
      "compression/movement_sparsity/model_sparsity": 0.8818088631043633,
      "compression_loss": 103.32657623291016,
      "distillation_loss": 4.347321510314941,
      "epoch": 4.14,
      "learning_rate": 4.0225422667501566e-05,
      "loss": 107.9603,
      "step": 4897,
      "task_loss": 3.240821599960327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9763895817400288,
      "compression/movement_sparsity/importance_threshold": -0.0001532350351521666,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9131645624803489,
      "compression/movement_sparsity/model_sparsity": 0.8817945505363707,
      "compression_loss": 103.33316802978516,
      "distillation_loss": 5.428161144256592,
      "epoch": 4.14,
      "learning_rate": 4.02222917971196e-05,
      "loss": 107.3597,
      "step": 4898,
      "task_loss": 3.2392184734344482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9764590241021129,
      "compression/movement_sparsity/importance_threshold": -0.00015278434416152696,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9131683185931543,
      "compression/movement_sparsity/model_sparsity": 0.881798177615146,
      "compression_loss": 103.33976745605469,
      "distillation_loss": 5.415704250335693,
      "epoch": 4.14,
      "learning_rate": 4.0219160926737636e-05,
      "loss": 108.4933,
      "step": 4899,
      "task_loss": 2.4747369289398193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9765283301691241,
      "compression/movement_sparsity/importance_threshold": -0.00015233453774565666,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9131514220476142,
      "compression/movement_sparsity/model_sparsity": 0.8817818615179251,
      "compression_loss": 103.34635925292969,
      "distillation_loss": 3.890885353088379,
      "epoch": 4.14,
      "learning_rate": 4.021603005635567e-05,
      "loss": 107.2023,
      "step": 4900,
      "task_loss": 2.1159677505493164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9765975000749472,
      "compression/movement_sparsity/importance_threshold": -0.00015188561503562403,
      "compression/movement_sparsity/linear_layer_sparsity": 0.913218233158878,
      "compression/movement_sparsity/model_sparsity": 0.8818463774619819,
      "compression_loss": 103.35294342041016,
      "distillation_loss": 4.183610916137695,
      "epoch": 4.14,
      "learning_rate": 4.02128991859737e-05,
      "loss": 107.2628,
      "step": 4901,
      "task_loss": 2.8122332096099854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9766665339534673,
      "compression/movement_sparsity/importance_threshold": -0.00015143757516249481,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9133630998714861,
      "compression/movement_sparsity/model_sparsity": 0.8819862675573498,
      "compression_loss": 103.35945892333984,
      "distillation_loss": 4.3213911056518555,
      "epoch": 4.14,
      "learning_rate": 4.020976831559173e-05,
      "loss": 107.9445,
      "step": 4902,
      "task_loss": 2.326215982437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9767354319385698,
      "compression/movement_sparsity/importance_threshold": -0.00015099041725733387,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9134736130571353,
      "compression/movement_sparsity/model_sparsity": 0.8820929842750936,
      "compression_loss": 103.36603546142578,
      "distillation_loss": 5.476161003112793,
      "epoch": 4.14,
      "learning_rate": 4.020663744520977e-05,
      "loss": 108.3903,
      "step": 4903,
      "task_loss": 2.8430793285369873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9768041941641397,
      "compression/movement_sparsity/importance_threshold": -0.00015054414045120867,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135750281028783,
      "compression/movement_sparsity/model_sparsity": 0.8821909154020262,
      "compression_loss": 103.37256622314453,
      "distillation_loss": 4.340805530548096,
      "epoch": 4.15,
      "learning_rate": 4.02035065748278e-05,
      "loss": 107.525,
      "step": 4904,
      "task_loss": 1.5062768459320068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9768728207640621,
      "compression/movement_sparsity/importance_threshold": -0.00015009874387518496,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135009074768538,
      "compression/movement_sparsity/model_sparsity": 0.8821193410475273,
      "compression_loss": 103.37908172607422,
      "distillation_loss": 2.89214825630188,
      "epoch": 4.15,
      "learning_rate": 4.0200375704445834e-05,
      "loss": 106.8337,
      "step": 4905,
      "task_loss": 1.9961196184158325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9769413118722222,
      "compression/movement_sparsity/importance_threshold": -0.00014965422666032846,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135012413535476,
      "compression/movement_sparsity/model_sparsity": 0.8821196634545295,
      "compression_loss": 103.3855972290039,
      "distillation_loss": 6.4654388427734375,
      "epoch": 4.15,
      "learning_rate": 4.019724483406387e-05,
      "loss": 108.0938,
      "step": 4906,
      "task_loss": 3.5064024925231934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9770096676225052,
      "compression/movement_sparsity/importance_threshold": -0.0001492105879377049,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135102202517774,
      "compression/movement_sparsity/model_sparsity": 0.8821283338999828,
      "compression_loss": 103.39210510253906,
      "distillation_loss": 3.7171525955200195,
      "epoch": 4.15,
      "learning_rate": 4.0194113963681904e-05,
      "loss": 106.7692,
      "step": 4907,
      "task_loss": 2.496166467666626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9770778881487961,
      "compression/movement_sparsity/importance_threshold": -0.00014876782683838005,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135678855264644,
      "compression/movement_sparsity/model_sparsity": 0.8821840181950852,
      "compression_loss": 103.39859008789062,
      "distillation_loss": 5.934309959411621,
      "epoch": 4.15,
      "learning_rate": 4.0190983093299936e-05,
      "loss": 108.282,
      "step": 4908,
      "task_loss": 3.895803451538086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9771459735849801,
      "compression/movement_sparsity/importance_threshold": -0.00014832594249342135,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135796666040886,
      "compression/movement_sparsity/model_sparsity": 0.8821953945564502,
      "compression_loss": 103.40498352050781,
      "distillation_loss": 4.94340705871582,
      "epoch": 4.15,
      "learning_rate": 4.018785222291797e-05,
      "loss": 107.4563,
      "step": 4909,
      "task_loss": 3.5095739364624023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9772139240649425,
      "compression/movement_sparsity/importance_threshold": -0.00014788493403389367,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136638154550949,
      "compression/movement_sparsity/model_sparsity": 0.8822766526355523,
      "compression_loss": 103.41143798828125,
      "distillation_loss": 5.9878997802734375,
      "epoch": 4.15,
      "learning_rate": 4.0184721352536006e-05,
      "loss": 108.6505,
      "step": 4910,
      "task_loss": 3.4021270275115967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9772817397225682,
      "compression/movement_sparsity/importance_threshold": -0.00014744480059086362,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136411833849221,
      "compression/movement_sparsity/model_sparsity": 0.8822547980466142,
      "compression_loss": 103.4178695678711,
      "distillation_loss": 4.713789939880371,
      "epoch": 4.15,
      "learning_rate": 4.018159048215404e-05,
      "loss": 108.6078,
      "step": 4911,
      "task_loss": 2.9544825553894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9773494206917425,
      "compression/movement_sparsity/importance_threshold": -0.00014700554129539693,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9135767809555208,
      "compression/movement_sparsity/model_sparsity": 0.882192608038788,
      "compression_loss": 103.4243392944336,
      "distillation_loss": 4.253330230712891,
      "epoch": 4.15,
      "learning_rate": 4.0178459611772077e-05,
      "loss": 107.5391,
      "step": 4912,
      "task_loss": 2.2982587814331055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9774169671063503,
      "compression/movement_sparsity/importance_threshold": -0.0001465671552785602,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136016786175445,
      "compression/movement_sparsity/model_sparsity": 0.882216650389527,
      "compression_loss": 103.43067932128906,
      "distillation_loss": 4.56576681137085,
      "epoch": 4.15,
      "learning_rate": 4.017532874139011e-05,
      "loss": 107.712,
      "step": 4913,
      "task_loss": 2.458975315093994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9774843791002771,
      "compression/movement_sparsity/importance_threshold": -0.0001461296416714183,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136189925089517,
      "compression/movement_sparsity/model_sparsity": 0.8822333694955007,
      "compression_loss": 103.43701934814453,
      "distillation_loss": 4.685150146484375,
      "epoch": 4.15,
      "learning_rate": 4.017219787100815e-05,
      "loss": 108.0534,
      "step": 4914,
      "task_loss": 1.9182080030441284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9775516568074077,
      "compression/movement_sparsity/importance_threshold": -0.00014569299960503872,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136454880094386,
      "compression/movement_sparsity/model_sparsity": 0.8822589547940362,
      "compression_loss": 103.44336700439453,
      "distillation_loss": 3.2142882347106934,
      "epoch": 4.15,
      "learning_rate": 4.016906700062618e-05,
      "loss": 107.7919,
      "step": 4915,
      "task_loss": 1.371606469154358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9776188003616275,
      "compression/movement_sparsity/importance_threshold": -0.0001452572282104863,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9136393470631061,
      "compression/movement_sparsity/model_sparsity": 0.8822530248081019,
      "compression_loss": 103.44965362548828,
      "distillation_loss": 6.138660430908203,
      "epoch": 4.16,
      "learning_rate": 4.016593613024421e-05,
      "loss": 107.9043,
      "step": 4916,
      "task_loss": 4.365577697753906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9776858098968216,
      "compression/movement_sparsity/importance_threshold": -0.00014482232661882678,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9137038806583514,
      "compression/movement_sparsity/model_sparsity": 0.8823153414758219,
      "compression_loss": 103.45591735839844,
      "distillation_loss": 3.7030177116394043,
      "epoch": 4.16,
      "learning_rate": 4.016280525986225e-05,
      "loss": 107.0678,
      "step": 4917,
      "task_loss": 1.872741460800171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.977752685546875,
      "compression/movement_sparsity/importance_threshold": -0.0001443882939611285,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9137806961462617,
      "compression/movement_sparsity/model_sparsity": 0.8823895181154104,
      "compression_loss": 103.46223449707031,
      "distillation_loss": 4.592808723449707,
      "epoch": 4.16,
      "learning_rate": 4.015967438948028e-05,
      "loss": 107.8398,
      "step": 4918,
      "task_loss": 3.196143865585327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.977819427445673,
      "compression/movement_sparsity/importance_threshold": -0.00014395512936845548,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9138244220689824,
      "compression/movement_sparsity/model_sparsity": 0.882431741918169,
      "compression_loss": 103.4684829711914,
      "distillation_loss": 3.4923319816589355,
      "epoch": 4.16,
      "learning_rate": 4.015654351909831e-05,
      "loss": 107.8279,
      "step": 4919,
      "task_loss": 1.210857629776001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9778860357271005,
      "compression/movement_sparsity/importance_threshold": -0.0001435228319718743,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9138566769424373,
      "compression/movement_sparsity/model_sparsity": 0.8824628887374932,
      "compression_loss": 103.47472381591797,
      "distillation_loss": 4.646156311035156,
      "epoch": 4.16,
      "learning_rate": 4.0153412648716344e-05,
      "loss": 107.8,
      "step": 4920,
      "task_loss": 2.693532943725586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.977952510525043,
      "compression/movement_sparsity/importance_threshold": -0.00014309140090244983,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9138098268877961,
      "compression/movement_sparsity/model_sparsity": 0.8824176481263565,
      "compression_loss": 103.48106384277344,
      "distillation_loss": 3.6667351722717285,
      "epoch": 4.16,
      "learning_rate": 4.015028177833438e-05,
      "loss": 107.391,
      "step": 4921,
      "task_loss": 3.3406569957733154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9780188519733853,
      "compression/movement_sparsity/importance_threshold": -0.0001426608352912504,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9138429403013208,
      "compression/movement_sparsity/model_sparsity": 0.8824496239922579,
      "compression_loss": 103.48724365234375,
      "distillation_loss": 5.576323509216309,
      "epoch": 4.16,
      "learning_rate": 4.0147150907952415e-05,
      "loss": 108.3693,
      "step": 4922,
      "task_loss": 2.9830191135406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9780850602060127,
      "compression/movement_sparsity/importance_threshold": -0.0001422311342693409,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9138849729922373,
      "compression/movement_sparsity/model_sparsity": 0.8824902127309336,
      "compression_loss": 103.49345397949219,
      "distillation_loss": 4.727092266082764,
      "epoch": 4.16,
      "learning_rate": 4.0144020037570446e-05,
      "loss": 107.7683,
      "step": 4923,
      "task_loss": 3.176384925842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9781511353568103,
      "compression/movement_sparsity/importance_threshold": -0.00014180229696778707,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9139491607866211,
      "compression/movement_sparsity/model_sparsity": 0.8825521954771157,
      "compression_loss": 103.4996566772461,
      "distillation_loss": 5.450467109680176,
      "epoch": 4.16,
      "learning_rate": 4.014088916718848e-05,
      "loss": 108.5112,
      "step": 4924,
      "task_loss": 3.0870888233184814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9782170775596634,
      "compression/movement_sparsity/importance_threshold": -0.00014137432251765548,
      "compression/movement_sparsity/linear_layer_sparsity": 0.913961836176818,
      "compression/movement_sparsity/model_sparsity": 0.8825644354286653,
      "compression_loss": 103.5058822631836,
      "distillation_loss": 4.01026725769043,
      "epoch": 4.16,
      "learning_rate": 4.013775829680652e-05,
      "loss": 107.9067,
      "step": 4925,
      "task_loss": 1.8630263805389404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9782828869484569,
      "compression/movement_sparsity/importance_threshold": -0.00014094721005001188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9140024498917858,
      "compression/movement_sparsity/model_sparsity": 0.8826036539375814,
      "compression_loss": 103.51206970214844,
      "distillation_loss": 4.55216121673584,
      "epoch": 4.16,
      "learning_rate": 4.013462742642455e-05,
      "loss": 107.9055,
      "step": 4926,
      "task_loss": 2.4766299724578857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9783485636570761,
      "compression/movement_sparsity/importance_threshold": -0.00014052095869592114,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9140690344438644,
      "compression/movement_sparsity/model_sparsity": 0.8826679511054581,
      "compression_loss": 103.51821899414062,
      "distillation_loss": 5.261106014251709,
      "epoch": 4.16,
      "learning_rate": 4.013149655604258e-05,
      "loss": 107.7647,
      "step": 4927,
      "task_loss": 2.000267505645752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9784141078194061,
      "compression/movement_sparsity/importance_threshold": -0.0001400955675864516,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9141823736572433,
      "compression/movement_sparsity/model_sparsity": 0.8827773967681853,
      "compression_loss": 103.52444458007812,
      "distillation_loss": 4.078245162963867,
      "epoch": 4.17,
      "learning_rate": 4.012836568566062e-05,
      "loss": 107.4863,
      "step": 4928,
      "task_loss": 1.7417700290679932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9784795195693319,
      "compression/movement_sparsity/importance_threshold": -0.000139671035852669,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9143164609223086,
      "compression/movement_sparsity/model_sparsity": 0.8829068777231949,
      "compression_loss": 103.53064727783203,
      "distillation_loss": 3.4105663299560547,
      "epoch": 4.17,
      "learning_rate": 4.012523481527865e-05,
      "loss": 108.0769,
      "step": 4929,
      "task_loss": 2.265688896179199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9785447990407389,
      "compression/movement_sparsity/importance_threshold": -0.0001392473626256373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9143264652989551,
      "compression/movement_sparsity/model_sparsity": 0.8829165384187265,
      "compression_loss": 103.53678894042969,
      "distillation_loss": 3.9625284671783447,
      "epoch": 4.17,
      "learning_rate": 4.012210394489668e-05,
      "loss": 108.4062,
      "step": 4930,
      "task_loss": 2.1866326332092285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9786099463675121,
      "compression/movement_sparsity/importance_threshold": -0.00013882454703642404,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9144020406734312,
      "compression/movement_sparsity/model_sparsity": 0.8829895175465924,
      "compression_loss": 103.54297637939453,
      "distillation_loss": 3.600799560546875,
      "epoch": 4.17,
      "learning_rate": 4.0118973074514714e-05,
      "loss": 107.8113,
      "step": 4931,
      "task_loss": 2.8793835639953613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9786749616835365,
      "compression/movement_sparsity/importance_threshold": -0.00013840258821609577,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9144129274384828,
      "compression/movement_sparsity/model_sparsity": 0.8830000303177727,
      "compression_loss": 103.54908752441406,
      "distillation_loss": 4.692935466766357,
      "epoch": 4.17,
      "learning_rate": 4.011584220413275e-05,
      "loss": 108.0536,
      "step": 4932,
      "task_loss": 3.3289122581481934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9787398451226975,
      "compression/movement_sparsity/importance_threshold": -0.00013798148529571737,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9144099106240708,
      "compression/movement_sparsity/model_sparsity": 0.8829971171402168,
      "compression_loss": 103.55522155761719,
      "distillation_loss": 5.157102584838867,
      "epoch": 4.17,
      "learning_rate": 4.0112711333750785e-05,
      "loss": 107.7343,
      "step": 4933,
      "task_loss": 2.7243149280548096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9788045968188802,
      "compression/movement_sparsity/importance_threshold": -0.00013756123740635545,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9145124107690688,
      "compression/movement_sparsity/model_sparsity": 0.8830960960899066,
      "compression_loss": 103.5613021850586,
      "distillation_loss": 4.519283771514893,
      "epoch": 4.17,
      "learning_rate": 4.0109580463368816e-05,
      "loss": 107.2692,
      "step": 4934,
      "task_loss": 2.1239492893218994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9788692169059696,
      "compression/movement_sparsity/importance_threshold": -0.00013714184367907573,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9145215804539807,
      "compression/movement_sparsity/model_sparsity": 0.8831049507679326,
      "compression_loss": 103.56739044189453,
      "distillation_loss": 4.871394157409668,
      "epoch": 4.17,
      "learning_rate": 4.010644959298685e-05,
      "loss": 108.1457,
      "step": 4935,
      "task_loss": 2.1908538341522217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.978933705517851,
      "compression/movement_sparsity/importance_threshold": -0.00013672330324494397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9145230709749352,
      "compression/movement_sparsity/model_sparsity": 0.8831063900849069,
      "compression_loss": 103.57341003417969,
      "distillation_loss": 3.0594687461853027,
      "epoch": 4.17,
      "learning_rate": 4.010331872260489e-05,
      "loss": 107.3347,
      "step": 4936,
      "task_loss": 1.1005932092666626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9789980627884093,
      "compression/movement_sparsity/importance_threshold": -0.0001363056152350276,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9145404683355159,
      "compression/movement_sparsity/model_sparsity": 0.8831231897926312,
      "compression_loss": 103.57939910888672,
      "distillation_loss": 4.168335437774658,
      "epoch": 4.17,
      "learning_rate": 4.010018785222292e-05,
      "loss": 107.2675,
      "step": 4937,
      "task_loss": 2.598053455352783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9790622888515299,
      "compression/movement_sparsity/importance_threshold": -0.00013588877878039068,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9146141596915056,
      "compression/movement_sparsity/model_sparsity": 0.8831943496238415,
      "compression_loss": 103.58540344238281,
      "distillation_loss": 5.19911527633667,
      "epoch": 4.17,
      "learning_rate": 4.009705698184095e-05,
      "loss": 108.7044,
      "step": 4938,
      "task_loss": 2.661593437194824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9791263838410977,
      "compression/movement_sparsity/importance_threshold": -0.0001354727930121015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9146429684805139,
      "compression/movement_sparsity/model_sparsity": 0.8832221687423211,
      "compression_loss": 103.59140014648438,
      "distillation_loss": 3.8271543979644775,
      "epoch": 4.17,
      "learning_rate": 4.009392611145898e-05,
      "loss": 107.2693,
      "step": 4939,
      "task_loss": 1.9788639545440674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9791903478909981,
      "compression/movement_sparsity/importance_threshold": -0.00013505765706122493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9147589906316108,
      "compression/movement_sparsity/model_sparsity": 0.8833342051756019,
      "compression_loss": 103.59737396240234,
      "distillation_loss": 4.637570381164551,
      "epoch": 4.18,
      "learning_rate": 4.009079524107702e-05,
      "loss": 107.9093,
      "step": 4940,
      "task_loss": 1.7599165439605713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9792541811351161,
      "compression/movement_sparsity/importance_threshold": -0.00013464337005882586,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9147289894258389,
      "compression/movement_sparsity/model_sparsity": 0.8833052346035428,
      "compression_loss": 103.6033935546875,
      "distillation_loss": 6.147051811218262,
      "epoch": 4.18,
      "learning_rate": 4.008766437069505e-05,
      "loss": 107.8979,
      "step": 4941,
      "task_loss": 2.724635124206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9793178837073369,
      "compression/movement_sparsity/importance_threshold": -0.0001342299311359726,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9147467445114488,
      "compression/movement_sparsity/model_sparsity": 0.883322379747341,
      "compression_loss": 103.6093978881836,
      "distillation_loss": 4.143154621124268,
      "epoch": 4.18,
      "learning_rate": 4.0084533500313084e-05,
      "loss": 107.2416,
      "step": 4942,
      "task_loss": 2.5860044956207275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9793814557415456,
      "compression/movement_sparsity/importance_threshold": -0.0001338173394237292,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9147065123698453,
      "compression/movement_sparsity/model_sparsity": 0.8832835297035702,
      "compression_loss": 103.6153793334961,
      "distillation_loss": 5.226323127746582,
      "epoch": 4.18,
      "learning_rate": 4.008140262993112e-05,
      "loss": 108.2732,
      "step": 4943,
      "task_loss": 3.0391578674316406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9794448973716272,
      "compression/movement_sparsity/importance_threshold": -0.00013340559405316307,
      "compression/movement_sparsity/linear_layer_sparsity": 0.914689854307658,
      "compression/movement_sparsity/model_sparsity": 0.8832674438970651,
      "compression_loss": 103.62129974365234,
      "distillation_loss": 4.738438606262207,
      "epoch": 4.18,
      "learning_rate": 4.0078271759549155e-05,
      "loss": 108.218,
      "step": 4944,
      "task_loss": 2.632012128829956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.979508208731467,
      "compression/movement_sparsity/importance_threshold": -0.0001329946941553391,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9147160994006246,
      "compression/movement_sparsity/model_sparsity": 0.883292787390349,
      "compression_loss": 103.62714385986328,
      "distillation_loss": 4.697893142700195,
      "epoch": 4.18,
      "learning_rate": 4.007514088916719e-05,
      "loss": 107.2653,
      "step": 4945,
      "task_loss": 3.0680320262908936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9795713899549502,
      "compression/movement_sparsity/importance_threshold": -0.00013258463886132478,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9148257182737011,
      "compression/movement_sparsity/model_sparsity": 0.8833986405179082,
      "compression_loss": 103.63297271728516,
      "distillation_loss": 5.813137054443359,
      "epoch": 4.18,
      "learning_rate": 4.0072010018785225e-05,
      "loss": 108.3145,
      "step": 4946,
      "task_loss": 2.376680374145508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9796344411759619,
      "compression/movement_sparsity/importance_threshold": -0.00013217542730218496,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9148985987862914,
      "compression/movement_sparsity/model_sparsity": 0.8834690173606844,
      "compression_loss": 103.63887786865234,
      "distillation_loss": 7.650238990783691,
      "epoch": 4.18,
      "learning_rate": 4.006887914840326e-05,
      "loss": 108.2981,
      "step": 4947,
      "task_loss": 4.499307155609131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9796973625283871,
      "compression/movement_sparsity/importance_threshold": -0.00013176705860898624,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9148679417512996,
      "compression/movement_sparsity/model_sparsity": 0.8834394134891567,
      "compression_loss": 103.64472961425781,
      "distillation_loss": 4.16168212890625,
      "epoch": 4.18,
      "learning_rate": 4.0065748278021295e-05,
      "loss": 108.1785,
      "step": 4948,
      "task_loss": 2.176762819290161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9797601541461111,
      "compression/movement_sparsity/importance_threshold": -0.00013135953191279436,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9148624327858519,
      "compression/movement_sparsity/model_sparsity": 0.8834340937736196,
      "compression_loss": 103.65058898925781,
      "distillation_loss": 4.6738739013671875,
      "epoch": 4.18,
      "learning_rate": 4.006261740763933e-05,
      "loss": 107.944,
      "step": 4949,
      "task_loss": 2.4931294918060303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9798228161630189,
      "compression/movement_sparsity/importance_threshold": -0.00013095284634467505,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9149844885657725,
      "compression/movement_sparsity/model_sparsity": 0.8835519565620125,
      "compression_loss": 103.65642547607422,
      "distillation_loss": 5.454440116882324,
      "epoch": 4.18,
      "learning_rate": 4.005948653725736e-05,
      "loss": 108.2923,
      "step": 4950,
      "task_loss": 2.8382556438446045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9798853487129957,
      "compression/movement_sparsity/importance_threshold": -0.0001305470010356958,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9150222881771782,
      "compression/movement_sparsity/model_sparsity": 0.8835884576404812,
      "compression_loss": 103.66227722167969,
      "distillation_loss": 3.1105918884277344,
      "epoch": 4.19,
      "learning_rate": 4.00563556668754e-05,
      "loss": 107.8441,
      "step": 4951,
      "task_loss": 2.1158368587493896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9799477519299268,
      "compression/movement_sparsity/importance_threshold": -0.00013014199511692144,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9150545549748009,
      "compression/movement_sparsity/model_sparsity": 0.8836196159743412,
      "compression_loss": 103.66809844970703,
      "distillation_loss": 4.62607479095459,
      "epoch": 4.19,
      "learning_rate": 4.005322479649343e-05,
      "loss": 107.8947,
      "step": 4952,
      "task_loss": 2.1516647338867188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9800100259476971,
      "compression/movement_sparsity/importance_threshold": -0.00012973782771941774,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9150815512903285,
      "compression/movement_sparsity/model_sparsity": 0.88364568488338,
      "compression_loss": 103.67388153076172,
      "distillation_loss": 2.979776382446289,
      "epoch": 4.19,
      "learning_rate": 4.005009392611146e-05,
      "loss": 107.4927,
      "step": 4953,
      "task_loss": 1.3795605897903442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9800721709001919,
      "compression/movement_sparsity/importance_threshold": -0.00012933449797425042,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91505491269983,
      "compression/movement_sparsity/model_sparsity": 0.883619961410415,
      "compression_loss": 103.67961883544922,
      "distillation_loss": 4.7320404052734375,
      "epoch": 4.19,
      "learning_rate": 4.00469630557295e-05,
      "loss": 108.1684,
      "step": 4954,
      "task_loss": 2.212449789047241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9801341869212963,
      "compression/movement_sparsity/importance_threshold": -0.00012893200501248783,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9151999344266173,
      "compression/movement_sparsity/model_sparsity": 0.8837600011947482,
      "compression_loss": 103.68535614013672,
      "distillation_loss": 5.41484260559082,
      "epoch": 4.19,
      "learning_rate": 4.004383218534753e-05,
      "loss": 108.5436,
      "step": 4955,
      "task_loss": 3.7184066772460938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9801960741448954,
      "compression/movement_sparsity/importance_threshold": -0.00012853034796519395,
      "compression/movement_sparsity/linear_layer_sparsity": 0.915241108577464,
      "compression/movement_sparsity/model_sparsity": 0.8837997608868468,
      "compression_loss": 103.69103240966797,
      "distillation_loss": 3.7373833656311035,
      "epoch": 4.19,
      "learning_rate": 4.004070131496556e-05,
      "loss": 107.7886,
      "step": 4956,
      "task_loss": 2.0862343311309814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9802578327048743,
      "compression/movement_sparsity/importance_threshold": -0.0001281295259634354,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9152820203966227,
      "compression/movement_sparsity/model_sparsity": 0.8838392672591578,
      "compression_loss": 103.6966781616211,
      "distillation_loss": 6.642441749572754,
      "epoch": 4.19,
      "learning_rate": 4.0037570444583595e-05,
      "loss": 108.7807,
      "step": 4957,
      "task_loss": 2.3959405422210693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9803194627351183,
      "compression/movement_sparsity/importance_threshold": -0.0001277295381382779,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9153594917137529,
      "compression/movement_sparsity/model_sparsity": 0.883914077198215,
      "compression_loss": 103.70235443115234,
      "distillation_loss": 5.843071937561035,
      "epoch": 4.19,
      "learning_rate": 4.003443957420163e-05,
      "loss": 108.8933,
      "step": 4958,
      "task_loss": 2.9057092666625977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9803809643695124,
      "compression/movement_sparsity/importance_threshold": -0.00012733038362078807,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9153708077488393,
      "compression/movement_sparsity/model_sparsity": 0.883925004492684,
      "compression_loss": 103.70796966552734,
      "distillation_loss": 4.775547027587891,
      "epoch": 4.19,
      "learning_rate": 4.0031308703819665e-05,
      "loss": 108.1988,
      "step": 4959,
      "task_loss": 2.249633550643921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9804423377419418,
      "compression/movement_sparsity/importance_threshold": -0.00012693206154203076,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9153920804639016,
      "compression/movement_sparsity/model_sparsity": 0.8839455464245415,
      "compression_loss": 103.71365356445312,
      "distillation_loss": 4.6187825202941895,
      "epoch": 4.19,
      "learning_rate": 4.00281778334377e-05,
      "loss": 108.0454,
      "step": 4960,
      "task_loss": 1.8897982835769653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9805035829862916,
      "compression/movement_sparsity/importance_threshold": -0.00012653457103307432,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9153806690354741,
      "compression/movement_sparsity/model_sparsity": 0.883934527013786,
      "compression_loss": 103.71931457519531,
      "distillation_loss": 4.770403861999512,
      "epoch": 4.19,
      "learning_rate": 4.002504696305573e-05,
      "loss": 108.0988,
      "step": 4961,
      "task_loss": 2.467261791229248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.980564700236447,
      "compression/movement_sparsity/importance_threshold": -0.00012613791122498188,
      "compression/movement_sparsity/linear_layer_sparsity": 0.915379560087884,
      "compression/movement_sparsity/model_sparsity": 0.8839334561619572,
      "compression_loss": 103.7249526977539,
      "distillation_loss": 4.761317253112793,
      "epoch": 4.19,
      "learning_rate": 4.002191609267377e-05,
      "loss": 107.7423,
      "step": 4962,
      "task_loss": 3.055222749710083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9806256896262932,
      "compression/movement_sparsity/importance_threshold": -0.00012574208124882177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155125980261973,
      "compression/movement_sparsity/model_sparsity": 0.8840619238378169,
      "compression_loss": 103.73051452636719,
      "distillation_loss": 4.94692850112915,
      "epoch": 4.2,
      "learning_rate": 4.00187852222918e-05,
      "loss": 108.2952,
      "step": 4963,
      "task_loss": 2.9296822547912598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.980686551289715,
      "compression/movement_sparsity/importance_threshold": -0.00012534708023565887,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155526155327832,
      "compression/movement_sparsity/model_sparsity": 0.8841005666199434,
      "compression_loss": 103.73614501953125,
      "distillation_loss": 3.46132493019104,
      "epoch": 4.2,
      "learning_rate": 4.001565435190983e-05,
      "loss": 108.1061,
      "step": 4964,
      "task_loss": 2.1058313846588135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.980747285360598,
      "compression/movement_sparsity/importance_threshold": -0.00012495290731656065,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155925972668663,
      "compression/movement_sparsity/model_sparsity": 0.8841391748584625,
      "compression_loss": 103.74172973632812,
      "distillation_loss": 3.667452096939087,
      "epoch": 4.2,
      "learning_rate": 4.001252348152787e-05,
      "loss": 107.3647,
      "step": 4965,
      "task_loss": 1.827082872390747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.980807891972827,
      "compression/movement_sparsity/importance_threshold": -0.0001245595616225911,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9156002764308238,
      "compression/movement_sparsity/model_sparsity": 0.8841465902195141,
      "compression_loss": 103.74726867675781,
      "distillation_loss": 4.737611293792725,
      "epoch": 4.2,
      "learning_rate": 4.00093926111459e-05,
      "loss": 108.2347,
      "step": 4966,
      "task_loss": 2.6571435928344727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9808683712602874,
      "compression/movement_sparsity/importance_threshold": -0.0001241670422848177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155896758457955,
      "compression/movement_sparsity/model_sparsity": 0.8841363537971928,
      "compression_loss": 103.75284576416016,
      "distillation_loss": 4.120554447174072,
      "epoch": 4.2,
      "learning_rate": 4.000626174076393e-05,
      "loss": 108.396,
      "step": 4967,
      "task_loss": 2.454707145690918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9809287233568642,
      "compression/movement_sparsity/importance_threshold": -0.0001237753484343053,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155832606436074,
      "compression/movement_sparsity/model_sparsity": 0.8841301589769354,
      "compression_loss": 103.75833129882812,
      "distillation_loss": 5.389728546142578,
      "epoch": 4.2,
      "learning_rate": 4.0003130870381965e-05,
      "loss": 108.501,
      "step": 4968,
      "task_loss": 2.711047887802124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9809889483964425,
      "compression/movement_sparsity/importance_threshold": -0.00012338447920212138,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155300907801192,
      "compression/movement_sparsity/model_sparsity": 0.8840788156618274,
      "compression_loss": 103.7637710571289,
      "distillation_loss": 4.9808454513549805,
      "epoch": 4.2,
      "learning_rate": 4e-05,
      "loss": 108.301,
      "step": 4969,
      "task_loss": 2.5470998287200928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9810490465129075,
      "compression/movement_sparsity/importance_threshold": -0.00012299443371933082,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9155816985776472,
      "compression/movement_sparsity/model_sparsity": 0.8841286505727463,
      "compression_loss": 103.76925659179688,
      "distillation_loss": 4.676291465759277,
      "epoch": 4.2,
      "learning_rate": 3.9996869129618035e-05,
      "loss": 108.8184,
      "step": 4970,
      "task_loss": 3.29413104057312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9811090178401443,
      "compression/movement_sparsity/importance_threshold": -0.0001226052111170002,
      "compression/movement_sparsity/linear_layer_sparsity": 0.915639137293149,
      "compression/movement_sparsity/model_sparsity": 0.8841841160916686,
      "compression_loss": 103.77472686767578,
      "distillation_loss": 4.489619731903076,
      "epoch": 4.2,
      "learning_rate": 3.999373825923607e-05,
      "loss": 107.9161,
      "step": 4971,
      "task_loss": 2.770730972290039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.981168862512038,
      "compression/movement_sparsity/importance_threshold": -0.00012221681052619615,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9156397692740338,
      "compression/movement_sparsity/model_sparsity": 0.8841847263620657,
      "compression_loss": 103.78028106689453,
      "distillation_loss": 4.138166904449463,
      "epoch": 4.2,
      "learning_rate": 3.99906073888541e-05,
      "loss": 108.5964,
      "step": 4972,
      "task_loss": 2.790201425552368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.981228580662474,
      "compression/movement_sparsity/importance_threshold": -0.00012182923107798352,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9156367882321248,
      "compression/movement_sparsity/model_sparsity": 0.884181847728117,
      "compression_loss": 103.7857437133789,
      "distillation_loss": 4.700735092163086,
      "epoch": 4.2,
      "learning_rate": 3.998747651847214e-05,
      "loss": 108.9152,
      "step": 4973,
      "task_loss": 2.515467643737793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9812881724253372,
      "compression/movement_sparsity/importance_threshold": -0.00012144247190342804,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9157154519660186,
      "compression/movement_sparsity/model_sparsity": 0.8842578091207536,
      "compression_loss": 103.79126739501953,
      "distillation_loss": 4.725978851318359,
      "epoch": 4.2,
      "learning_rate": 3.998434564809017e-05,
      "loss": 108.2143,
      "step": 4974,
      "task_loss": 3.0130670070648193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9813476379345127,
      "compression/movement_sparsity/importance_threshold": -0.0001210565321335972,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9157204481922581,
      "compression/movement_sparsity/model_sparsity": 0.8842626337112516,
      "compression_loss": 103.79668426513672,
      "distillation_loss": 4.4905595779418945,
      "epoch": 4.21,
      "learning_rate": 3.99812147777082e-05,
      "loss": 107.8745,
      "step": 4975,
      "task_loss": 2.6924655437469482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9814069773238858,
      "compression/movement_sparsity/importance_threshold": -0.00012067141089955671,
      "compression/movement_sparsity/linear_layer_sparsity": 0.915772747591509,
      "compression/movement_sparsity/model_sparsity": 0.8843131364652463,
      "compression_loss": 103.80213928222656,
      "distillation_loss": 5.120213508605957,
      "epoch": 4.21,
      "learning_rate": 3.997808390732623e-05,
      "loss": 108.2474,
      "step": 4976,
      "task_loss": 3.1782617568969727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9814661907273416,
      "compression/movement_sparsity/importance_threshold": -0.00012028710733237233,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9158479056201178,
      "compression/movement_sparsity/model_sparsity": 0.8843857125843594,
      "compression_loss": 103.80752563476562,
      "distillation_loss": 3.3218088150024414,
      "epoch": 4.21,
      "learning_rate": 3.997495303694427e-05,
      "loss": 107.3101,
      "step": 4977,
      "task_loss": 1.9380847215652466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9815252782787652,
      "compression/movement_sparsity/importance_threshold": -0.00011990362056310978,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9158126100839156,
      "compression/movement_sparsity/model_sparsity": 0.8843516295584075,
      "compression_loss": 103.81293487548828,
      "distillation_loss": 3.3660597801208496,
      "epoch": 4.21,
      "learning_rate": 3.99718221665623e-05,
      "loss": 108.1238,
      "step": 4978,
      "task_loss": 1.379673957824707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9815842401120418,
      "compression/movement_sparsity/importance_threshold": -0.00011952094972283566,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9157686099053393,
      "compression/movement_sparsity/model_sparsity": 0.8843091409213257,
      "compression_loss": 103.81830596923828,
      "distillation_loss": 4.208396911621094,
      "epoch": 4.21,
      "learning_rate": 3.996869129618034e-05,
      "loss": 107.5468,
      "step": 4979,
      "task_loss": 1.991870641708374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9816430763610565,
      "compression/movement_sparsity/importance_threshold": -0.00011913909394261485,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9157727952881795,
      "compression/movement_sparsity/model_sparsity": 0.8843131825233895,
      "compression_loss": 103.82365417480469,
      "distillation_loss": 6.107856750488281,
      "epoch": 4.21,
      "learning_rate": 3.996556042579837e-05,
      "loss": 108.2807,
      "step": 4980,
      "task_loss": 2.892411231994629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9817017871596944,
      "compression/movement_sparsity/importance_threshold": -0.00011875805235351568,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9158596509252391,
      "compression/movement_sparsity/model_sparsity": 0.884397054402117,
      "compression_loss": 103.82904052734375,
      "distillation_loss": 6.41664981842041,
      "epoch": 4.21,
      "learning_rate": 3.996242955541641e-05,
      "loss": 108.7472,
      "step": 4981,
      "task_loss": 3.0750980377197266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9817603726418407,
      "compression/movement_sparsity/importance_threshold": -0.00011837782408660215,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9158793973468441,
      "compression/movement_sparsity/model_sparsity": 0.8844161224733927,
      "compression_loss": 103.83440399169922,
      "distillation_loss": 4.836499214172363,
      "epoch": 4.21,
      "learning_rate": 3.9959298685034444e-05,
      "loss": 107.7022,
      "step": 4982,
      "task_loss": 3.1106932163238525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9818188329413805,
      "compression/movement_sparsity/importance_threshold": -0.00011799840827294086,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9158736498980437,
      "compression/movement_sparsity/model_sparsity": 0.8844105724671398,
      "compression_loss": 103.83973693847656,
      "distillation_loss": 5.79898738861084,
      "epoch": 4.21,
      "learning_rate": 3.9956167814652475e-05,
      "loss": 108.4376,
      "step": 4983,
      "task_loss": 3.161250114440918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.981877168192199,
      "compression/movement_sparsity/importance_threshold": -0.00011761980404359842,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9159665749364299,
      "compression/movement_sparsity/model_sparsity": 0.8845003052445867,
      "compression_loss": 103.84501647949219,
      "distillation_loss": 3.6509170532226562,
      "epoch": 4.21,
      "learning_rate": 3.9953036944270514e-05,
      "loss": 108.4197,
      "step": 4984,
      "task_loss": 2.645055055618286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9819353785281812,
      "compression/movement_sparsity/importance_threshold": -0.0001172420105296397,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9160352104453419,
      "compression/movement_sparsity/model_sparsity": 0.88456658291262,
      "compression_loss": 103.85028076171875,
      "distillation_loss": 3.6058974266052246,
      "epoch": 4.21,
      "learning_rate": 3.9949906073888546e-05,
      "loss": 108.1965,
      "step": 4985,
      "task_loss": 2.8972392082214355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9819934640832124,
      "compression/movement_sparsity/importance_threshold": -0.0001168650268621313,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9160773266054317,
      "compression/movement_sparsity/model_sparsity": 0.8846072522530464,
      "compression_loss": 103.8555908203125,
      "distillation_loss": 3.8345165252685547,
      "epoch": 4.21,
      "learning_rate": 3.994677520350658e-05,
      "loss": 108.3179,
      "step": 4986,
      "task_loss": 1.89413583278656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9820514249911777,
      "compression/movement_sparsity/importance_threshold": -0.00011648885217214067,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9161454374509678,
      "compression/movement_sparsity/model_sparsity": 0.8846730232815048,
      "compression_loss": 103.86090087890625,
      "distillation_loss": 5.447353363037109,
      "epoch": 4.22,
      "learning_rate": 3.994364433312461e-05,
      "loss": 108.3103,
      "step": 4987,
      "task_loss": 2.4171149730682373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9821092613859622,
      "compression/movement_sparsity/importance_threshold": -0.00011611348559073097,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9162210724462821,
      "compression/movement_sparsity/model_sparsity": 0.8847460599820496,
      "compression_loss": 103.86614990234375,
      "distillation_loss": 4.788578987121582,
      "epoch": 4.22,
      "learning_rate": 3.994051346274265e-05,
      "loss": 108.1849,
      "step": 4988,
      "task_loss": 4.36600923538208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9821669734014511,
      "compression/movement_sparsity/importance_threshold": -0.0001157389262489714,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9162360134283298,
      "compression/movement_sparsity/model_sparsity": 0.8847604876954,
      "compression_loss": 103.87147521972656,
      "distillation_loss": 3.356156587600708,
      "epoch": 4.22,
      "learning_rate": 3.993738259236068e-05,
      "loss": 107.6521,
      "step": 4989,
      "task_loss": 2.2674853801727295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9822245611715296,
      "compression/movement_sparsity/importance_threshold": -0.00011536517327792508,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9162767821574769,
      "compression/movement_sparsity/model_sparsity": 0.8847998558932816,
      "compression_loss": 103.87672424316406,
      "distillation_loss": 3.6069352626800537,
      "epoch": 4.22,
      "learning_rate": 3.993425172197871e-05,
      "loss": 108.1678,
      "step": 4990,
      "task_loss": 3.4576241970062256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9822820248300825,
      "compression/movement_sparsity/importance_threshold": -0.00011499222580866036,
      "compression/movement_sparsity/linear_layer_sparsity": 0.916248092610145,
      "compression/movement_sparsity/model_sparsity": 0.88477215192016,
      "compression_loss": 103.88203430175781,
      "distillation_loss": 3.751178741455078,
      "epoch": 4.22,
      "learning_rate": 3.993112085159675e-05,
      "loss": 107.8528,
      "step": 4991,
      "task_loss": 1.297133207321167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9823393645109953,
      "compression/movement_sparsity/importance_threshold": -0.0001146200829722421,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9162932017363115,
      "compression/movement_sparsity/model_sparsity": 0.8848157114090707,
      "compression_loss": 103.88727569580078,
      "distillation_loss": 5.279275894165039,
      "epoch": 4.22,
      "learning_rate": 3.992798998121478e-05,
      "loss": 108.1345,
      "step": 4992,
      "task_loss": 3.3542962074279785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9823965803481531,
      "compression/movement_sparsity/importance_threshold": -0.00011424874389973604,
      "compression/movement_sparsity/linear_layer_sparsity": 0.916348195997448,
      "compression/movement_sparsity/model_sparsity": 0.8848688164481552,
      "compression_loss": 103.89253234863281,
      "distillation_loss": 6.4365692138671875,
      "epoch": 4.22,
      "learning_rate": 3.9924859110832813e-05,
      "loss": 108.1277,
      "step": 4993,
      "task_loss": 3.56913685798645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9824536724754409,
      "compression/movement_sparsity/importance_threshold": -0.00011387820772220964,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9163849224337665,
      "compression/movement_sparsity/model_sparsity": 0.8849042812184024,
      "compression_loss": 103.89773559570312,
      "distillation_loss": 3.897648572921753,
      "epoch": 4.22,
      "learning_rate": 3.9921728240450845e-05,
      "loss": 108.2212,
      "step": 4994,
      "task_loss": 2.2362706661224365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9825106410267439,
      "compression/movement_sparsity/importance_threshold": -0.00011350847357072778,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9164331914643564,
      "compression/movement_sparsity/model_sparsity": 0.8849508920592987,
      "compression_loss": 103.9029541015625,
      "distillation_loss": 5.085212707519531,
      "epoch": 4.22,
      "learning_rate": 3.9918597370068884e-05,
      "loss": 107.7614,
      "step": 4995,
      "task_loss": 3.0172066688537598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9825674861359474,
      "compression/movement_sparsity/importance_threshold": -0.00011313954057635533,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9164508273082899,
      "compression/movement_sparsity/model_sparsity": 0.8849679220577388,
      "compression_loss": 103.90817260742188,
      "distillation_loss": 4.1353759765625,
      "epoch": 4.22,
      "learning_rate": 3.9915466499686916e-05,
      "loss": 107.5914,
      "step": 4996,
      "task_loss": 1.713090419769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9826242079369362,
      "compression/movement_sparsity/importance_threshold": -0.00011277140787016148,
      "compression/movement_sparsity/linear_layer_sparsity": 0.916520702930636,
      "compression/movement_sparsity/model_sparsity": 0.8850353972374948,
      "compression_loss": 103.91336059570312,
      "distillation_loss": 4.457376480102539,
      "epoch": 4.22,
      "learning_rate": 3.991233562930495e-05,
      "loss": 108.3833,
      "step": 4997,
      "task_loss": 3.1059889793395996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9826808065635957,
      "compression/movement_sparsity/importance_threshold": -0.00011240407458321024,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9165310411839763,
      "compression/movement_sparsity/model_sparsity": 0.8850453803400287,
      "compression_loss": 103.9184341430664,
      "distillation_loss": 5.591254234313965,
      "epoch": 4.22,
      "learning_rate": 3.990920475892298e-05,
      "loss": 108.6697,
      "step": 4998,
      "task_loss": 2.037196159362793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9827372821498109,
      "compression/movement_sparsity/importance_threshold": -0.00011203753984656822,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9165706532688627,
      "compression/movement_sparsity/model_sparsity": 0.8850836316279381,
      "compression_loss": 103.923583984375,
      "distillation_loss": 4.223067283630371,
      "epoch": 4.23,
      "learning_rate": 3.990607388854102e-05,
      "loss": 107.984,
      "step": 4999,
      "task_loss": 2.529996156692505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9827936348294671,
      "compression/movement_sparsity/importance_threshold": -0.00011167180279130027,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9165533274532878,
      "compression/movement_sparsity/model_sparsity": 0.8850669010074286,
      "compression_loss": 103.9287338256836,
      "distillation_loss": 4.936398506164551,
      "epoch": 4.23,
      "learning_rate": 3.990294301815905e-05,
      "loss": 107.7701,
      "step": 5000,
      "task_loss": 3.2203876972198486
    },
    {
      "epoch": 4.23,
      "eval_accuracy": 0.5398019801980198,
      "eval_loss": 108.07545471191406,
      "eval_runtime": 209.8513,
      "eval_samples_per_second": 120.323,
      "eval_steps_per_second": 0.944,
      "step": 5000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9828498647364494,
      "compression/movement_sparsity/importance_threshold": -0.00011130686254847387,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9165707725105391,
      "compression/movement_sparsity/model_sparsity": 0.885083746773296,
      "compression_loss": 103.93382263183594,
      "distillation_loss": 4.227768421173096,
      "epoch": 4.23,
      "learning_rate": 3.989981214777708e-05,
      "loss": 108.4991,
      "step": 5001,
      "task_loss": 1.7458736896514893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9829059720046428,
      "compression/movement_sparsity/importance_threshold": -0.00011094271824915476,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9166287955102551,
      "compression/movement_sparsity/model_sparsity": 0.8851397765044723,
      "compression_loss": 103.93889617919922,
      "distillation_loss": 5.8764448165893555,
      "epoch": 4.23,
      "learning_rate": 3.989668127739512e-05,
      "loss": 108.2658,
      "step": 5002,
      "task_loss": 3.405597448348999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9829619567679325,
      "compression/movement_sparsity/importance_threshold": -0.00011057936902440866,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9165896842404095,
      "compression/movement_sparsity/model_sparsity": 0.8851020088270661,
      "compression_loss": 103.94393920898438,
      "distillation_loss": 4.89530611038208,
      "epoch": 4.23,
      "learning_rate": 3.989355040701315e-05,
      "loss": 108.0413,
      "step": 5003,
      "task_loss": 1.6211191415786743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9830178191602038,
      "compression/movement_sparsity/importance_threshold": -0.00011021681400530132,
      "compression/movement_sparsity/linear_layer_sparsity": 0.916676706815816,
      "compression/movement_sparsity/model_sparsity": 0.8851860419092947,
      "compression_loss": 103.94903564453125,
      "distillation_loss": 4.2180681228637695,
      "epoch": 4.23,
      "learning_rate": 3.989041953663118e-05,
      "loss": 108.4965,
      "step": 5004,
      "task_loss": 1.9761581420898438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9830735593153417,
      "compression/movement_sparsity/importance_threshold": -0.00010985505232289933,
      "compression/movement_sparsity/linear_layer_sparsity": 0.916728875049223,
      "compression/movement_sparsity/model_sparsity": 0.8852364180033958,
      "compression_loss": 103.95413208007812,
      "distillation_loss": 5.20725154876709,
      "epoch": 4.23,
      "learning_rate": 3.9887288666249215e-05,
      "loss": 108.7808,
      "step": 5005,
      "task_loss": 2.0161399841308594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9831291773672313,
      "compression/movement_sparsity/importance_threshold": -0.00010949408310826931,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9167800774250514,
      "compression/movement_sparsity/model_sparsity": 0.8852858614200976,
      "compression_loss": 103.95917510986328,
      "distillation_loss": 4.589644432067871,
      "epoch": 4.23,
      "learning_rate": 3.9884157795867254e-05,
      "loss": 108.0629,
      "step": 5006,
      "task_loss": 3.0137059688568115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9831846734497577,
      "compression/movement_sparsity/importance_threshold": -0.00010913390549247698,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9168093154840945,
      "compression/movement_sparsity/model_sparsity": 0.8853140950618659,
      "compression_loss": 103.96422576904297,
      "distillation_loss": 3.661501884460449,
      "epoch": 4.23,
      "learning_rate": 3.9881026925485285e-05,
      "loss": 107.7047,
      "step": 5007,
      "task_loss": 1.3542741537094116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9832400476968063,
      "compression/movement_sparsity/importance_threshold": -0.00010877451860658634,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9168352505487025,
      "compression/movement_sparsity/model_sparsity": 0.885339139177219,
      "compression_loss": 103.96916198730469,
      "distillation_loss": 3.885293483734131,
      "epoch": 4.23,
      "learning_rate": 3.987789605510332e-05,
      "loss": 108.1216,
      "step": 5008,
      "task_loss": 1.9020805358886719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.983295300242262,
      "compression/movement_sparsity/importance_threshold": -0.00010841592158166661,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9168307789858391,
      "compression/movement_sparsity/model_sparsity": 0.885334821226296,
      "compression_loss": 103.97418975830078,
      "distillation_loss": 5.124056816101074,
      "epoch": 4.23,
      "learning_rate": 3.987476518472135e-05,
      "loss": 108.2864,
      "step": 5009,
      "task_loss": 2.263322353363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.98335043122001,
      "compression/movement_sparsity/importance_threshold": -0.00010805811354878177,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169002849589885,
      "compression/movement_sparsity/model_sparsity": 0.8854019394554423,
      "compression_loss": 103.9791488647461,
      "distillation_loss": 4.618778228759766,
      "epoch": 4.23,
      "learning_rate": 3.987163431433939e-05,
      "loss": 108.118,
      "step": 5010,
      "task_loss": 2.697439432144165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9834054407639355,
      "compression/movement_sparsity/importance_threshold": -0.00010770109363899757,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169141408417814,
      "compression/movement_sparsity/model_sparsity": 0.8854153193460357,
      "compression_loss": 103.9841079711914,
      "distillation_loss": 3.3176939487457275,
      "epoch": 4.24,
      "learning_rate": 3.986850344395742e-05,
      "loss": 107.6461,
      "step": 5011,
      "task_loss": 2.554422378540039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9834603290079236,
      "compression/movement_sparsity/importance_threshold": -0.00010734486098338148,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169410417639678,
      "compression/movement_sparsity/model_sparsity": 0.8854412961387881,
      "compression_loss": 103.989013671875,
      "distillation_loss": 4.895946025848389,
      "epoch": 4.24,
      "learning_rate": 3.986537257357546e-05,
      "loss": 107.8552,
      "step": 5012,
      "task_loss": 1.8799270391464233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9835150960858594,
      "compression/movement_sparsity/importance_threshold": -0.00010698941471299923,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169195782622234,
      "compression/movement_sparsity/model_sparsity": 0.8854205699743579,
      "compression_loss": 103.99386596679688,
      "distillation_loss": 4.393520355224609,
      "epoch": 4.24,
      "learning_rate": 3.986224170319349e-05,
      "loss": 108.4448,
      "step": 5013,
      "task_loss": 2.076082229614258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9835697421316282,
      "compression/movement_sparsity/importance_threshold": -0.00010663475395891568,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9168951575669051,
      "compression/movement_sparsity/model_sparsity": 0.8853969882050508,
      "compression_loss": 103.99878692626953,
      "distillation_loss": 3.6827821731567383,
      "epoch": 4.24,
      "learning_rate": 3.985911083281152e-05,
      "loss": 107.239,
      "step": 5014,
      "task_loss": 2.2017860412597656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9836242672791149,
      "compression/movement_sparsity/importance_threshold": -0.00010628087785219831,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169780305319744,
      "compression/movement_sparsity/model_sparsity": 0.8854770142288227,
      "compression_loss": 104.003662109375,
      "distillation_loss": 5.0807695388793945,
      "epoch": 4.24,
      "learning_rate": 3.985597996242956e-05,
      "loss": 108.4338,
      "step": 5015,
      "task_loss": 2.5333874225616455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9836786716622047,
      "compression/movement_sparsity/importance_threshold": -0.00010592778552391373,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169399566647131,
      "compression/movement_sparsity/model_sparsity": 0.8854402483160309,
      "compression_loss": 104.00849151611328,
      "distillation_loss": 5.466082572937012,
      "epoch": 4.24,
      "learning_rate": 3.985284909204759e-05,
      "loss": 108.0936,
      "step": 5016,
      "task_loss": 2.7008936405181885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9837329554147829,
      "compression/movement_sparsity/importance_threshold": -0.00010557547610512506,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9169859481792846,
      "compression/movement_sparsity/model_sparsity": 0.8854846598805903,
      "compression_loss": 104.01339721679688,
      "distillation_loss": 5.272060394287109,
      "epoch": 4.24,
      "learning_rate": 3.984971822166563e-05,
      "loss": 108.5074,
      "step": 5017,
      "task_loss": 2.441253662109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9837871186707345,
      "compression/movement_sparsity/importance_threshold": -0.0001052239487269015,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91705466715737,
      "compression/movement_sparsity/model_sparsity": 0.8855510181503743,
      "compression_loss": 104.01817321777344,
      "distillation_loss": 4.43195104598999,
      "epoch": 4.24,
      "learning_rate": 3.984658735128366e-05,
      "loss": 108.1,
      "step": 5018,
      "task_loss": 3.2911996841430664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9838411615639447,
      "compression/movement_sparsity/importance_threshold": -0.00010487320252030707,
      "compression/movement_sparsity/linear_layer_sparsity": 0.917031975466359,
      "compression/movement_sparsity/model_sparsity": 0.8855291059887572,
      "compression_loss": 104.02308654785156,
      "distillation_loss": 4.403872489929199,
      "epoch": 4.24,
      "learning_rate": 3.9843456480901694e-05,
      "loss": 108.5147,
      "step": 5019,
      "task_loss": 3.073835849761963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9838950842282987,
      "compression/movement_sparsity/importance_threshold": -0.00010452323661640749,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9171436452962688,
      "compression/movement_sparsity/model_sparsity": 0.8856369396164732,
      "compression_loss": 104.02796936035156,
      "distillation_loss": 5.214191913604736,
      "epoch": 4.24,
      "learning_rate": 3.9840325610519726e-05,
      "loss": 108.2093,
      "step": 5020,
      "task_loss": 3.1473560333251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9839488867976816,
      "compression/movement_sparsity/importance_threshold": -0.0001041740501462711,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9171572865440443,
      "compression/movement_sparsity/model_sparsity": 0.8856501122454221,
      "compression_loss": 104.03280639648438,
      "distillation_loss": 4.2972941398620605,
      "epoch": 4.24,
      "learning_rate": 3.9837194740137764e-05,
      "loss": 107.9438,
      "step": 5021,
      "task_loss": 2.3091886043548584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9840025694059783,
      "compression/movement_sparsity/importance_threshold": -0.00010382564224096277,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9172569487371448,
      "compression/movement_sparsity/model_sparsity": 0.8857463507355928,
      "compression_loss": 104.03767395019531,
      "distillation_loss": 3.515420913696289,
      "epoch": 4.24,
      "learning_rate": 3.9834063869755796e-05,
      "loss": 108.5451,
      "step": 5022,
      "task_loss": 1.6604052782058716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9840561321870743,
      "compression/movement_sparsity/importance_threshold": -0.00010347801203154736,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9172771125046171,
      "compression/movement_sparsity/model_sparsity": 0.8857658218156215,
      "compression_loss": 104.04249572753906,
      "distillation_loss": 3.835801601409912,
      "epoch": 4.25,
      "learning_rate": 3.983093299937383e-05,
      "loss": 107.7302,
      "step": 5023,
      "task_loss": 1.392683506011963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9841095752748545,
      "compression/movement_sparsity/importance_threshold": -0.00010313115864909236,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91728022471237,
      "compression/movement_sparsity/model_sparsity": 0.8857688271094638,
      "compression_loss": 104.04731750488281,
      "distillation_loss": 4.611047744750977,
      "epoch": 4.25,
      "learning_rate": 3.982780212899186e-05,
      "loss": 108.0716,
      "step": 5024,
      "task_loss": 2.53863525390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9841628988032042,
      "compression/movement_sparsity/importance_threshold": -0.00010278508122466435,
      "compression/movement_sparsity/linear_layer_sparsity": 0.917294271381845,
      "compression/movement_sparsity/model_sparsity": 0.8857823912326298,
      "compression_loss": 104.05213165283203,
      "distillation_loss": 5.072144031524658,
      "epoch": 4.25,
      "learning_rate": 3.98246712586099e-05,
      "loss": 108.5776,
      "step": 5025,
      "task_loss": 3.0825793743133545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9842161029060085,
      "compression/movement_sparsity/importance_threshold": -0.00010243977888932648,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9172901217715078,
      "compression/movement_sparsity/model_sparsity": 0.8857783841741733,
      "compression_loss": 104.0569076538086,
      "distillation_loss": 4.703003883361816,
      "epoch": 4.25,
      "learning_rate": 3.982154038822793e-05,
      "loss": 108.384,
      "step": 5026,
      "task_loss": 2.5511415004730225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9842691877171524,
      "compression/movement_sparsity/importance_threshold": -0.00010209525077414794,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9172911710982597,
      "compression/movement_sparsity/model_sparsity": 0.8857793974533232,
      "compression_loss": 104.06168365478516,
      "distillation_loss": 3.736344337463379,
      "epoch": 4.25,
      "learning_rate": 3.981840951784596e-05,
      "loss": 107.3874,
      "step": 5027,
      "task_loss": 2.4716603755950928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9843221533705212,
      "compression/movement_sparsity/importance_threshold": -0.0001017514960101936,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9173552873476377,
      "compression/movement_sparsity/model_sparsity": 0.8858413111122905,
      "compression_loss": 104.06636810302734,
      "distillation_loss": 6.079329490661621,
      "epoch": 4.25,
      "learning_rate": 3.9815278647464e-05,
      "loss": 108.9459,
      "step": 5028,
      "task_loss": 2.815108299255371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.984375,
      "compression/movement_sparsity/importance_threshold": -0.00010140851372852921,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174228735297978,
      "compression/movement_sparsity/model_sparsity": 0.8859065755011739,
      "compression_loss": 104.07112121582031,
      "distillation_loss": 6.458298683166504,
      "epoch": 4.25,
      "learning_rate": 3.981214777708203e-05,
      "loss": 109.1093,
      "step": 5029,
      "task_loss": 3.5163261890411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.984427727739474,
      "compression/movement_sparsity/importance_threshold": -0.0001010663030602205,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174192605070042,
      "compression/movement_sparsity/model_sparsity": 0.8859030865968281,
      "compression_loss": 104.07576751708984,
      "distillation_loss": 4.109910011291504,
      "epoch": 4.25,
      "learning_rate": 3.9809016906700064e-05,
      "loss": 108.4735,
      "step": 5030,
      "task_loss": 1.9316366910934448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9844803367228281,
      "compression/movement_sparsity/importance_threshold": -0.00010072486313633493,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174607327620417,
      "compression/movement_sparsity/model_sparsity": 0.8859431341523216,
      "compression_loss": 104.08047485351562,
      "distillation_loss": 3.532179594039917,
      "epoch": 4.25,
      "learning_rate": 3.9805886036318096e-05,
      "loss": 107.8277,
      "step": 5031,
      "task_loss": 1.658061146736145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9845328270839477,
      "compression/movement_sparsity/importance_threshold": -0.00010038419308793737,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174726330813423,
      "compression/movement_sparsity/model_sparsity": 0.8859546256590445,
      "compression_loss": 104.0851821899414,
      "distillation_loss": 5.00424861907959,
      "epoch": 4.25,
      "learning_rate": 3.9802755165936134e-05,
      "loss": 108.7641,
      "step": 5032,
      "task_loss": 2.905059576034546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9845851989567178,
      "compression/movement_sparsity/importance_threshold": -0.00010004429204609443,
      "compression/movement_sparsity/linear_layer_sparsity": 0.917447329997619,
      "compression/movement_sparsity/model_sparsity": 0.8859301918140885,
      "compression_loss": 104.08989715576172,
      "distillation_loss": 3.9594838619232178,
      "epoch": 4.25,
      "learning_rate": 3.9799624295554166e-05,
      "loss": 107.4876,
      "step": 5033,
      "task_loss": 2.8640480041503906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9846374524750237,
      "compression/movement_sparsity/importance_threshold": -9.970515914187184e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174743501614818,
      "compression/movement_sparsity/model_sparsity": 0.8859562837521989,
      "compression_loss": 104.09455108642578,
      "distillation_loss": 4.6003313064575195,
      "epoch": 4.26,
      "learning_rate": 3.97964934251722e-05,
      "loss": 108.484,
      "step": 5034,
      "task_loss": 2.2449417114257812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9846895877727504,
      "compression/movement_sparsity/importance_threshold": -9.936679350633533e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175219037420137,
      "compression/movement_sparsity/model_sparsity": 0.8860022037209476,
      "compression_loss": 104.0992202758789,
      "distillation_loss": 5.187588691711426,
      "epoch": 4.26,
      "learning_rate": 3.979336255479023e-05,
      "loss": 107.7905,
      "step": 5035,
      "task_loss": 2.2710602283477783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.984741604983783,
      "compression/movement_sparsity/importance_threshold": -9.902919427055065e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174951459098388,
      "compression/movement_sparsity/model_sparsity": 0.8859763651026247,
      "compression_loss": 104.10395812988281,
      "distillation_loss": 4.3893632888793945,
      "epoch": 4.26,
      "learning_rate": 3.979023168440827e-05,
      "loss": 108.8009,
      "step": 5036,
      "task_loss": 2.8516039848327637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9847935042420068,
      "compression/movement_sparsity/importance_threshold": -9.869236056558525e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175476837924424,
      "compression/movement_sparsity/model_sparsity": 0.8860270981473354,
      "compression_loss": 104.10865783691406,
      "distillation_loss": 4.754683494567871,
      "epoch": 4.26,
      "learning_rate": 3.97871008140263e-05,
      "loss": 108.6595,
      "step": 5037,
      "task_loss": 2.6667327880859375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9848452856813068,
      "compression/movement_sparsity/importance_threshold": -9.835629152250489e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175121140003846,
      "compression/movement_sparsity/model_sparsity": 0.8859927502870603,
      "compression_loss": 104.1132583618164,
      "distillation_loss": 4.137458801269531,
      "epoch": 4.26,
      "learning_rate": 3.978396994364433e-05,
      "loss": 108.7001,
      "step": 5038,
      "task_loss": 1.9446316957473755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9848969494355683,
      "compression/movement_sparsity/importance_threshold": -9.802098627237441e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174635468656037,
      "compression/movement_sparsity/model_sparsity": 0.8859458515827691,
      "compression_loss": 104.11792755126953,
      "distillation_loss": 4.700922012329102,
      "epoch": 4.26,
      "learning_rate": 3.978083907326237e-05,
      "loss": 108.2979,
      "step": 5039,
      "task_loss": 2.640299081802368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9849484956386761,
      "compression/movement_sparsity/importance_threshold": -9.76864439462613e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174635587897714,
      "compression/movement_sparsity/model_sparsity": 0.8859458630973048,
      "compression_loss": 104.12250518798828,
      "distillation_loss": 4.564892768859863,
      "epoch": 4.26,
      "learning_rate": 3.97777082028804e-05,
      "loss": 108.3729,
      "step": 5040,
      "task_loss": 1.5986037254333496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9849999244245158,
      "compression/movement_sparsity/importance_threshold": -9.735266367522956e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174880391059278,
      "compression/movement_sparsity/model_sparsity": 0.8859695024392911,
      "compression_loss": 104.12715148925781,
      "distillation_loss": 4.59499454498291,
      "epoch": 4.26,
      "learning_rate": 3.9774577332498434e-05,
      "loss": 108.4984,
      "step": 5041,
      "task_loss": 2.0734610557556152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9850512359269723,
      "compression/movement_sparsity/importance_threshold": -9.701964459034752e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175072012433186,
      "compression/movement_sparsity/model_sparsity": 0.8859880062983129,
      "compression_loss": 104.13180541992188,
      "distillation_loss": 3.9584884643554688,
      "epoch": 4.26,
      "learning_rate": 3.9771446462116466e-05,
      "loss": 107.8022,
      "step": 5042,
      "task_loss": 1.5910801887512207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9851024302799307,
      "compression/movement_sparsity/importance_threshold": -9.668738582267918e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174326632714269,
      "compression/movement_sparsity/model_sparsity": 0.8859160289350613,
      "compression_loss": 104.13646697998047,
      "distillation_loss": 3.403926372528076,
      "epoch": 4.26,
      "learning_rate": 3.9768315591734504e-05,
      "loss": 108.2899,
      "step": 5043,
      "task_loss": 1.6858471632003784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9851535076172762,
      "compression/movement_sparsity/importance_threshold": -9.635588650329287e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174275120310081,
      "compression/movement_sparsity/model_sparsity": 0.8859110546555979,
      "compression_loss": 104.14115905761719,
      "distillation_loss": 5.166037559509277,
      "epoch": 4.26,
      "learning_rate": 3.9765184721352536e-05,
      "loss": 107.9853,
      "step": 5044,
      "task_loss": 1.783414602279663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.985204468072894,
      "compression/movement_sparsity/importance_threshold": -9.602514576325261e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174837941022495,
      "compression/movement_sparsity/model_sparsity": 0.8859654032645482,
      "compression_loss": 104.14583587646484,
      "distillation_loss": 4.999764442443848,
      "epoch": 4.26,
      "learning_rate": 3.976205385097057e-05,
      "loss": 107.8902,
      "step": 5045,
      "task_loss": 2.5062742233276367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.985255311780669,
      "compression/movement_sparsity/importance_threshold": -9.569516273362586e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175154646914903,
      "compression/movement_sparsity/model_sparsity": 0.8859959858716185,
      "compression_loss": 104.15040588378906,
      "distillation_loss": 5.315682411193848,
      "epoch": 4.27,
      "learning_rate": 3.9758922980588606e-05,
      "loss": 107.8609,
      "step": 5046,
      "task_loss": 3.308912754058838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9853060388744866,
      "compression/movement_sparsity/importance_threshold": -9.536593654547836e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9174842710689549,
      "compression/movement_sparsity/model_sparsity": 0.88596586384598,
      "compression_loss": 104.15495300292969,
      "distillation_loss": 3.9123940467834473,
      "epoch": 4.27,
      "learning_rate": 3.975579211020664e-05,
      "loss": 107.6444,
      "step": 5047,
      "task_loss": 2.040376663208008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.985356649488232,
      "compression/movement_sparsity/importance_threshold": -9.503746632987496e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175080120867178,
      "compression/movement_sparsity/model_sparsity": 0.885988789286747,
      "compression_loss": 104.15955352783203,
      "distillation_loss": 4.720516204833984,
      "epoch": 4.27,
      "learning_rate": 3.975266123982468e-05,
      "loss": 108.6369,
      "step": 5048,
      "task_loss": 3.330561399459839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9854071437557902,
      "compression/movement_sparsity/importance_threshold": -9.470975121788142e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9175350560989161,
      "compression/movement_sparsity/model_sparsity": 0.8860149042539289,
      "compression_loss": 104.16403198242188,
      "distillation_loss": 4.9318132400512695,
      "epoch": 4.27,
      "learning_rate": 3.974953036944271e-05,
      "loss": 108.7753,
      "step": 5049,
      "task_loss": 1.9558342695236206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9854575218110462,
      "compression/movement_sparsity/importance_threshold": -9.438279034056692e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9176708127474503,
      "compression/movement_sparsity/model_sparsity": 0.8861459972439498,
      "compression_loss": 104.16854858398438,
      "distillation_loss": 5.18118143081665,
      "epoch": 4.27,
      "learning_rate": 3.974639949906074e-05,
      "loss": 108.2573,
      "step": 5050,
      "task_loss": 1.6404415369033813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9855077837878853,
      "compression/movement_sparsity/importance_threshold": -9.405658282899548e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.917701112057413,
      "compression/movement_sparsity/model_sparsity": 0.8861752556794037,
      "compression_loss": 104.17300415039062,
      "distillation_loss": 3.054823160171509,
      "epoch": 4.27,
      "learning_rate": 3.974326862867878e-05,
      "loss": 107.8925,
      "step": 5051,
      "task_loss": 1.5822772979736328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9855579298201926,
      "compression/movement_sparsity/importance_threshold": -9.373112781423196e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9176668181512924,
      "compression/movement_sparsity/model_sparsity": 0.8861421398744587,
      "compression_loss": 104.17745971679688,
      "distillation_loss": 5.718256950378418,
      "epoch": 4.27,
      "learning_rate": 3.974013775829681e-05,
      "loss": 108.5828,
      "step": 5052,
      "task_loss": 3.199431896209717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9856079600418534,
      "compression/movement_sparsity/importance_threshold": -9.34064244273447e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9177359306269097,
      "compression/movement_sparsity/model_sparsity": 0.8862088781239238,
      "compression_loss": 104.18195343017578,
      "distillation_loss": 5.491251468658447,
      "epoch": 4.27,
      "learning_rate": 3.973700688791484e-05,
      "loss": 108.7505,
      "step": 5053,
      "task_loss": 2.5815393924713135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9856578745867526,
      "compression/movement_sparsity/importance_threshold": -9.30824717993977e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9177675773678153,
      "compression/movement_sparsity/model_sparsity": 0.8862394377019225,
      "compression_loss": 104.18641662597656,
      "distillation_loss": 3.4561750888824463,
      "epoch": 4.27,
      "learning_rate": 3.973387601753288e-05,
      "loss": 108.1118,
      "step": 5054,
      "task_loss": 1.6874794960021973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9857076735887755,
      "compression/movement_sparsity/importance_threshold": -9.275926906145756e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9177634277574781,
      "compression/movement_sparsity/model_sparsity": 0.886235430643466,
      "compression_loss": 104.19083404541016,
      "distillation_loss": 4.959413528442383,
      "epoch": 4.27,
      "learning_rate": 3.973074514715091e-05,
      "loss": 108.8327,
      "step": 5055,
      "task_loss": 2.0234594345092773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9857573571818071,
      "compression/movement_sparsity/importance_threshold": -9.243681534459175e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9178489121152595,
      "compression/movement_sparsity/model_sparsity": 0.886317978350577,
      "compression_loss": 104.19525146484375,
      "distillation_loss": 3.9742801189422607,
      "epoch": 4.27,
      "learning_rate": 3.9727614276768944e-05,
      "loss": 108.5353,
      "step": 5056,
      "task_loss": 2.481740951538086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9858069254997327,
      "compression/movement_sparsity/importance_threshold": -9.211510977986514e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9178362844217332,
      "compression/movement_sparsity/model_sparsity": 0.8863057844571707,
      "compression_loss": 104.19966125488281,
      "distillation_loss": 5.121835231781006,
      "epoch": 4.27,
      "learning_rate": 3.9724483406386976e-05,
      "loss": 108.5877,
      "step": 5057,
      "task_loss": 2.950498104095459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9858563786764374,
      "compression/movement_sparsity/importance_threshold": -9.179415149834346e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9179445320155316,
      "compression/movement_sparsity/model_sparsity": 0.8864103134131135,
      "compression_loss": 104.20401763916016,
      "distillation_loss": 3.589249610900879,
      "epoch": 4.28,
      "learning_rate": 3.9721352536005015e-05,
      "loss": 108.271,
      "step": 5058,
      "task_loss": 1.2893792390823364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9859057168458063,
      "compression/movement_sparsity/importance_threshold": -9.147393963109332e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9179079248208895,
      "compression/movement_sparsity/model_sparsity": 0.8863749637882242,
      "compression_loss": 104.20845031738281,
      "distillation_loss": 5.425156593322754,
      "epoch": 4.28,
      "learning_rate": 3.9718221665623047e-05,
      "loss": 108.5011,
      "step": 5059,
      "task_loss": 3.690537452697754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9859549401417245,
      "compression/movement_sparsity/importance_threshold": -9.115447330918045e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9178764211699955,
      "compression/movement_sparsity/model_sparsity": 0.8863445423846551,
      "compression_loss": 104.21281433105469,
      "distillation_loss": 4.282351493835449,
      "epoch": 4.28,
      "learning_rate": 3.971509079524108e-05,
      "loss": 108.1632,
      "step": 5060,
      "task_loss": 1.8809864521026611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9860040486980772,
      "compression/movement_sparsity/importance_threshold": -9.083575166367146e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9180074677723137,
      "compression/movement_sparsity/model_sparsity": 0.886471087133037,
      "compression_loss": 104.21723937988281,
      "distillation_loss": 4.14516019821167,
      "epoch": 4.28,
      "learning_rate": 3.971195992485911e-05,
      "loss": 108.6345,
      "step": 5061,
      "task_loss": 2.067247152328491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9860530426487495,
      "compression/movement_sparsity/importance_threshold": -9.051777382563207e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9179175595483392,
      "compression/movement_sparsity/model_sparsity": 0.8863842675331463,
      "compression_loss": 104.22159576416016,
      "distillation_loss": 4.084898471832275,
      "epoch": 4.28,
      "learning_rate": 3.970882905447715e-05,
      "loss": 108.5845,
      "step": 5062,
      "task_loss": 2.281670093536377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9861019221276266,
      "compression/movement_sparsity/importance_threshold": -9.020053892612803e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9179651846738769,
      "compression/movement_sparsity/model_sparsity": 0.8864302565891097,
      "compression_loss": 104.22602844238281,
      "distillation_loss": 3.6763787269592285,
      "epoch": 4.28,
      "learning_rate": 3.970569818409518e-05,
      "loss": 108.622,
      "step": 5063,
      "task_loss": 2.013502836227417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9861506872685937,
      "compression/movement_sparsity/importance_threshold": -8.988404609622507e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9180098168333379,
      "compression/movement_sparsity/model_sparsity": 0.8864733554965886,
      "compression_loss": 104.23035430908203,
      "distillation_loss": 5.560120105743408,
      "epoch": 4.28,
      "learning_rate": 3.970256731371321e-05,
      "loss": 108.7807,
      "step": 5064,
      "task_loss": 3.63095760345459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9861993382055357,
      "compression/movement_sparsity/importance_threshold": -8.95682944669898e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9180860718853693,
      "compression/movement_sparsity/model_sparsity": 0.8865469909529947,
      "compression_loss": 104.23475646972656,
      "distillation_loss": 5.780068874359131,
      "epoch": 4.28,
      "learning_rate": 3.969943644333125e-05,
      "loss": 108.8768,
      "step": 5065,
      "task_loss": 2.7239954471588135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9862478750723379,
      "compression/movement_sparsity/importance_threshold": -8.925328316948967e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.918116240029488,
      "compression/movement_sparsity/model_sparsity": 0.8865761227285549,
      "compression_loss": 104.23910522460938,
      "distillation_loss": 4.49990701675415,
      "epoch": 4.28,
      "learning_rate": 3.969630557294928e-05,
      "loss": 108.4306,
      "step": 5066,
      "task_loss": 3.3361992835998535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9862962980028855,
      "compression/movement_sparsity/importance_threshold": -8.893901133478783e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9182045504149992,
      "compression/movement_sparsity/model_sparsity": 0.8866613993806493,
      "compression_loss": 104.24349975585938,
      "distillation_loss": 5.493678092956543,
      "epoch": 4.28,
      "learning_rate": 3.9693174702567314e-05,
      "loss": 108.4799,
      "step": 5067,
      "task_loss": 2.815937042236328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9863446071310636,
      "compression/movement_sparsity/importance_threshold": -8.862547809395174e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9182413006996529,
      "compression/movement_sparsity/model_sparsity": 0.886696887179968,
      "compression_loss": 104.24786376953125,
      "distillation_loss": 5.124921798706055,
      "epoch": 4.28,
      "learning_rate": 3.9690043832185346e-05,
      "loss": 108.559,
      "step": 5068,
      "task_loss": 3.1392881870269775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9863928025907573,
      "compression/movement_sparsity/importance_threshold": -8.831268257804715e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9182994071685425,
      "compression/movement_sparsity/model_sparsity": 0.8867529975128948,
      "compression_loss": 104.25225067138672,
      "distillation_loss": 3.531829357147217,
      "epoch": 4.28,
      "learning_rate": 3.9686912961803385e-05,
      "loss": 108.1634,
      "step": 5069,
      "task_loss": 1.6838289499282837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9864408845158518,
      "compression/movement_sparsity/importance_threshold": -8.800062391814151e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183497748526364,
      "compression/movement_sparsity/model_sparsity": 0.886801634912091,
      "compression_loss": 104.25662231445312,
      "distillation_loss": 4.779000282287598,
      "epoch": 4.29,
      "learning_rate": 3.9683782091421416e-05,
      "loss": 108.3984,
      "step": 5070,
      "task_loss": 2.8112823963165283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.986488853040232,
      "compression/movement_sparsity/importance_threshold": -8.768930124529971e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.91837290773785,
      "compression/movement_sparsity/model_sparsity": 0.8868239731115324,
      "compression_loss": 104.26090240478516,
      "distillation_loss": 4.0896077156066895,
      "epoch": 4.29,
      "learning_rate": 3.968065122103945e-05,
      "loss": 108.7024,
      "step": 5071,
      "task_loss": 2.6036698818206787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9865367082977834,
      "compression/movement_sparsity/importance_threshold": -8.737871369058747e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183422626270258,
      "compression/movement_sparsity/model_sparsity": 0.8867943807545404,
      "compression_loss": 104.26522064208984,
      "distillation_loss": 7.411805629730225,
      "epoch": 4.29,
      "learning_rate": 3.967752035065748e-05,
      "loss": 109.2056,
      "step": 5072,
      "task_loss": 3.96777081489563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.986584450422391,
      "compression/movement_sparsity/importance_threshold": -8.706886038507052e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183389119359201,
      "compression/movement_sparsity/model_sparsity": 0.8867911451699821,
      "compression_loss": 104.26956176757812,
      "distillation_loss": 4.931956768035889,
      "epoch": 4.29,
      "learning_rate": 3.967438948027552e-05,
      "loss": 108.3339,
      "step": 5073,
      "task_loss": 2.742826223373413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9866320795479399,
      "compression/movement_sparsity/importance_threshold": -8.675974045981635e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184445362128386,
      "compression/movement_sparsity/model_sparsity": 0.8868931409280502,
      "compression_loss": 104.27384185791016,
      "distillation_loss": 5.282876968383789,
      "epoch": 4.29,
      "learning_rate": 3.967125860989355e-05,
      "loss": 108.5676,
      "step": 5074,
      "task_loss": 3.7570106983184814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9866795958083151,
      "compression/movement_sparsity/importance_threshold": -8.645135304589067e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.918458439792302,
      "compression/movement_sparsity/model_sparsity": 0.8869065668767866,
      "compression_loss": 104.27810668945312,
      "distillation_loss": 4.307097434997559,
      "epoch": 4.29,
      "learning_rate": 3.966812773951158e-05,
      "loss": 109.0045,
      "step": 5075,
      "task_loss": 2.4788126945495605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.986726999337402,
      "compression/movement_sparsity/importance_threshold": -8.614369727435751e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184363920063433,
      "compression/movement_sparsity/model_sparsity": 0.8868852765001025,
      "compression_loss": 104.28236389160156,
      "distillation_loss": 4.750248432159424,
      "epoch": 4.29,
      "learning_rate": 3.966499686912962e-05,
      "loss": 107.8227,
      "step": 5076,
      "task_loss": 1.8645951747894287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9867742902690857,
      "compression/movement_sparsity/importance_threshold": -8.583677227628605e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184524180876459,
      "compression/movement_sparsity/model_sparsity": 0.8869007520362103,
      "compression_loss": 104.28660583496094,
      "distillation_loss": 4.815167427062988,
      "epoch": 4.29,
      "learning_rate": 3.966186599874765e-05,
      "loss": 108.3873,
      "step": 5077,
      "task_loss": 2.5902302265167236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9868214687372513,
      "compression/movement_sparsity/importance_threshold": -8.553057718273943e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184281762548422,
      "compression/movement_sparsity/model_sparsity": 0.88687734298494,
      "compression_loss": 104.29078674316406,
      "distillation_loss": 3.261777877807617,
      "epoch": 4.29,
      "learning_rate": 3.9658735128365684e-05,
      "loss": 108.3348,
      "step": 5078,
      "task_loss": 1.3576774597167969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9868685348757839,
      "compression/movement_sparsity/importance_threshold": -8.5225111124786e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184007625934473,
      "compression/movement_sparsity/model_sparsity": 0.8868508710671484,
      "compression_loss": 104.29499053955078,
      "distillation_loss": 3.8613195419311523,
      "epoch": 4.29,
      "learning_rate": 3.965560425798372e-05,
      "loss": 108.9398,
      "step": 5079,
      "task_loss": 2.4497485160827637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9869154888185686,
      "compression/movement_sparsity/importance_threshold": -8.492037323348973e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183799191484199,
      "compression/movement_sparsity/model_sparsity": 0.8868307436585795,
      "compression_loss": 104.2992172241211,
      "distillation_loss": 3.258310317993164,
      "epoch": 4.29,
      "learning_rate": 3.9652473387601755e-05,
      "loss": 108.2256,
      "step": 5080,
      "task_loss": 1.3851344585418701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9869623306994906,
      "compression/movement_sparsity/importance_threshold": -8.4616362639919e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183625217878391,
      "compression/movement_sparsity/model_sparsity": 0.8868139439508553,
      "compression_loss": 104.3034439086914,
      "distillation_loss": 5.044925689697266,
      "epoch": 4.29,
      "learning_rate": 3.9649342517219786e-05,
      "loss": 108.6804,
      "step": 5081,
      "task_loss": 2.8143155574798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9870090606524351,
      "compression/movement_sparsity/importance_threshold": -8.431307847513777e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9183735158703994,
      "compression/movement_sparsity/model_sparsity": 0.8868245603528578,
      "compression_loss": 104.30757904052734,
      "distillation_loss": 4.711147785186768,
      "epoch": 4.3,
      "learning_rate": 3.9646211646837825e-05,
      "loss": 108.8979,
      "step": 5082,
      "task_loss": 2.4021050930023193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9870556788112871,
      "compression/movement_sparsity/importance_threshold": -8.401051987021353e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184330890119081,
      "compression/movement_sparsity/model_sparsity": 0.8868820869736874,
      "compression_loss": 104.31172180175781,
      "distillation_loss": 5.489914894104004,
      "epoch": 4.3,
      "learning_rate": 3.964308077645586e-05,
      "loss": 109.1895,
      "step": 5083,
      "task_loss": 2.72745680809021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9871021853099319,
      "compression/movement_sparsity/importance_threshold": -8.370868595621115e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9184318846709769,
      "compression/movement_sparsity/model_sparsity": 0.8868809240055722,
      "compression_loss": 104.3159408569336,
      "distillation_loss": 4.344395637512207,
      "epoch": 4.3,
      "learning_rate": 3.9639949906073895e-05,
      "loss": 108.3105,
      "step": 5084,
      "task_loss": 1.8224296569824219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9871485802822545,
      "compression/movement_sparsity/importance_threshold": -8.340757586419723e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9185307360206783,
      "compression/movement_sparsity/model_sparsity": 0.8869763795073089,
      "compression_loss": 104.32005310058594,
      "distillation_loss": 3.3406238555908203,
      "epoch": 4.3,
      "learning_rate": 3.963681903569193e-05,
      "loss": 108.0319,
      "step": 5085,
      "task_loss": 1.0029611587524414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9871948638621402,
      "compression/movement_sparsity/importance_threshold": -8.310718872523836e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9185624185340867,
      "compression/movement_sparsity/model_sparsity": 0.887006973628915,
      "compression_loss": 104.32413482666016,
      "distillation_loss": 3.923398971557617,
      "epoch": 4.3,
      "learning_rate": 3.963368816530996e-05,
      "loss": 107.9987,
      "step": 5086,
      "task_loss": 2.284975051879883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9872410361834739,
      "compression/movement_sparsity/importance_threshold": -8.280752367039942e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9186249965658397,
      "compression/movement_sparsity/model_sparsity": 0.8870674019127648,
      "compression_loss": 104.32821655273438,
      "distillation_loss": 4.097253799438477,
      "epoch": 4.3,
      "learning_rate": 3.9630557294928e-05,
      "loss": 107.9638,
      "step": 5087,
      "task_loss": 2.8332343101501465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.987287097380141,
      "compression/movement_sparsity/importance_threshold": -8.250857983074702e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9185511978923414,
      "compression/movement_sparsity/model_sparsity": 0.8869961384507323,
      "compression_loss": 104.33219146728516,
      "distillation_loss": 5.056276798248291,
      "epoch": 4.3,
      "learning_rate": 3.962742642454603e-05,
      "loss": 108.021,
      "step": 5088,
      "task_loss": 2.4497382640838623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9873330475860265,
      "compression/movement_sparsity/importance_threshold": -8.221035633734775e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9185835839316404,
      "compression/movement_sparsity/model_sparsity": 0.8870274119299503,
      "compression_loss": 104.33619689941406,
      "distillation_loss": 4.4374589920043945,
      "epoch": 4.3,
      "learning_rate": 3.962429555416406e-05,
      "loss": 108.316,
      "step": 5089,
      "task_loss": 2.456451654434204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9873788869350155,
      "compression/movement_sparsity/importance_threshold": -8.191285232126734e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9186704991895381,
      "compression/movement_sparsity/model_sparsity": 0.8871113413813567,
      "compression_loss": 104.34025573730469,
      "distillation_loss": 5.933607578277588,
      "epoch": 4.3,
      "learning_rate": 3.962116468378209e-05,
      "loss": 108.5573,
      "step": 5090,
      "task_loss": 2.928389310836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9874246155609934,
      "compression/movement_sparsity/importance_threshold": -8.161606691357067e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9186766997567088,
      "compression/movement_sparsity/model_sparsity": 0.8871173289399699,
      "compression_loss": 104.34426879882812,
      "distillation_loss": 5.020070552825928,
      "epoch": 4.3,
      "learning_rate": 3.961803381340013e-05,
      "loss": 108.8707,
      "step": 5091,
      "task_loss": 2.5833957195281982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9874702335978449,
      "compression/movement_sparsity/importance_threshold": -8.131999924532521e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9186893036018999,
      "compression/movement_sparsity/model_sparsity": 0.8871294998043047,
      "compression_loss": 104.3482666015625,
      "distillation_loss": 4.102550506591797,
      "epoch": 4.3,
      "learning_rate": 3.961490294301816e-05,
      "loss": 108.7858,
      "step": 5092,
      "task_loss": 1.5360348224639893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9875157411794555,
      "compression/movement_sparsity/importance_threshold": -8.102464844759669e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9187139985530738,
      "compression/movement_sparsity/model_sparsity": 0.8871533464079352,
      "compression_loss": 104.35230255126953,
      "distillation_loss": 3.306535243988037,
      "epoch": 4.3,
      "learning_rate": 3.9611772072636195e-05,
      "loss": 108.44,
      "step": 5093,
      "task_loss": 1.9958795309066772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9875611384397103,
      "compression/movement_sparsity/importance_threshold": -8.073001365145084e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9187294641984975,
      "compression/movement_sparsity/model_sparsity": 0.8871682807608607,
      "compression_loss": 104.35623168945312,
      "distillation_loss": 4.1696929931640625,
      "epoch": 4.31,
      "learning_rate": 3.960864120225423e-05,
      "loss": 107.9134,
      "step": 5094,
      "task_loss": 2.3206300735473633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9876064255124943,
      "compression/movement_sparsity/importance_threshold": -8.04360939879534e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9187715445860845,
      "compression/movement_sparsity/model_sparsity": 0.8872089155576797,
      "compression_loss": 104.36017608642578,
      "distillation_loss": 5.324941635131836,
      "epoch": 4.31,
      "learning_rate": 3.9605510331872265e-05,
      "loss": 108.5812,
      "step": 5095,
      "task_loss": 2.798781156539917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9876516025316927,
      "compression/movement_sparsity/importance_threshold": -8.014288858817099e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9188389399815624,
      "compression/movement_sparsity/model_sparsity": 0.8872739957139903,
      "compression_loss": 104.36417388916016,
      "distillation_loss": 4.621357440948486,
      "epoch": 4.31,
      "learning_rate": 3.96023794614903e-05,
      "loss": 108.5876,
      "step": 5096,
      "task_loss": 3.0784425735473633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9876966696311907,
      "compression/movement_sparsity/importance_threshold": -7.985039658316932e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189412612640457,
      "compression/movement_sparsity/model_sparsity": 0.8873728019456434,
      "compression_loss": 104.36817169189453,
      "distillation_loss": 5.437366962432861,
      "epoch": 4.31,
      "learning_rate": 3.959924859110833e-05,
      "loss": 108.6834,
      "step": 5097,
      "task_loss": 2.530684232711792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9877416269448734,
      "compression/movement_sparsity/importance_threshold": -7.9558617104015e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189176633362943,
      "compression/movement_sparsity/model_sparsity": 0.887350014679306,
      "compression_loss": 104.37213134765625,
      "distillation_loss": 3.222806692123413,
      "epoch": 4.31,
      "learning_rate": 3.959611772072636e-05,
      "loss": 108.8944,
      "step": 5098,
      "task_loss": 1.900678277015686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9877864746066259,
      "compression/movement_sparsity/importance_threshold": -7.926754928177376e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189263799028362,
      "compression/movement_sparsity/model_sparsity": 0.8873584318049718,
      "compression_loss": 104.37610626220703,
      "distillation_loss": 4.31981086730957,
      "epoch": 4.31,
      "learning_rate": 3.95929868503444e-05,
      "loss": 108.7777,
      "step": 5099,
      "task_loss": 2.2582712173461914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9878312127503334,
      "compression/movement_sparsity/importance_threshold": -7.897719224751135e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.918962307419923,
      "compression/movement_sparsity/model_sparsity": 0.8873931251013207,
      "compression_loss": 104.38004302978516,
      "distillation_loss": 4.836058616638184,
      "epoch": 4.31,
      "learning_rate": 3.958985597996243e-05,
      "loss": 108.1034,
      "step": 5100,
      "task_loss": 2.931415319442749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.987875841509881,
      "compression/movement_sparsity/importance_threshold": -7.868754513229437e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189765329519126,
      "compression/movement_sparsity/model_sparsity": 0.8874068619425236,
      "compression_loss": 104.38396453857422,
      "distillation_loss": 5.496615886688232,
      "epoch": 4.31,
      "learning_rate": 3.958672510958046e-05,
      "loss": 109.2934,
      "step": 5101,
      "task_loss": 3.3170619010925293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9879203610191538,
      "compression/movement_sparsity/importance_threshold": -7.839860706718854e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9190264117451334,
      "compression/movement_sparsity/model_sparsity": 0.8874550272457522,
      "compression_loss": 104.38797760009766,
      "distillation_loss": 3.605288505554199,
      "epoch": 4.31,
      "learning_rate": 3.95835942391985e-05,
      "loss": 108.7197,
      "step": 5102,
      "task_loss": 2.4410243034362793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9879647714120371,
      "compression/movement_sparsity/importance_threshold": -7.811037718325874e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9190673712609626,
      "compression/movement_sparsity/model_sparsity": 0.8874945796762064,
      "compression_loss": 104.39188385009766,
      "distillation_loss": 3.586153030395508,
      "epoch": 4.31,
      "learning_rate": 3.958046336881653e-05,
      "loss": 108.8585,
      "step": 5103,
      "task_loss": 3.0945591926574707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9880090728224158,
      "compression/movement_sparsity/importance_threshold": -7.782285461157418e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919077053685083,
      "compression/movement_sparsity/model_sparsity": 0.8875039294792716,
      "compression_loss": 104.39578247070312,
      "distillation_loss": 3.349139928817749,
      "epoch": 4.31,
      "learning_rate": 3.9577332498434565e-05,
      "loss": 108.8024,
      "step": 5104,
      "task_loss": 2.2933759689331055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9880532653841753,
      "compression/movement_sparsity/importance_threshold": -7.753603848319711e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919020235026298,
      "compression/movement_sparsity/model_sparsity": 0.8874490627162106,
      "compression_loss": 104.39974212646484,
      "distillation_loss": 3.6889076232910156,
      "epoch": 4.32,
      "learning_rate": 3.9574201628052597e-05,
      "loss": 107.8584,
      "step": 5105,
      "task_loss": 2.9783239364624023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9880973492312005,
      "compression/movement_sparsity/importance_threshold": -7.724992792919588e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9190187683536788,
      "compression/movement_sparsity/model_sparsity": 0.8874476464283079,
      "compression_loss": 104.40364074707031,
      "distillation_loss": 4.173440456390381,
      "epoch": 4.32,
      "learning_rate": 3.9571070757670635e-05,
      "loss": 108.2777,
      "step": 5106,
      "task_loss": 2.7344300746917725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9881413244973768,
      "compression/movement_sparsity/importance_threshold": -7.696452208063621e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189823757940542,
      "compression/movement_sparsity/model_sparsity": 0.8874125040650629,
      "compression_loss": 104.4075698852539,
      "distillation_loss": 3.3982009887695312,
      "epoch": 4.32,
      "learning_rate": 3.956793988728867e-05,
      "loss": 108.1211,
      "step": 5107,
      "task_loss": 1.5726566314697266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9881851913165891,
      "compression/movement_sparsity/importance_threshold": -7.667982006858386e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9189949915634129,
      "compression/movement_sparsity/model_sparsity": 0.8874246864439336,
      "compression_loss": 104.4113540649414,
      "distillation_loss": 4.42470121383667,
      "epoch": 4.32,
      "learning_rate": 3.95648090169067e-05,
      "loss": 108.1936,
      "step": 5108,
      "task_loss": 1.865139126777649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9882289498227227,
      "compression/movement_sparsity/importance_threshold": -7.639582102410454e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9190147499091855,
      "compression/movement_sparsity/model_sparsity": 0.8874437660297451,
      "compression_loss": 104.415283203125,
      "distillation_loss": 5.245319366455078,
      "epoch": 4.32,
      "learning_rate": 3.956167814652473e-05,
      "loss": 108.2546,
      "step": 5109,
      "task_loss": 2.296196460723877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9882726001496626,
      "compression/movement_sparsity/importance_threshold": -7.611252407826574e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9190753723774463,
      "compression/movement_sparsity/model_sparsity": 0.8875023059297246,
      "compression_loss": 104.4190673828125,
      "distillation_loss": 4.1461052894592285,
      "epoch": 4.32,
      "learning_rate": 3.955854727614277e-05,
      "loss": 108.6377,
      "step": 5110,
      "task_loss": 2.9222381114959717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9883161424312941,
      "compression/movement_sparsity/importance_threshold": -7.582992836213057e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9191452122272895,
      "compression/movement_sparsity/model_sparsity": 0.8875697465658732,
      "compression_loss": 104.42290496826172,
      "distillation_loss": 5.153985977172852,
      "epoch": 4.32,
      "learning_rate": 3.95554164057608e-05,
      "loss": 108.4886,
      "step": 5111,
      "task_loss": 2.4943034648895264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9883595768015022,
      "compression/movement_sparsity/importance_threshold": -7.554803300676826e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919146965079932,
      "compression/movement_sparsity/model_sparsity": 0.8875714392026349,
      "compression_loss": 104.4267349243164,
      "distillation_loss": 4.280019760131836,
      "epoch": 4.32,
      "learning_rate": 3.955228553537883e-05,
      "loss": 108.5688,
      "step": 5112,
      "task_loss": 2.3057308197021484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9884029033941721,
      "compression/movement_sparsity/importance_threshold": -7.52668371432428e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9192289079599256,
      "compression/movement_sparsity/model_sparsity": 0.887650567092615,
      "compression_loss": 104.43049621582031,
      "distillation_loss": 3.253291130065918,
      "epoch": 4.32,
      "learning_rate": 3.954915466499687e-05,
      "loss": 107.9213,
      "step": 5113,
      "task_loss": 1.5135904550552368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.988446122343189,
      "compression/movement_sparsity/importance_threshold": -7.498633990262165e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9192445763161992,
      "compression/movement_sparsity/model_sparsity": 0.8876656971926491,
      "compression_loss": 104.43431091308594,
      "distillation_loss": 3.9799773693084717,
      "epoch": 4.32,
      "learning_rate": 3.95460237946149e-05,
      "loss": 108.6788,
      "step": 5114,
      "task_loss": 1.6635079383850098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9884892337824379,
      "compression/movement_sparsity/importance_threshold": -7.470654041597056e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9193067370020849,
      "compression/movement_sparsity/model_sparsity": 0.8877257224677461,
      "compression_loss": 104.43810272216797,
      "distillation_loss": 3.292564868927002,
      "epoch": 4.32,
      "learning_rate": 3.954289292423294e-05,
      "loss": 108.6243,
      "step": 5115,
      "task_loss": 1.8897706270217896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9885322378458041,
      "compression/movement_sparsity/importance_threshold": -7.442743781435352e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9192945505027611,
      "compression/movement_sparsity/model_sparsity": 0.887713954612164,
      "compression_loss": 104.44187927246094,
      "distillation_loss": 4.925112247467041,
      "epoch": 4.32,
      "learning_rate": 3.953976205385097e-05,
      "loss": 109.1091,
      "step": 5116,
      "task_loss": 2.706157684326172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9885751346671726,
      "compression/movement_sparsity/importance_threshold": -7.414903122883974e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9193256487319554,
      "compression/movement_sparsity/model_sparsity": 0.8877439845215161,
      "compression_loss": 104.44564056396484,
      "distillation_loss": 3.3297998905181885,
      "epoch": 4.33,
      "learning_rate": 3.9536631183469005e-05,
      "loss": 108.3936,
      "step": 5117,
      "task_loss": 2.0882773399353027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9886179243804287,
      "compression/movement_sparsity/importance_threshold": -7.387131979049322e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9193684684179357,
      "compression/movement_sparsity/model_sparsity": 0.8877853332195543,
      "compression_loss": 104.44931030273438,
      "distillation_loss": 3.6479032039642334,
      "epoch": 4.33,
      "learning_rate": 3.9533500313087044e-05,
      "loss": 108.214,
      "step": 5118,
      "task_loss": 1.5543147325515747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9886606071194574,
      "compression/movement_sparsity/importance_threshold": -7.359430263038057e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919352251549951,
      "compression/movement_sparsity/model_sparsity": 0.8877696734508738,
      "compression_loss": 104.45307159423828,
      "distillation_loss": 2.8959057331085205,
      "epoch": 4.33,
      "learning_rate": 3.9530369442705075e-05,
      "loss": 108.0722,
      "step": 5119,
      "task_loss": 1.7567622661590576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9887031830181439,
      "compression/movement_sparsity/importance_threshold": -7.331797887956751e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9194187168603533,
      "compression/movement_sparsity/model_sparsity": 0.8878338554733926,
      "compression_loss": 104.4566421508789,
      "distillation_loss": 2.9078142642974854,
      "epoch": 4.33,
      "learning_rate": 3.952723857232311e-05,
      "loss": 107.3543,
      "step": 5120,
      "task_loss": 1.899561882019043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9887456522103732,
      "compression/movement_sparsity/importance_threshold": -7.304234766912065e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9194233434373961,
      "compression/movement_sparsity/model_sparsity": 0.8878383231132808,
      "compression_loss": 104.46041107177734,
      "distillation_loss": 3.1991305351257324,
      "epoch": 4.33,
      "learning_rate": 3.9524107701941146e-05,
      "loss": 108.1783,
      "step": 5121,
      "task_loss": 1.9525432586669922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9887880148300308,
      "compression/movement_sparsity/importance_threshold": -7.276740813010486e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9194902737903361,
      "compression/movement_sparsity/model_sparsity": 0.8879029542026956,
      "compression_loss": 104.46406555175781,
      "distillation_loss": 4.073284149169922,
      "epoch": 4.33,
      "learning_rate": 3.952097683155918e-05,
      "loss": 108.8039,
      "step": 5122,
      "task_loss": 2.7161619663238525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9888302710110014,
      "compression/movement_sparsity/importance_threshold": -7.249315939358847e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9195069557008587,
      "compression/movement_sparsity/model_sparsity": 0.8879190630382722,
      "compression_loss": 104.46774291992188,
      "distillation_loss": 3.2577919960021973,
      "epoch": 4.33,
      "learning_rate": 3.951784596117721e-05,
      "loss": 107.7952,
      "step": 5123,
      "task_loss": 2.5848278999328613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9888724208871704,
      "compression/movement_sparsity/importance_threshold": -7.221960059063549e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9195103660128026,
      "compression/movement_sparsity/model_sparsity": 0.8879223561955094,
      "compression_loss": 104.4714126586914,
      "distillation_loss": 3.1483242511749268,
      "epoch": 4.33,
      "learning_rate": 3.951471509079525e-05,
      "loss": 108.5843,
      "step": 5124,
      "task_loss": 2.686208963394165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9889144645924229,
      "compression/movement_sparsity/importance_threshold": -7.194673085231165e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9195421200712168,
      "compression/movement_sparsity/model_sparsity": 0.8879530194043302,
      "compression_loss": 104.47503662109375,
      "distillation_loss": 4.472857475280762,
      "epoch": 4.33,
      "learning_rate": 3.951158422041328e-05,
      "loss": 109.2177,
      "step": 5125,
      "task_loss": 1.9991368055343628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9889564022606441,
      "compression/movement_sparsity/importance_threshold": -7.167454930968528e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9196176239006871,
      "compression/movement_sparsity/model_sparsity": 0.8880259294449813,
      "compression_loss": 104.47862243652344,
      "distillation_loss": 5.288304328918457,
      "epoch": 4.33,
      "learning_rate": 3.950845335003131e-05,
      "loss": 109.5841,
      "step": 5126,
      "task_loss": 3.0233187675476074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.988998234025719,
      "compression/movement_sparsity/importance_threshold": -7.14030550938204e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9196337453753308,
      "compression/movement_sparsity/model_sparsity": 0.8880414970973756,
      "compression_loss": 104.4822998046875,
      "distillation_loss": 3.167375087738037,
      "epoch": 4.33,
      "learning_rate": 3.950532247964934e-05,
      "loss": 109.4557,
      "step": 5127,
      "task_loss": 1.8409682512283325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9890399600215328,
      "compression/movement_sparsity/importance_threshold": -7.113224733578359e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919559076237595,
      "compression/movement_sparsity/model_sparsity": 0.8879693930742301,
      "compression_loss": 104.48591613769531,
      "distillation_loss": 5.013689994812012,
      "epoch": 4.33,
      "learning_rate": 3.950219160926738e-05,
      "loss": 108.4088,
      "step": 5128,
      "task_loss": 2.9031314849853516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9890815803819707,
      "compression/movement_sparsity/importance_threshold": -7.086212516664147e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919534321665583,
      "compression/movement_sparsity/model_sparsity": 0.8879454888979207,
      "compression_loss": 104.48957824707031,
      "distillation_loss": 4.366327285766602,
      "epoch": 4.34,
      "learning_rate": 3.9499060738885414e-05,
      "loss": 108.3311,
      "step": 5129,
      "task_loss": 2.360992193222046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9891230952409178,
      "compression/movement_sparsity/importance_threshold": -7.05926877174589e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9195769386407135,
      "compression/movement_sparsity/model_sparsity": 0.8879866418488503,
      "compression_loss": 104.49317932128906,
      "distillation_loss": 3.920480251312256,
      "epoch": 4.34,
      "learning_rate": 3.9495929868503445e-05,
      "loss": 108.7955,
      "step": 5130,
      "task_loss": 2.3075594902038574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9891645047322591,
      "compression/movement_sparsity/importance_threshold": -7.032393411930335e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919655351967087,
      "compression/movement_sparsity/model_sparsity": 0.8880623614362352,
      "compression_loss": 104.4968032836914,
      "distillation_loss": 3.884077548980713,
      "epoch": 4.34,
      "learning_rate": 3.949279899812148e-05,
      "loss": 108.7307,
      "step": 5131,
      "task_loss": 2.2659761905670166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9892058089898801,
      "compression/movement_sparsity/importance_threshold": -7.005586350323882e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9196734767018935,
      "compression/movement_sparsity/model_sparsity": 0.8880798635306429,
      "compression_loss": 104.50041198730469,
      "distillation_loss": 6.435641288757324,
      "epoch": 4.34,
      "learning_rate": 3.9489668127739516e-05,
      "loss": 109.467,
      "step": 5132,
      "task_loss": 3.774122953414917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9892470081476655,
      "compression/movement_sparsity/importance_threshold": -6.978847500033452e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919648638660708,
      "compression/movement_sparsity/model_sparsity": 0.8880558787525829,
      "compression_loss": 104.5040512084961,
      "distillation_loss": 4.023615837097168,
      "epoch": 4.34,
      "learning_rate": 3.948653725735755e-05,
      "loss": 108.0251,
      "step": 5133,
      "task_loss": 2.23866605758667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9892881023395008,
      "compression/movement_sparsity/importance_threshold": -6.952176774165358e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9196604316624999,
      "compression/movement_sparsity/model_sparsity": 0.8880672666284837,
      "compression_loss": 104.50756072998047,
      "distillation_loss": 5.095547676086426,
      "epoch": 4.34,
      "learning_rate": 3.948340638697558e-05,
      "loss": 109.0302,
      "step": 5134,
      "task_loss": 2.1245813369750977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.989329091699271,
      "compression/movement_sparsity/importance_threshold": -6.92557408582626e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9196913271808445,
      "compression/movement_sparsity/model_sparsity": 0.8880971007907273,
      "compression_loss": 104.51107025146484,
      "distillation_loss": 4.028286457061768,
      "epoch": 4.34,
      "learning_rate": 3.948027551659361e-05,
      "loss": 108.3928,
      "step": 5135,
      "task_loss": 3.0291452407836914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9893699763608611,
      "compression/movement_sparsity/importance_threshold": -6.899039348122905e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9197451171010498,
      "compression/movement_sparsity/model_sparsity": 0.8881490428616965,
      "compression_loss": 104.51460266113281,
      "distillation_loss": 5.75105619430542,
      "epoch": 4.34,
      "learning_rate": 3.947714464621165e-05,
      "loss": 108.796,
      "step": 5136,
      "task_loss": 2.4988465309143066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9894107564581565,
      "compression/movement_sparsity/importance_threshold": -6.87257247416178e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9197718153123865,
      "compression/movement_sparsity/model_sparsity": 0.8881748239073405,
      "compression_loss": 104.51811218261719,
      "distillation_loss": 5.229672908782959,
      "epoch": 4.34,
      "learning_rate": 3.947401377582968e-05,
      "loss": 108.9153,
      "step": 5137,
      "task_loss": 2.3085880279541016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9894514321250422,
      "compression/movement_sparsity/importance_threshold": -6.846173377049458e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9197768950077994,
      "compression/movement_sparsity/model_sparsity": 0.888179729099589,
      "compression_loss": 104.52157592773438,
      "distillation_loss": 5.1273298263549805,
      "epoch": 4.34,
      "learning_rate": 3.947088290544771e-05,
      "loss": 109.19,
      "step": 5138,
      "task_loss": 2.937978982925415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9894920034954032,
      "compression/movement_sparsity/importance_threshold": -6.819841969892687e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198459120900757,
      "compression/movement_sparsity/model_sparsity": 0.8882463752327677,
      "compression_loss": 104.52507781982422,
      "distillation_loss": 4.203758239746094,
      "epoch": 4.34,
      "learning_rate": 3.946775203506575e-05,
      "loss": 108.6057,
      "step": 5139,
      "task_loss": 2.3907251358032227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.989532470703125,
      "compression/movement_sparsity/importance_threshold": -6.793578165797953e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198485831036262,
      "compression/movement_sparsity/model_sparsity": 0.8882489544887857,
      "compression_loss": 104.52854919433594,
      "distillation_loss": 4.24393892288208,
      "epoch": 4.34,
      "learning_rate": 3.9464621164683783e-05,
      "loss": 108.4101,
      "step": 5140,
      "task_loss": 2.6541402339935303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9895728338820925,
      "compression/movement_sparsity/importance_threshold": -6.76738187787183e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198680910418784,
      "compression/movement_sparsity/model_sparsity": 0.8882677922693456,
      "compression_loss": 104.53204345703125,
      "distillation_loss": 3.447514057159424,
      "epoch": 4.35,
      "learning_rate": 3.9461490294301815e-05,
      "loss": 108.1733,
      "step": 5141,
      "task_loss": 2.706134557723999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9896130931661908,
      "compression/movement_sparsity/importance_threshold": -6.741253019221065e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198736477039967,
      "compression/movement_sparsity/model_sparsity": 0.8882731580430259,
      "compression_loss": 104.53543090820312,
      "distillation_loss": 4.1322431564331055,
      "epoch": 4.35,
      "learning_rate": 3.945835942391985e-05,
      "loss": 108.3969,
      "step": 5142,
      "task_loss": 1.8942283391952515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9896532486893052,
      "compression/movement_sparsity/importance_threshold": -6.715191502952144e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198532454531718,
      "compression/movement_sparsity/model_sparsity": 0.8882534566722814,
      "compression_loss": 104.53882598876953,
      "distillation_loss": 4.314369201660156,
      "epoch": 4.35,
      "learning_rate": 3.9455228553537886e-05,
      "loss": 108.4576,
      "step": 5143,
      "task_loss": 2.9120986461639404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9896933005853207,
      "compression/movement_sparsity/importance_threshold": -6.689197242171728e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198530785148249,
      "compression/movement_sparsity/model_sparsity": 0.8882532954687803,
      "compression_loss": 104.54229736328125,
      "distillation_loss": 4.21770715713501,
      "epoch": 4.35,
      "learning_rate": 3.945209768315592e-05,
      "loss": 108.5405,
      "step": 5144,
      "task_loss": 2.6078503131866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9897332489881225,
      "compression/movement_sparsity/importance_threshold": -6.66327014998639e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198359673342674,
      "compression/movement_sparsity/model_sparsity": 0.8882367721099151,
      "compression_loss": 104.54568481445312,
      "distillation_loss": 3.819185495376587,
      "epoch": 4.35,
      "learning_rate": 3.944896681277395e-05,
      "loss": 108.5064,
      "step": 5145,
      "task_loss": 2.4702770709991455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9897730940315957,
      "compression/movement_sparsity/importance_threshold": -6.637410139502704e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198434557115428,
      "compression/movement_sparsity/model_sparsity": 0.8882440032383941,
      "compression_loss": 104.54901123046875,
      "distillation_loss": 4.44462776184082,
      "epoch": 4.35,
      "learning_rate": 3.944583594239199e-05,
      "loss": 108.7952,
      "step": 5146,
      "task_loss": 2.0530030727386475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9898128358496256,
      "compression/movement_sparsity/importance_threshold": -6.61161712382733e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198195954521033,
      "compression/movement_sparsity/model_sparsity": 0.8882209626522692,
      "compression_loss": 104.55240631103516,
      "distillation_loss": 3.332803726196289,
      "epoch": 4.35,
      "learning_rate": 3.944270507201002e-05,
      "loss": 108.5061,
      "step": 5147,
      "task_loss": 1.6693708896636963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9898524745760973,
      "compression/movement_sparsity/importance_threshold": -6.585891016066842e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198177472061199,
      "compression/movement_sparsity/model_sparsity": 0.8882191778992211,
      "compression_loss": 104.55572509765625,
      "distillation_loss": 2.367044687271118,
      "epoch": 4.35,
      "learning_rate": 3.943957420162805e-05,
      "loss": 107.4678,
      "step": 5148,
      "task_loss": 1.3191876411437988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9898920103448957,
      "compression/movement_sparsity/importance_threshold": -6.560231729327813e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9197364482311785,
      "compression/movement_sparsity/model_sparsity": 0.8881406717941739,
      "compression_loss": 104.55905151367188,
      "distillation_loss": 4.279050827026367,
      "epoch": 4.35,
      "learning_rate": 3.943644333124609e-05,
      "loss": 108.4733,
      "step": 5149,
      "task_loss": 2.1609551906585693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9899314432899061,
      "compression/movement_sparsity/importance_threshold": -6.53463917671699e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919787650607007,
      "compression/movement_sparsity/model_sparsity": 0.8881901152108757,
      "compression_loss": 104.56242370605469,
      "distillation_loss": 3.219327926635742,
      "epoch": 4.35,
      "learning_rate": 3.943331246086412e-05,
      "loss": 108.5386,
      "step": 5150,
      "task_loss": 2.036074638366699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9899707735450137,
      "compression/movement_sparsity/importance_threshold": -6.50911327134086e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9197880918012095,
      "compression/movement_sparsity/model_sparsity": 0.8881905412487,
      "compression_loss": 104.56575775146484,
      "distillation_loss": 4.61373233795166,
      "epoch": 4.35,
      "learning_rate": 3.943018159048216e-05,
      "loss": 109.1616,
      "step": 5151,
      "task_loss": 2.4847023487091064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9900100012441035,
      "compression/movement_sparsity/importance_threshold": -6.483653926305996e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198362654384583,
      "compression/movement_sparsity/model_sparsity": 0.88823705997331,
      "compression_loss": 104.56916046142578,
      "distillation_loss": 3.7984437942504883,
      "epoch": 4.35,
      "learning_rate": 3.942705072010019e-05,
      "loss": 109.0556,
      "step": 5152,
      "task_loss": 2.4796183109283447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9900491265210609,
      "compression/movement_sparsity/importance_threshold": -6.458261054719059e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198448985358267,
      "compression/movement_sparsity/model_sparsity": 0.8882453964972252,
      "compression_loss": 104.57239532470703,
      "distillation_loss": 4.498291969299316,
      "epoch": 4.36,
      "learning_rate": 3.9423919849718224e-05,
      "loss": 108.6795,
      "step": 5153,
      "task_loss": 3.2730982303619385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9900881495097708,
      "compression/movement_sparsity/importance_threshold": -6.432934569686709e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9198779523285133,
      "compression/movement_sparsity/model_sparsity": 0.8882773147904477,
      "compression_loss": 104.57571411132812,
      "distillation_loss": 3.184936285018921,
      "epoch": 4.36,
      "learning_rate": 3.942078897933626e-05,
      "loss": 108.0844,
      "step": 5154,
      "task_loss": 2.130091667175293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9901270703441183,
      "compression/movement_sparsity/importance_threshold": -6.407674384315432e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9199171589917,
      "compression/movement_sparsity/model_sparsity": 0.8883151745841401,
      "compression_loss": 104.57901000976562,
      "distillation_loss": 3.707155704498291,
      "epoch": 4.36,
      "learning_rate": 3.9417658108954294e-05,
      "loss": 108.5523,
      "step": 5155,
      "task_loss": 1.3443821668624878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9901658891579888,
      "compression/movement_sparsity/importance_threshold": -6.382480411711803e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.919918959541013,
      "compression/movement_sparsity/model_sparsity": 0.8883169132790452,
      "compression_loss": 104.58222961425781,
      "distillation_loss": 4.1894683837890625,
      "epoch": 4.36,
      "learning_rate": 3.9414527238572326e-05,
      "loss": 108.7367,
      "step": 5156,
      "task_loss": 2.5927040576934814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9902046060852672,
      "compression/movement_sparsity/importance_threshold": -6.357352564982655e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9199830280937206,
      "compression/movement_sparsity/model_sparsity": 0.8883787808798692,
      "compression_loss": 104.58544921875,
      "distillation_loss": 4.011154651641846,
      "epoch": 4.36,
      "learning_rate": 3.941139636819036e-05,
      "loss": 109.6233,
      "step": 5157,
      "task_loss": 2.371647357940674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9902432212598387,
      "compression/movement_sparsity/importance_threshold": -6.332290757234387e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.920047752475648,
      "compression/movement_sparsity/model_sparsity": 0.888441281780162,
      "compression_loss": 104.588623046875,
      "distillation_loss": 3.227046489715576,
      "epoch": 4.36,
      "learning_rate": 3.9408265497808396e-05,
      "loss": 108.2147,
      "step": 5158,
      "task_loss": 1.0687627792358398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9902817348155885,
      "compression/movement_sparsity/importance_threshold": -6.307294901573661e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9200514370434475,
      "compression/movement_sparsity/model_sparsity": 0.8884448397717225,
      "compression_loss": 104.59173583984375,
      "distillation_loss": 4.55789852142334,
      "epoch": 4.36,
      "learning_rate": 3.940513462742643e-05,
      "loss": 108.8373,
      "step": 5159,
      "task_loss": 2.756115674972534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9903201468864018,
      "compression/movement_sparsity/importance_threshold": -6.282364911106963e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92007755097057,
      "compression/movement_sparsity/model_sparsity": 0.8884700566051126,
      "compression_loss": 104.59489440917969,
      "distillation_loss": 2.762406587600708,
      "epoch": 4.36,
      "learning_rate": 3.940200375704446e-05,
      "loss": 108.0579,
      "step": 5160,
      "task_loss": 1.403152585029602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9903584576061635,
      "compression/movement_sparsity/importance_threshold": -6.257500698941213e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9201663263986191,
      "compression/movement_sparsity/model_sparsity": 0.8885557823241029,
      "compression_loss": 104.5980453491211,
      "distillation_loss": 5.017704010009766,
      "epoch": 4.36,
      "learning_rate": 3.93988728866625e-05,
      "loss": 109.0174,
      "step": 5161,
      "task_loss": 2.3816614151000977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.990396667108759,
      "compression/movement_sparsity/importance_threshold": -6.232702178182725e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9201985454995711,
      "compression/movement_sparsity/model_sparsity": 0.8885868945998198,
      "compression_loss": 104.60125732421875,
      "distillation_loss": 7.2506608963012695,
      "epoch": 4.36,
      "learning_rate": 3.939574201628053e-05,
      "loss": 109.5533,
      "step": 5162,
      "task_loss": 3.221463203430176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9904347755280732,
      "compression/movement_sparsity/importance_threshold": -6.207969261938246e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9201462937969908,
      "compression/movement_sparsity/model_sparsity": 0.8885364379039681,
      "compression_loss": 104.60438537597656,
      "distillation_loss": 5.566883563995361,
      "epoch": 4.36,
      "learning_rate": 3.939261114589856e-05,
      "loss": 109.0527,
      "step": 5163,
      "task_loss": 2.26192307472229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9904727829979916,
      "compression/movement_sparsity/importance_threshold": -6.183301863314263e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9201415718266069,
      "compression/movement_sparsity/model_sparsity": 0.8885318781477934,
      "compression_loss": 104.60755920410156,
      "distillation_loss": 4.019078731536865,
      "epoch": 4.36,
      "learning_rate": 3.9389480275516594e-05,
      "loss": 109.7608,
      "step": 5164,
      "task_loss": 2.3466291427612305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.990510689652399,
      "compression/movement_sparsity/importance_threshold": -6.158699895417435e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9201749833443227,
      "compression/movement_sparsity/model_sparsity": 0.8885641418770898,
      "compression_loss": 104.6107406616211,
      "distillation_loss": 4.625138282775879,
      "epoch": 4.37,
      "learning_rate": 3.938634940513463e-05,
      "loss": 108.4193,
      "step": 5165,
      "task_loss": 2.1646554470062256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9905484956251805,
      "compression/movement_sparsity/importance_threshold": -6.134163271354423e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9202168967935627,
      "compression/movement_sparsity/model_sparsity": 0.8886046154704076,
      "compression_loss": 104.6138687133789,
      "distillation_loss": 4.115006446838379,
      "epoch": 4.37,
      "learning_rate": 3.9383218534752664e-05,
      "loss": 108.9411,
      "step": 5166,
      "task_loss": 3.180541753768921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9905862010502215,
      "compression/movement_sparsity/importance_threshold": -6.109691904231801e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9202377879352608,
      "compression/movement_sparsity/model_sparsity": 0.8886247889371196,
      "compression_loss": 104.61700439453125,
      "distillation_loss": 5.0501604080200195,
      "epoch": 4.37,
      "learning_rate": 3.9380087664370696e-05,
      "loss": 109.2324,
      "step": 5167,
      "task_loss": 3.859081983566284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9906238060614072,
      "compression/movement_sparsity/importance_threshold": -6.085285707156055e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9203505070919226,
      "compression/movement_sparsity/model_sparsity": 0.8887336358439853,
      "compression_loss": 104.62014770507812,
      "distillation_loss": 4.120265007019043,
      "epoch": 4.37,
      "learning_rate": 3.937695679398873e-05,
      "loss": 108.6656,
      "step": 5168,
      "task_loss": 2.4946391582489014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9906613107926224,
      "compression/movement_sparsity/importance_threshold": -6.0609445932340196e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9203629916954373,
      "compression/movement_sparsity/model_sparsity": 0.8887456915629622,
      "compression_loss": 104.62321472167969,
      "distillation_loss": 4.550365447998047,
      "epoch": 4.37,
      "learning_rate": 3.9373825923606766e-05,
      "loss": 108.8907,
      "step": 5169,
      "task_loss": 2.7870941162109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9906987153777524,
      "compression/movement_sparsity/importance_threshold": -6.036668475572181e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.920417425520695,
      "compression/movement_sparsity/model_sparsity": 0.8887982554188644,
      "compression_loss": 104.62638092041016,
      "distillation_loss": 5.107027053833008,
      "epoch": 4.37,
      "learning_rate": 3.93706950532248e-05,
      "loss": 109.4069,
      "step": 5170,
      "task_loss": 2.7315120697021484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9907360199506825,
      "compression/movement_sparsity/importance_threshold": -6.012457267277026e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9204911168766846,
      "compression/movement_sparsity/model_sparsity": 0.8888694152500746,
      "compression_loss": 104.62944030761719,
      "distillation_loss": 4.828217029571533,
      "epoch": 4.37,
      "learning_rate": 3.936756418284283e-05,
      "loss": 108.7269,
      "step": 5171,
      "task_loss": 2.7805323600769043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9907732246452976,
      "compression/movement_sparsity/importance_threshold": -5.988310881455301e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9204415481118223,
      "compression/movement_sparsity/model_sparsity": 0.8888215493247766,
      "compression_loss": 104.63251495361328,
      "distillation_loss": 5.018903732299805,
      "epoch": 4.37,
      "learning_rate": 3.936443331246086e-05,
      "loss": 108.6284,
      "step": 5172,
      "task_loss": 2.7396552562713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.990810329595483,
      "compression/movement_sparsity/importance_threshold": -5.964229231213581e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9204558094163149,
      "compression/movement_sparsity/model_sparsity": 0.8888353207095869,
      "compression_loss": 104.63556671142578,
      "distillation_loss": 4.188074111938477,
      "epoch": 4.37,
      "learning_rate": 3.93613024420789e-05,
      "loss": 108.1926,
      "step": 5173,
      "task_loss": 2.7017264366149902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9908473349351238,
      "compression/movement_sparsity/importance_threshold": -5.9402122296584384e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9204972697471847,
      "compression/movement_sparsity/model_sparsity": 0.8888753567505445,
      "compression_loss": 104.63863372802734,
      "distillation_loss": 4.837446212768555,
      "epoch": 4.37,
      "learning_rate": 3.935817157169693e-05,
      "loss": 109.0056,
      "step": 5174,
      "task_loss": 2.7977612018585205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.990884240798105,
      "compression/movement_sparsity/importance_threshold": -5.916259789896534e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9205002627132614,
      "compression/movement_sparsity/model_sparsity": 0.8888782468990291,
      "compression_loss": 104.64171600341797,
      "distillation_loss": 2.960354804992676,
      "epoch": 4.37,
      "learning_rate": 3.9355040701314964e-05,
      "loss": 108.09,
      "step": 5175,
      "task_loss": 2.30739164352417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9909210473183119,
      "compression/movement_sparsity/importance_threshold": -5.8923718250344405e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.920496935870491,
      "compression/movement_sparsity/model_sparsity": 0.8888750343435423,
      "compression_loss": 104.64471435546875,
      "distillation_loss": 4.146744728088379,
      "epoch": 4.38,
      "learning_rate": 3.9351909830933e-05,
      "loss": 108.8711,
      "step": 5176,
      "task_loss": 3.1127123832702637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9909577546296297,
      "compression/movement_sparsity/importance_threshold": -5.868548248178732e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9205097901232024,
      "compression/movement_sparsity/model_sparsity": 0.8888874470131288,
      "compression_loss": 104.64767456054688,
      "distillation_loss": 4.926850318908691,
      "epoch": 4.38,
      "learning_rate": 3.9348778960551034e-05,
      "loss": 109.1265,
      "step": 5177,
      "task_loss": 2.743680000305176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9909943628659433,
      "compression/movement_sparsity/importance_threshold": -5.844788972436069e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9204940979185936,
      "compression/movement_sparsity/model_sparsity": 0.8888722938840232,
      "compression_loss": 104.65065002441406,
      "distillation_loss": 3.9864513874053955,
      "epoch": 4.38,
      "learning_rate": 3.9345648090169066e-05,
      "loss": 109.0968,
      "step": 5178,
      "task_loss": 2.8968539237976074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.991030872161138,
      "compression/movement_sparsity/importance_threshold": -5.821093910913025e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9205202953148897,
      "compression/movement_sparsity/model_sparsity": 0.8888975913191638,
      "compression_loss": 104.65362548828125,
      "distillation_loss": 4.1019392013549805,
      "epoch": 4.38,
      "learning_rate": 3.93425172197871e-05,
      "loss": 109.0112,
      "step": 5179,
      "task_loss": 3.426274299621582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.991067282649099,
      "compression/movement_sparsity/importance_threshold": -5.79746297671626e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9205534921975879,
      "compression/movement_sparsity/model_sparsity": 0.8889296477868158,
      "compression_loss": 104.65653228759766,
      "distillation_loss": 4.083472728729248,
      "epoch": 4.38,
      "learning_rate": 3.9339386349405136e-05,
      "loss": 108.5775,
      "step": 5180,
      "task_loss": 2.424571990966797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9911035944637113,
      "compression/movement_sparsity/importance_threshold": -5.77389608295226e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9205568428886935,
      "compression/movement_sparsity/model_sparsity": 0.8889328833713741,
      "compression_loss": 104.65950775146484,
      "distillation_loss": 3.8653903007507324,
      "epoch": 4.38,
      "learning_rate": 3.933625547902317e-05,
      "loss": 107.9973,
      "step": 5181,
      "task_loss": 1.8921763896942139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9911398077388601,
      "compression/movement_sparsity/importance_threshold": -5.7503931427277735e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9206221277064999,
      "compression/movement_sparsity/model_sparsity": 0.8889959254548492,
      "compression_loss": 104.66242218017578,
      "distillation_loss": 2.7388858795166016,
      "epoch": 4.38,
      "learning_rate": 3.9333124608641206e-05,
      "loss": 108.8218,
      "step": 5182,
      "task_loss": 2.4657318592071533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9911759226084307,
      "compression/movement_sparsity/importance_threshold": -5.7269540691491996e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9206562904467767,
      "compression/movement_sparsity/model_sparsity": 0.8890289145999005,
      "compression_loss": 104.66537475585938,
      "distillation_loss": 4.307067394256592,
      "epoch": 4.38,
      "learning_rate": 3.932999373825924e-05,
      "loss": 108.749,
      "step": 5183,
      "task_loss": 2.803724765777588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9912119392063079,
      "compression/movement_sparsity/importance_threshold": -5.703578775323372e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9206806992179273,
      "compression/movement_sparsity/model_sparsity": 0.889052484854672,
      "compression_loss": 104.66830444335938,
      "distillation_loss": 4.338745594024658,
      "epoch": 4.38,
      "learning_rate": 3.932686286787727e-05,
      "loss": 109.1161,
      "step": 5184,
      "task_loss": 3.310619354248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9912478576663771,
      "compression/movement_sparsity/importance_threshold": -5.6802671743566915e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9207305303144775,
      "compression/movement_sparsity/model_sparsity": 0.8891006040997573,
      "compression_loss": 104.67121124267578,
      "distillation_loss": 5.573431491851807,
      "epoch": 4.38,
      "learning_rate": 3.932373199749531e-05,
      "loss": 109.63,
      "step": 5185,
      "task_loss": 2.7178380489349365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9912836781225234,
      "compression/movement_sparsity/importance_threshold": -5.657019179355991e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9207320804562702,
      "compression/movement_sparsity/model_sparsity": 0.8891021009894107,
      "compression_loss": 104.67415618896484,
      "distillation_loss": 2.93123722076416,
      "epoch": 4.38,
      "learning_rate": 3.932060112711334e-05,
      "loss": 109.1991,
      "step": 5186,
      "task_loss": 2.2868435382843018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9913194007086319,
      "compression/movement_sparsity/importance_threshold": -5.633834703427584e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9207550702514721,
      "compression/movement_sparsity/model_sparsity": 0.8891243010144225,
      "compression_loss": 104.67710876464844,
      "distillation_loss": 5.564872741699219,
      "epoch": 4.38,
      "learning_rate": 3.931747025673138e-05,
      "loss": 108.8402,
      "step": 5187,
      "task_loss": 2.4937405586242676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9913550255585877,
      "compression/movement_sparsity/importance_threshold": -5.6107136596783916e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9208043289879758,
      "compression/movement_sparsity/model_sparsity": 0.8891718675617898,
      "compression_loss": 104.67997741699219,
      "distillation_loss": 3.0269713401794434,
      "epoch": 4.39,
      "learning_rate": 3.931433938634941e-05,
      "loss": 108.3793,
      "step": 5188,
      "task_loss": 1.3585748672485352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.991390552806276,
      "compression/movement_sparsity/importance_threshold": -5.587655961214813e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9208593113249448,
      "compression/movement_sparsity/model_sparsity": 0.8892249610863384,
      "compression_loss": 104.68290710449219,
      "distillation_loss": 2.844818353652954,
      "epoch": 4.39,
      "learning_rate": 3.931120851596744e-05,
      "loss": 108.6474,
      "step": 5189,
      "task_loss": 2.70680570602417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9914259825855819,
      "compression/movement_sparsity/importance_threshold": -5.564661521143509e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9208475302473206,
      "compression/movement_sparsity/model_sparsity": 0.8892135847249734,
      "compression_loss": 104.685791015625,
      "distillation_loss": 5.142570495605469,
      "epoch": 4.39,
      "learning_rate": 3.9308077645585474e-05,
      "loss": 109.5576,
      "step": 5190,
      "task_loss": 2.529120683670044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9914613150303906,
      "compression/movement_sparsity/importance_threshold": -5.5417302525710525e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.920941993503332,
      "compression/movement_sparsity/model_sparsity": 0.8893048028775378,
      "compression_loss": 104.68869018554688,
      "distillation_loss": 3.962461471557617,
      "epoch": 4.39,
      "learning_rate": 3.930494677520351e-05,
      "loss": 108.6722,
      "step": 5191,
      "task_loss": 1.6555118560791016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9914965502745872,
      "compression/movement_sparsity/importance_threshold": -5.5188620686041044e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.920930462833228,
      "compression/movement_sparsity/model_sparsity": 0.8892936683214244,
      "compression_loss": 104.69160461425781,
      "distillation_loss": 5.409380912780762,
      "epoch": 4.39,
      "learning_rate": 3.9301815904821544e-05,
      "loss": 109.1226,
      "step": 5192,
      "task_loss": 3.732964038848877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9915316884520569,
      "compression/movement_sparsity/importance_threshold": -5.496056882349151e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9209550743152285,
      "compression/movement_sparsity/model_sparsity": 0.8893174343233043,
      "compression_loss": 104.69451904296875,
      "distillation_loss": 4.060059070587158,
      "epoch": 4.39,
      "learning_rate": 3.9298685034439576e-05,
      "loss": 108.4297,
      "step": 5193,
      "task_loss": 2.1013882160186768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9915667296966847,
      "compression/movement_sparsity/importance_threshold": -5.47331460691294e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9209536434151121,
      "compression/movement_sparsity/model_sparsity": 0.889316052579009,
      "compression_loss": 104.69744873046875,
      "distillation_loss": 5.445862770080566,
      "epoch": 4.39,
      "learning_rate": 3.929555416405761e-05,
      "loss": 109.113,
      "step": 5194,
      "task_loss": 3.48335599899292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9916016741423559,
      "compression/movement_sparsity/importance_threshold": -5.450635155402044e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9209462265828426,
      "compression/movement_sparsity/model_sparsity": 0.8893088905377449,
      "compression_loss": 104.70033264160156,
      "distillation_loss": 4.436367034912109,
      "epoch": 4.39,
      "learning_rate": 3.929242329367565e-05,
      "loss": 109.0061,
      "step": 5195,
      "task_loss": 1.725710391998291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9916365219229556,
      "compression/movement_sparsity/importance_threshold": -5.4280184409229507e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9209574710729233,
      "compression/movement_sparsity/model_sparsity": 0.8893197487449991,
      "compression_loss": 104.70327758789062,
      "distillation_loss": 5.064736366271973,
      "epoch": 4.39,
      "learning_rate": 3.928929242329368e-05,
      "loss": 108.7427,
      "step": 5196,
      "task_loss": 2.5350234508514404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9916712731723689,
      "compression/movement_sparsity/importance_threshold": -5.405464376582406e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9209971547028154,
      "compression/movement_sparsity/model_sparsity": 0.8893580691201233,
      "compression_loss": 104.70611572265625,
      "distillation_loss": 6.227995872497559,
      "epoch": 4.39,
      "learning_rate": 3.928616155291171e-05,
      "loss": 108.8092,
      "step": 5197,
      "task_loss": 2.9704463481903076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9917059280244809,
      "compression/movement_sparsity/importance_threshold": -5.382972875486985e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9211133795647621,
      "compression/movement_sparsity/model_sparsity": 0.8894703013005127,
      "compression_loss": 104.70901489257812,
      "distillation_loss": 2.6069774627685547,
      "epoch": 4.39,
      "learning_rate": 3.928303068252975e-05,
      "loss": 108.9094,
      "step": 5198,
      "task_loss": 1.7852319478988647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9917404866131768,
      "compression/movement_sparsity/importance_threshold": -5.3605438507432594e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9211801787518583,
      "compression/movement_sparsity/model_sparsity": 0.8895348057300337,
      "compression_loss": 104.7118911743164,
      "distillation_loss": 4.4920268058776855,
      "epoch": 4.39,
      "learning_rate": 3.927989981214778e-05,
      "loss": 108.705,
      "step": 5199,
      "task_loss": 3.286885976791382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9917749490723418,
      "compression/movement_sparsity/importance_threshold": -5.338177215457804e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.921203502423754,
      "compression/movement_sparsity/model_sparsity": 0.8895573281620478,
      "compression_loss": 104.71475219726562,
      "distillation_loss": 2.7745168209075928,
      "epoch": 4.4,
      "learning_rate": 3.927676894176581e-05,
      "loss": 108.6118,
      "step": 5200,
      "task_loss": 0.9999497532844543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9918093155358609,
      "compression/movement_sparsity/importance_threshold": -5.3158728827372784e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9212098937776069,
      "compression/movement_sparsity/model_sparsity": 0.8895634999532337,
      "compression_loss": 104.71759796142578,
      "distillation_loss": 5.208150863647461,
      "epoch": 4.4,
      "learning_rate": 3.9273638071383844e-05,
      "loss": 109.3107,
      "step": 5201,
      "task_loss": 2.9855878353118896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9918435861376194,
      "compression/movement_sparsity/importance_threshold": -5.2936307656882564e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9211940465588188,
      "compression/movement_sparsity/model_sparsity": 0.8895481971351628,
      "compression_loss": 104.72045135498047,
      "distillation_loss": 5.0458807945251465,
      "epoch": 4.4,
      "learning_rate": 3.927050720100188e-05,
      "loss": 109.9479,
      "step": 5202,
      "task_loss": 2.377811908721924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9918777610115023,
      "compression/movement_sparsity/importance_threshold": -5.271450777417398e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9211761126106944,
      "compression/movement_sparsity/model_sparsity": 0.8895308792733277,
      "compression_loss": 104.72322082519531,
      "distillation_loss": 4.574875831604004,
      "epoch": 4.4,
      "learning_rate": 3.9267376330619914e-05,
      "loss": 108.4811,
      "step": 5203,
      "task_loss": 2.233610153198242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9919118402913948,
      "compression/movement_sparsity/importance_threshold": -5.249332831031191e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9212013679977472,
      "compression/movement_sparsity/model_sparsity": 0.8895552670601407,
      "compression_loss": 104.72602844238281,
      "distillation_loss": 3.884023904800415,
      "epoch": 4.4,
      "learning_rate": 3.9264245460237946e-05,
      "loss": 108.3149,
      "step": 5204,
      "task_loss": 2.56939697265625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.991945824111182,
      "compression/movement_sparsity/importance_threshold": -5.227276839636381e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9212763590880091,
      "compression/movement_sparsity/model_sparsity": 0.8896276819757525,
      "compression_loss": 104.72876739501953,
      "distillation_loss": 3.881584882736206,
      "epoch": 4.4,
      "learning_rate": 3.926111458985598e-05,
      "loss": 108.7126,
      "step": 5205,
      "task_loss": 2.752305030822754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9919797126047492,
      "compression/movement_sparsity/importance_threshold": -5.205282716339455e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9213389251955945,
      "compression/movement_sparsity/model_sparsity": 0.8896880987450665,
      "compression_loss": 104.73153686523438,
      "distillation_loss": 3.49747896194458,
      "epoch": 4.4,
      "learning_rate": 3.9257983719474017e-05,
      "loss": 109.4335,
      "step": 5206,
      "task_loss": 1.4005225896835327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9920135059059813,
      "compression/movement_sparsity/importance_threshold": -5.183350374247161e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9213999769338901,
      "compression/movement_sparsity/model_sparsity": 0.8897470531683345,
      "compression_loss": 104.7342300415039,
      "distillation_loss": 4.840272903442383,
      "epoch": 4.4,
      "learning_rate": 3.925485284909205e-05,
      "loss": 108.9266,
      "step": 5207,
      "task_loss": 2.360377788543701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9920472041487636,
      "compression/movement_sparsity/importance_threshold": -5.161479726465898e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9214031368383137,
      "compression/movement_sparsity/model_sparsity": 0.88975010452032,
      "compression_loss": 104.73694610595703,
      "distillation_loss": 5.055424690246582,
      "epoch": 4.4,
      "learning_rate": 3.925172197871008e-05,
      "loss": 109.0133,
      "step": 5208,
      "task_loss": 3.0202043056488037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9920808074669812,
      "compression/movement_sparsity/importance_threshold": -5.1396706861024134e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92150660284089,
      "compression/movement_sparsity/model_sparsity": 0.8898500161474092,
      "compression_loss": 104.73966217041016,
      "distillation_loss": 4.415210247039795,
      "epoch": 4.4,
      "learning_rate": 3.924859110832811e-05,
      "loss": 109.3065,
      "step": 5209,
      "task_loss": 2.103238344192505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9921143159945193,
      "compression/movement_sparsity/importance_threshold": -5.117923166263281e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215305465695028,
      "compression/movement_sparsity/model_sparsity": 0.8898731373352847,
      "compression_loss": 104.74244689941406,
      "distillation_loss": 4.262058258056641,
      "epoch": 4.4,
      "learning_rate": 3.924546023794615e-05,
      "loss": 109.3781,
      "step": 5210,
      "task_loss": 2.6424453258514404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9921477298652629,
      "compression/movement_sparsity/importance_threshold": -5.096237080055074e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215182885251731,
      "compression/movement_sparsity/model_sparsity": 0.8898613003924879,
      "compression_loss": 104.74518585205078,
      "distillation_loss": 4.871269226074219,
      "epoch": 4.4,
      "learning_rate": 3.924232936756418e-05,
      "loss": 109.2351,
      "step": 5211,
      "task_loss": 2.4692862033843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9921810492130972,
      "compression/movement_sparsity/importance_threshold": -5.074612340584452e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9216002075568316,
      "compression/movement_sparsity/model_sparsity": 0.8899404052533965,
      "compression_loss": 104.7479248046875,
      "distillation_loss": 4.387067794799805,
      "epoch": 4.41,
      "learning_rate": 3.9239198497182214e-05,
      "loss": 109.1859,
      "step": 5212,
      "task_loss": 2.600094795227051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9922142741719074,
      "compression/movement_sparsity/importance_threshold": -5.05304886095799e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9216330586386683,
      "compression/movement_sparsity/model_sparsity": 0.8899721277995104,
      "compression_loss": 104.75072479248047,
      "distillation_loss": 6.0760040283203125,
      "epoch": 4.41,
      "learning_rate": 3.923606762680025e-05,
      "loss": 109.2107,
      "step": 5213,
      "task_loss": 2.412379264831543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9922474048755787,
      "compression/movement_sparsity/importance_threshold": -5.03154655428226e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215966064582055,
      "compression/movement_sparsity/model_sparsity": 0.8899369278635865,
      "compression_loss": 104.75344848632812,
      "distillation_loss": 4.4722161293029785,
      "epoch": 4.41,
      "learning_rate": 3.9232936756418284e-05,
      "loss": 108.2767,
      "step": 5214,
      "task_loss": 2.1222755908966064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9922804414579961,
      "compression/movement_sparsity/importance_threshold": -5.010105333663924e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215816535519902,
      "compression/movement_sparsity/model_sparsity": 0.8899224886357001,
      "compression_loss": 104.75611114501953,
      "distillation_loss": 3.287637710571289,
      "epoch": 4.41,
      "learning_rate": 3.9229805886036316e-05,
      "loss": 108.7801,
      "step": 5215,
      "task_loss": 2.905970811843872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9923133840530447,
      "compression/movement_sparsity/importance_threshold": -4.9887251122095536e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.921574224795553,
      "compression/movement_sparsity/model_sparsity": 0.8899153150799001,
      "compression_loss": 104.7588119506836,
      "distillation_loss": 4.728211402893066,
      "epoch": 4.41,
      "learning_rate": 3.9226675015654355e-05,
      "loss": 109.2139,
      "step": 5216,
      "task_loss": 2.10858416557312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9923462327946098,
      "compression/movement_sparsity/importance_threshold": -4.96740580302581e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215831202246093,
      "compression/movement_sparsity/model_sparsity": 0.8899239049236028,
      "compression_loss": 104.76145935058594,
      "distillation_loss": 6.103675842285156,
      "epoch": 4.41,
      "learning_rate": 3.9223544145272386e-05,
      "loss": 109.478,
      "step": 5217,
      "task_loss": 3.7759177684783936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9923789878165764,
      "compression/movement_sparsity/importance_threshold": -4.94614731921918e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215951517097539,
      "compression/movement_sparsity/model_sparsity": 0.8899355230902195,
      "compression_loss": 104.76409149169922,
      "distillation_loss": 4.2615580558776855,
      "epoch": 4.41,
      "learning_rate": 3.9220413274890425e-05,
      "loss": 109.1701,
      "step": 5218,
      "task_loss": 2.7675790786743164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9924116492528298,
      "compression/movement_sparsity/importance_threshold": -4.924949573896411e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215743082647264,
      "compression/movement_sparsity/model_sparsity": 0.8899153956816507,
      "compression_loss": 104.76666259765625,
      "distillation_loss": 2.6360514163970947,
      "epoch": 4.41,
      "learning_rate": 3.921728240450846e-05,
      "loss": 108.2318,
      "step": 5219,
      "task_loss": 2.046319007873535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.992444217237255,
      "compression/movement_sparsity/importance_threshold": -4.903812480163902e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215227600880366,
      "compression/movement_sparsity/model_sparsity": 0.8898656183434108,
      "compression_loss": 104.76920318603516,
      "distillation_loss": 4.097743511199951,
      "epoch": 4.41,
      "learning_rate": 3.921415153412649e-05,
      "loss": 108.6768,
      "step": 5220,
      "task_loss": 1.3211265802383423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9924766919037372,
      "compression/movement_sparsity/importance_threshold": -4.882735951128401e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215104781953717,
      "compression/movement_sparsity/model_sparsity": 0.8898537583715425,
      "compression_loss": 104.77178192138672,
      "distillation_loss": 5.247386932373047,
      "epoch": 4.41,
      "learning_rate": 3.921102066374453e-05,
      "loss": 109.1712,
      "step": 5221,
      "task_loss": 3.5119855403900146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9925090733861615,
      "compression/movement_sparsity/importance_threshold": -4.861719899896654e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215229151022158,
      "compression/movement_sparsity/model_sparsity": 0.8898657680323762,
      "compression_loss": 104.77435302734375,
      "distillation_loss": 4.337973594665527,
      "epoch": 4.41,
      "learning_rate": 3.920788979336256e-05,
      "loss": 108.7604,
      "step": 5222,
      "task_loss": 2.097370147705078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9925413618184131,
      "compression/movement_sparsity/importance_threshold": -4.840764239574975e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9214157287593371,
      "compression/movement_sparsity/model_sparsity": 0.889762263870119,
      "compression_loss": 104.77689361572266,
      "distillation_loss": 3.8783559799194336,
      "epoch": 4.41,
      "learning_rate": 3.920475892298059e-05,
      "loss": 109.1513,
      "step": 5223,
      "task_loss": 1.5678237676620483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9925735573343771,
      "compression/movement_sparsity/importance_threshold": -4.819868883270111e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9213961850485819,
      "compression/movement_sparsity/model_sparsity": 0.8897433915459518,
      "compression_loss": 104.77942657470703,
      "distillation_loss": 3.6743621826171875,
      "epoch": 4.42,
      "learning_rate": 3.920162805259863e-05,
      "loss": 108.3935,
      "step": 5224,
      "task_loss": 2.5676376819610596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9926056600679386,
      "compression/movement_sparsity/importance_threshold": -4.7990337440887224e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9213872299986874,
      "compression/movement_sparsity/model_sparsity": 0.8897347441295701,
      "compression_loss": 104.78193664550781,
      "distillation_loss": 5.513715744018555,
      "epoch": 4.42,
      "learning_rate": 3.919849718221666e-05,
      "loss": 109.6042,
      "step": 5225,
      "task_loss": 3.014604330062866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9926376701529829,
      "compression/movement_sparsity/importance_threshold": -4.778258735137295e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9214073222211538,
      "compression/movement_sparsity/model_sparsity": 0.8897541461223839,
      "compression_loss": 104.78446197509766,
      "distillation_loss": 4.024284362792969,
      "epoch": 4.42,
      "learning_rate": 3.919536631183469e-05,
      "loss": 108.5432,
      "step": 5226,
      "task_loss": 2.5782055854797363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.992669587723395,
      "compression/movement_sparsity/importance_threshold": -4.7575437695224036e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9213962923660907,
      "compression/movement_sparsity/model_sparsity": 0.889743495176774,
      "compression_loss": 104.78694915771484,
      "distillation_loss": 4.841449737548828,
      "epoch": 4.42,
      "learning_rate": 3.9192235441452725e-05,
      "loss": 108.646,
      "step": 5227,
      "task_loss": 2.3400683403015137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99270141291306,
      "compression/movement_sparsity/importance_threshold": -4.736888760350881e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9214374665169373,
      "compression/movement_sparsity/model_sparsity": 0.8897832548688726,
      "compression_loss": 104.78944396972656,
      "distillation_loss": 2.705486297607422,
      "epoch": 4.42,
      "learning_rate": 3.918910457107076e-05,
      "loss": 108.2661,
      "step": 5228,
      "task_loss": 1.0299631357192993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9927331458558631,
      "compression/movement_sparsity/importance_threshold": -4.716293620729128e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9214424985156796,
      "compression/movement_sparsity/model_sparsity": 0.8897881140029779,
      "compression_loss": 104.79192352294922,
      "distillation_loss": 4.05254602432251,
      "epoch": 4.42,
      "learning_rate": 3.9185973700688795e-05,
      "loss": 108.3629,
      "step": 5229,
      "task_loss": 3.1972274780273438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9927647866856896,
      "compression/movement_sparsity/importance_threshold": -4.695758263763717e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9215370810133673,
      "compression/movement_sparsity/model_sparsity": 0.8898794473009001,
      "compression_loss": 104.79434204101562,
      "distillation_loss": 4.012119293212891,
      "epoch": 4.42,
      "learning_rate": 3.918284283030683e-05,
      "loss": 108.3135,
      "step": 5230,
      "task_loss": 1.5457711219787598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9927963355364243,
      "compression/movement_sparsity/importance_threshold": -4.675282602561483e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.921671251747606,
      "compression/movement_sparsity/model_sparsity": 0.8900090088576603,
      "compression_loss": 104.79676818847656,
      "distillation_loss": 4.5647454261779785,
      "epoch": 4.42,
      "learning_rate": 3.917971195992486e-05,
      "loss": 108.9735,
      "step": 5231,
      "task_loss": 2.073485851287842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9928277925419527,
      "compression/movement_sparsity/importance_threshold": -4.654866550228738e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.921733078556798,
      "compression/movement_sparsity/model_sparsity": 0.890068711725755,
      "compression_loss": 104.7991943359375,
      "distillation_loss": 3.914003610610962,
      "epoch": 4.42,
      "learning_rate": 3.91765810895429e-05,
      "loss": 108.7262,
      "step": 5232,
      "task_loss": 1.9792706966400146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9928591578361597,
      "compression/movement_sparsity/importance_threshold": -4.634510019872317e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217853660318812,
      "compression/movement_sparsity/model_sparsity": 0.8901192029652141,
      "compression_loss": 104.80162811279297,
      "distillation_loss": 5.11370849609375,
      "epoch": 4.42,
      "learning_rate": 3.917345021916093e-05,
      "loss": 108.2779,
      "step": 5233,
      "task_loss": 3.3140928745269775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9928904315529306,
      "compression/movement_sparsity/importance_threshold": -4.614212924598793e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217553052052712,
      "compression/movement_sparsity/model_sparsity": 0.890090174820476,
      "compression_loss": 104.8039779663086,
      "distillation_loss": 3.8267359733581543,
      "epoch": 4.42,
      "learning_rate": 3.917031934877896e-05,
      "loss": 108.7209,
      "step": 5234,
      "task_loss": 2.958289384841919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9929216138261504,
      "compression/movement_sparsity/importance_threshold": -4.5939751775146524e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217993769288534,
      "compression/movement_sparsity/model_sparsity": 0.8901327325447727,
      "compression_loss": 104.8063735961914,
      "distillation_loss": 3.9199142456054688,
      "epoch": 4.42,
      "learning_rate": 3.9167188478397e-05,
      "loss": 109.0279,
      "step": 5235,
      "task_loss": 1.7346760034561157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9929527047897043,
      "compression/movement_sparsity/importance_threshold": -4.573796691726469e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217190438114905,
      "compression/movement_sparsity/model_sparsity": 0.8900551591171248,
      "compression_loss": 104.80876922607422,
      "distillation_loss": 4.086296081542969,
      "epoch": 4.43,
      "learning_rate": 3.916405760801503e-05,
      "loss": 109.2378,
      "step": 5236,
      "task_loss": 2.672579288482666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9929837045774774,
      "compression/movement_sparsity/importance_threshold": -4.553677380341077e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217340086418736,
      "compression/movement_sparsity/model_sparsity": 0.890069609859547,
      "compression_loss": 104.8111343383789,
      "distillation_loss": 5.3857221603393555,
      "epoch": 4.43,
      "learning_rate": 3.916092673763306e-05,
      "loss": 109.0891,
      "step": 5237,
      "task_loss": 2.4617698192596436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9930146133233549,
      "compression/movement_sparsity/importance_threshold": -4.533617156464963e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217246958669499,
      "compression/movement_sparsity/model_sparsity": 0.8900606170070914,
      "compression_loss": 104.81360626220703,
      "distillation_loss": 4.920108318328857,
      "epoch": 4.43,
      "learning_rate": 3.9157795867251095e-05,
      "loss": 108.7942,
      "step": 5238,
      "task_loss": 3.0120975971221924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9930454311612219,
      "compression/movement_sparsity/importance_threshold": -4.5136159332046996e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217253755445052,
      "compression/movement_sparsity/model_sparsity": 0.8900612733356317,
      "compression_loss": 104.8160171508789,
      "distillation_loss": 5.516894340515137,
      "epoch": 4.43,
      "learning_rate": 3.915466499686913e-05,
      "loss": 109.6974,
      "step": 5239,
      "task_loss": 4.13726806640625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9930761582249636,
      "compression/movement_sparsity/importance_threshold": -4.4936736236667746e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9217443468952139,
      "compression/movement_sparsity/model_sparsity": 0.8900795929620808,
      "compression_loss": 104.81836700439453,
      "distillation_loss": 4.678866863250732,
      "epoch": 4.43,
      "learning_rate": 3.9151534126487165e-05,
      "loss": 108.469,
      "step": 5240,
      "task_loss": 2.009708881378174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9931067946484651,
      "compression/movement_sparsity/importance_threshold": -4.473790140958108e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9218189325637761,
      "compression/movement_sparsity/model_sparsity": 0.8901516163834757,
      "compression_loss": 104.82076263427734,
      "distillation_loss": 2.997682571411133,
      "epoch": 4.43,
      "learning_rate": 3.91484032561052e-05,
      "loss": 109.0701,
      "step": 5241,
      "task_loss": 1.8908257484436035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9931373405656115,
      "compression/movement_sparsity/importance_threshold": -4.4539653981850134e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.921822247482379,
      "compression/movement_sparsity/model_sparsity": 0.8901548174244266,
      "compression_loss": 104.8231430053711,
      "distillation_loss": 3.7847766876220703,
      "epoch": 4.43,
      "learning_rate": 3.914527238572323e-05,
      "loss": 108.636,
      "step": 5242,
      "task_loss": 3.237757682800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.993167796110288,
      "compression/movement_sparsity/importance_threshold": -4.434199308454151e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9218217585915058,
      "compression/movement_sparsity/model_sparsity": 0.8901543453284589,
      "compression_loss": 104.82555389404297,
      "distillation_loss": 3.939948081970215,
      "epoch": 4.43,
      "learning_rate": 3.914214151534127e-05,
      "loss": 108.888,
      "step": 5243,
      "task_loss": 1.2721835374832153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9931981614163798,
      "compression/movement_sparsity/importance_threshold": -4.414491784872181e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9218601186387905,
      "compression/movement_sparsity/model_sparsity": 0.8901913875901101,
      "compression_loss": 104.82796478271484,
      "distillation_loss": 3.7275490760803223,
      "epoch": 4.43,
      "learning_rate": 3.91390106449593e-05,
      "loss": 108.6687,
      "step": 5244,
      "task_loss": 2.595417022705078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9932284366177719,
      "compression/movement_sparsity/importance_threshold": -4.394842740545763e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9218939832748763,
      "compression/movement_sparsity/model_sparsity": 0.8902240888717665,
      "compression_loss": 104.830322265625,
      "distillation_loss": 4.744063377380371,
      "epoch": 4.43,
      "learning_rate": 3.913587977457733e-05,
      "loss": 109.0521,
      "step": 5245,
      "task_loss": 2.6495957374572754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9932586218483495,
      "compression/movement_sparsity/importance_threshold": -4.3752520885814716e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9219308408770387,
      "compression/movement_sparsity/model_sparsity": 0.8902596803019075,
      "compression_loss": 104.83267211914062,
      "distillation_loss": 3.547182559967041,
      "epoch": 4.43,
      "learning_rate": 3.913274890419536e-05,
      "loss": 109.2431,
      "step": 5246,
      "task_loss": 1.8291900157928467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9932887172419977,
      "compression/movement_sparsity/importance_threshold": -4.35571974208588e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9219749602972914,
      "compression/movement_sparsity/model_sparsity": 0.8903022840843472,
      "compression_loss": 104.83503723144531,
      "distillation_loss": 3.4591503143310547,
      "epoch": 4.44,
      "learning_rate": 3.91296180338134e-05,
      "loss": 108.5824,
      "step": 5247,
      "task_loss": 1.8545434474945068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9933187229326018,
      "compression/movement_sparsity/importance_threshold": -4.3362456141654744e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9220000129734944,
      "compression/movement_sparsity/model_sparsity": 0.8903264761240516,
      "compression_loss": 104.83750915527344,
      "distillation_loss": 4.299471855163574,
      "epoch": 4.44,
      "learning_rate": 3.912648716343143e-05,
      "loss": 108.7157,
      "step": 5248,
      "task_loss": 2.62660813331604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9933486390540468,
      "compression/movement_sparsity/importance_threshold": -4.3168296179270024e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9220173626374045,
      "compression/movement_sparsity/model_sparsity": 0.8903432297736327,
      "compression_loss": 104.83989715576172,
      "distillation_loss": 5.310114860534668,
      "epoch": 4.44,
      "learning_rate": 3.912335629304947e-05,
      "loss": 109.2649,
      "step": 5249,
      "task_loss": 2.229037046432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9933784657402178,
      "compression/movement_sparsity/importance_threshold": -4.297471666477124e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9220296445300695,
      "compression/movement_sparsity/model_sparsity": 0.890355089745501,
      "compression_loss": 104.84227752685547,
      "distillation_loss": 3.8361470699310303,
      "epoch": 4.44,
      "learning_rate": 3.91202254226675e-05,
      "loss": 109.0718,
      "step": 5250,
      "task_loss": 2.7776265144348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.993408203125,
      "compression/movement_sparsity/importance_threshold": -4.278171672922326e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9220268542748428,
      "compression/movement_sparsity/model_sparsity": 0.8903523953441251,
      "compression_loss": 104.8445816040039,
      "distillation_loss": 3.5003743171691895,
      "epoch": 4.44,
      "learning_rate": 3.9117094552285535e-05,
      "loss": 108.4146,
      "step": 5251,
      "task_loss": 2.2551348209381104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9934378513422786,
      "compression/movement_sparsity/importance_threshold": -4.258929550369269e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9220867970655482,
      "compression/movement_sparsity/model_sparsity": 0.8904102789155642,
      "compression_loss": 104.846923828125,
      "distillation_loss": 4.123427867889404,
      "epoch": 4.44,
      "learning_rate": 3.911396368190357e-05,
      "loss": 108.7191,
      "step": 5252,
      "task_loss": 2.0874600410461426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9934674105259387,
      "compression/movement_sparsity/importance_threshold": -4.2397452119244394e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9221232850185139,
      "compression/movement_sparsity/model_sparsity": 0.8904455133950956,
      "compression_loss": 104.84919738769531,
      "distillation_loss": 4.708954334259033,
      "epoch": 4.44,
      "learning_rate": 3.9110832811521605e-05,
      "loss": 108.6928,
      "step": 5253,
      "task_loss": 2.3759162425994873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9934968808098653,
      "compression/movement_sparsity/importance_threshold": -4.220618570694584e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9221967498153185,
      "compression/movement_sparsity/model_sparsity": 0.8905164544501257,
      "compression_loss": 104.85151672363281,
      "distillation_loss": 3.94258975982666,
      "epoch": 4.44,
      "learning_rate": 3.9107701941139644e-05,
      "loss": 108.3729,
      "step": 5254,
      "task_loss": 2.492131471633911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9935262623279438,
      "compression/movement_sparsity/importance_threshold": -4.201549539786277e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922191133532362,
      "compression/movement_sparsity/model_sparsity": 0.8905110311037665,
      "compression_loss": 104.85381317138672,
      "distillation_loss": 5.060490608215332,
      "epoch": 4.44,
      "learning_rate": 3.9104571070757675e-05,
      "loss": 109.6051,
      "step": 5255,
      "task_loss": 3.3539557456970215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9935555552140591,
      "compression/movement_sparsity/importance_threshold": -4.1825380323060914e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9222048105526404,
      "compression/movement_sparsity/model_sparsity": 0.8905242382763228,
      "compression_loss": 104.85609436035156,
      "distillation_loss": 5.043981552124023,
      "epoch": 4.44,
      "learning_rate": 3.910144020037571e-05,
      "loss": 109.3956,
      "step": 5256,
      "task_loss": 2.086989402770996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9935847596020966,
      "compression/movement_sparsity/importance_threshold": -4.1635839613606875e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922242514770705,
      "compression/movement_sparsity/model_sparsity": 0.8905606472385051,
      "compression_loss": 104.85843658447266,
      "distillation_loss": 4.870553016662598,
      "epoch": 4.44,
      "learning_rate": 3.909830932999374e-05,
      "loss": 109.1375,
      "step": 5257,
      "task_loss": 2.3580644130706787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9936138756259413,
      "compression/movement_sparsity/importance_threshold": -4.1446872400564654e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9222112615273313,
      "compression/movement_sparsity/model_sparsity": 0.8905304676401876,
      "compression_loss": 104.86073303222656,
      "distillation_loss": 6.055621147155762,
      "epoch": 4.44,
      "learning_rate": 3.909517845961178e-05,
      "loss": 109.3461,
      "step": 5258,
      "task_loss": 3.0998194217681885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9936429034194781,
      "compression/movement_sparsity/importance_threshold": -4.125847781500432e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9222626308415066,
      "compression/movement_sparsity/model_sparsity": 0.8905800722603905,
      "compression_loss": 104.86306762695312,
      "distillation_loss": 5.838710784912109,
      "epoch": 4.45,
      "learning_rate": 3.909204758922981e-05,
      "loss": 109.0118,
      "step": 5259,
      "task_loss": 3.215682029724121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9936718431165926,
      "compression/movement_sparsity/importance_threshold": -4.107065498798728e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9223681835734193,
      "compression/movement_sparsity/model_sparsity": 0.8906819989312438,
      "compression_loss": 104.86539459228516,
      "distillation_loss": 3.9886727333068848,
      "epoch": 4.45,
      "learning_rate": 3.908891671884784e-05,
      "loss": 109.2574,
      "step": 5260,
      "task_loss": 2.0089874267578125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9937006948511696,
      "compression/movement_sparsity/importance_threshold": -4.088340305058273e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224144851163494,
      "compression/movement_sparsity/model_sparsity": 0.890726709873734,
      "compression_loss": 104.86768341064453,
      "distillation_loss": 5.58887243270874,
      "epoch": 4.45,
      "learning_rate": 3.908578584846588e-05,
      "loss": 109.2874,
      "step": 5261,
      "task_loss": 3.0017571449279785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9937294587570944,
      "compression/movement_sparsity/importance_threshold": -4.069672113385641e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224390131291763,
      "compression/movement_sparsity/model_sparsity": 0.8907503952738633,
      "compression_loss": 104.86988830566406,
      "distillation_loss": 2.7880280017852783,
      "epoch": 4.45,
      "learning_rate": 3.908265497808391e-05,
      "loss": 108.0398,
      "step": 5262,
      "task_loss": 2.175285816192627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9937581349682522,
      "compression/movement_sparsity/importance_threshold": -4.051060836887232e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224601189058917,
      "compression/movement_sparsity/model_sparsity": 0.8907707760022198,
      "compression_loss": 104.87216186523438,
      "distillation_loss": 3.7732460498809814,
      "epoch": 4.45,
      "learning_rate": 3.907952410770194e-05,
      "loss": 108.4247,
      "step": 5263,
      "task_loss": 1.9957847595214844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9937867236185278,
      "compression/movement_sparsity/importance_threshold": -4.032506388669879e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224551942246582,
      "compression/movement_sparsity/model_sparsity": 0.8907660204989366,
      "compression_loss": 104.87435150146484,
      "distillation_loss": 3.764341115951538,
      "epoch": 4.45,
      "learning_rate": 3.9076393237319975e-05,
      "loss": 109.0613,
      "step": 5264,
      "task_loss": 2.689113140106201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9938152248418067,
      "compression/movement_sparsity/importance_threshold": -4.01400868184007e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9225355511903562,
      "compression/movement_sparsity/model_sparsity": 0.890843616955656,
      "compression_loss": 104.87655639648438,
      "distillation_loss": 5.940247535705566,
      "epoch": 4.45,
      "learning_rate": 3.9073262366938014e-05,
      "loss": 109.9672,
      "step": 5265,
      "task_loss": 3.0225565433502197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9938436387719739,
      "compression/movement_sparsity/importance_threshold": -3.9955676295044644e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9225108085425119,
      "compression/movement_sparsity/model_sparsity": 0.8908197242938823,
      "compression_loss": 104.87875366210938,
      "distillation_loss": 4.918890953063965,
      "epoch": 4.45,
      "learning_rate": 3.9070131496556045e-05,
      "loss": 109.1973,
      "step": 5266,
      "task_loss": 2.9872195720672607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9938719655429147,
      "compression/movement_sparsity/importance_threshold": -3.977183144769549e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224774208731314,
      "compression/movement_sparsity/model_sparsity": 0.8907874835936576,
      "compression_loss": 104.88092041015625,
      "distillation_loss": 4.459075927734375,
      "epoch": 4.45,
      "learning_rate": 3.906700062617408e-05,
      "loss": 109.2388,
      "step": 5267,
      "task_loss": 3.7838973999023438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9939002052885139,
      "compression/movement_sparsity/importance_threshold": -3.9588551407420715e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9225019846584613,
      "compression/movement_sparsity/model_sparsity": 0.8908112035373944,
      "compression_loss": 104.88311004638672,
      "distillation_loss": 4.022736549377441,
      "epoch": 4.45,
      "learning_rate": 3.906386975579211e-05,
      "loss": 109.0134,
      "step": 5268,
      "task_loss": 2.099761962890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9939283581426569,
      "compression/movement_sparsity/importance_threshold": -3.9405835305286047e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224935900444456,
      "compression/movement_sparsity/model_sparsity": 0.890803097304195,
      "compression_loss": 104.88525390625,
      "distillation_loss": 7.006826877593994,
      "epoch": 4.45,
      "learning_rate": 3.906073888541015e-05,
      "loss": 109.5404,
      "step": 5269,
      "task_loss": 3.479982852935791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9939564242392288,
      "compression/movement_sparsity/importance_threshold": -3.9223682272356356e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224816539526421,
      "compression/movement_sparsity/model_sparsity": 0.8907915712538647,
      "compression_loss": 104.88743591308594,
      "distillation_loss": 4.24521017074585,
      "epoch": 4.45,
      "learning_rate": 3.905760801502818e-05,
      "loss": 108.7445,
      "step": 5270,
      "task_loss": 1.5054097175598145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9939844037121147,
      "compression/movement_sparsity/importance_threshold": -3.904209143969911e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9225000529433043,
      "compression/movement_sparsity/model_sparsity": 0.8908093381825957,
      "compression_loss": 104.88961029052734,
      "distillation_loss": 3.2264976501464844,
      "epoch": 4.46,
      "learning_rate": 3.905447714464621e-05,
      "loss": 108.7914,
      "step": 5271,
      "task_loss": 2.335114002227783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9940122966951997,
      "compression/movement_sparsity/importance_threshold": -3.886106193838092e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9224911813625832,
      "compression/movement_sparsity/model_sparsity": 0.8908007713679645,
      "compression_loss": 104.89173126220703,
      "distillation_loss": 4.088120937347412,
      "epoch": 4.46,
      "learning_rate": 3.905134627426425e-05,
      "loss": 108.8399,
      "step": 5272,
      "task_loss": 2.5771496295928955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9940401033223691,
      "compression/movement_sparsity/importance_threshold": -3.8680592899464905e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9225525312050697,
      "compression/movement_sparsity/model_sparsity": 0.8908600136546274,
      "compression_loss": 104.89390563964844,
      "distillation_loss": 5.352330684661865,
      "epoch": 4.46,
      "learning_rate": 3.904821540388228e-05,
      "loss": 108.9064,
      "step": 5273,
      "task_loss": 3.81376576423645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9940678237275079,
      "compression/movement_sparsity/importance_threshold": -3.850068345402028e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226211667139818,
      "compression/movement_sparsity/model_sparsity": 0.8909262913226608,
      "compression_loss": 104.89605712890625,
      "distillation_loss": 3.9217419624328613,
      "epoch": 4.46,
      "learning_rate": 3.904508453350031e-05,
      "loss": 109.0913,
      "step": 5274,
      "task_loss": 2.286540985107422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9940954580445013,
      "compression/movement_sparsity/importance_threshold": -3.832133273311191e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226502139863427,
      "compression/movement_sparsity/model_sparsity": 0.8909543407318563,
      "compression_loss": 104.8980712890625,
      "distillation_loss": 4.030981063842773,
      "epoch": 4.46,
      "learning_rate": 3.9041953663118345e-05,
      "loss": 108.5615,
      "step": 5275,
      "task_loss": 1.5816586017608643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9941230064072344,
      "compression/movement_sparsity/importance_threshold": -3.8142539867804665e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226232057466475,
      "compression/movement_sparsity/model_sparsity": 0.8909282603082816,
      "compression_loss": 104.90018463134766,
      "distillation_loss": 4.432637691497803,
      "epoch": 4.46,
      "learning_rate": 3.9038822792736384e-05,
      "loss": 109.6509,
      "step": 5276,
      "task_loss": 3.0886049270629883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9941504689495924,
      "compression/movement_sparsity/importance_threshold": -3.796430398916601e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226220610265544,
      "compression/movement_sparsity/model_sparsity": 0.8909271549128454,
      "compression_loss": 104.9021987915039,
      "distillation_loss": 3.5032286643981934,
      "epoch": 4.46,
      "learning_rate": 3.9035691922354415e-05,
      "loss": 108.4376,
      "step": 5277,
      "task_loss": 2.1379404067993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9941778458054604,
      "compression/movement_sparsity/importance_threshold": -3.778662422826082e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226249705234576,
      "compression/movement_sparsity/model_sparsity": 0.8909299644595793,
      "compression_loss": 104.90426635742188,
      "distillation_loss": 4.3856964111328125,
      "epoch": 4.46,
      "learning_rate": 3.903256105197245e-05,
      "loss": 108.431,
      "step": 5278,
      "task_loss": 1.803727626800537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9942051371087235,
      "compression/movement_sparsity/importance_threshold": -3.760949971615742e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226187461079517,
      "compression/movement_sparsity/model_sparsity": 0.8909239538718945,
      "compression_loss": 104.90626525878906,
      "distillation_loss": 4.30812406539917,
      "epoch": 4.46,
      "learning_rate": 3.902943018159048e-05,
      "loss": 108.3781,
      "step": 5279,
      "task_loss": 2.271852493286133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9942323429932669,
      "compression/movement_sparsity/importance_threshold": -3.7432929583919826e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226271645703026,
      "compression/movement_sparsity/model_sparsity": 0.8909320831341655,
      "compression_loss": 104.90834045410156,
      "distillation_loss": 5.2103118896484375,
      "epoch": 4.46,
      "learning_rate": 3.902629931120852e-05,
      "loss": 109.2174,
      "step": 5280,
      "task_loss": 2.771564483642578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9942594635929758,
      "compression/movement_sparsity/importance_threshold": -3.725691296261376e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226562356909989,
      "compression/movement_sparsity/model_sparsity": 0.8909601555724326,
      "compression_loss": 104.9103775024414,
      "distillation_loss": 5.607692718505859,
      "epoch": 4.46,
      "learning_rate": 3.902316844082655e-05,
      "loss": 109.2381,
      "step": 5281,
      "task_loss": 2.8570120334625244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9942864990417352,
      "compression/movement_sparsity/importance_threshold": -3.70814489833067e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226770552876911,
      "compression/movement_sparsity/model_sparsity": 0.8909802599519298,
      "compression_loss": 104.91243743896484,
      "distillation_loss": 5.03422212600708,
      "epoch": 4.46,
      "learning_rate": 3.902003757044458e-05,
      "loss": 108.4783,
      "step": 5282,
      "task_loss": 3.5717780590057373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9943134494734303,
      "compression/movement_sparsity/importance_threshold": -3.6906536777063514e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9226743842741406,
      "compression/movement_sparsity/model_sparsity": 0.8909776806959119,
      "compression_loss": 104.9144515991211,
      "distillation_loss": 3.5012094974517822,
      "epoch": 4.47,
      "learning_rate": 3.901690670006262e-05,
      "loss": 108.8754,
      "step": 5283,
      "task_loss": 2.726625680923462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9943403150219462,
      "compression/movement_sparsity/importance_threshold": -3.673217547495167e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922692580553953,
      "compression/movement_sparsity/model_sparsity": 0.8909952518775343,
      "compression_loss": 104.91647338867188,
      "distillation_loss": 5.708859920501709,
      "epoch": 4.47,
      "learning_rate": 3.901377582968065e-05,
      "loss": 109.7948,
      "step": 5284,
      "task_loss": 2.945394992828369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9943670958211681,
      "compression/movement_sparsity/importance_threshold": -3.655836420803603e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227418512146244,
      "compression/movement_sparsity/model_sparsity": 0.8910428299394373,
      "compression_loss": 104.91847229003906,
      "distillation_loss": 3.705343723297119,
      "epoch": 4.47,
      "learning_rate": 3.901064495929869e-05,
      "loss": 109.1796,
      "step": 5285,
      "task_loss": 1.8018414974212646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9943937920049812,
      "compression/movement_sparsity/importance_threshold": -3.6385102107382335e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228017940053298,
      "compression/movement_sparsity/model_sparsity": 0.8911007135108765,
      "compression_loss": 104.9204330444336,
      "distillation_loss": 2.894232749938965,
      "epoch": 4.47,
      "learning_rate": 3.900751408891672e-05,
      "loss": 108.9192,
      "step": 5286,
      "task_loss": 1.8421754837036133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9944204037072706,
      "compression/movement_sparsity/importance_threshold": -3.6212388304058055e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227865429949236,
      "compression/movement_sparsity/model_sparsity": 0.8910859864195952,
      "compression_loss": 104.92242431640625,
      "distillation_loss": 3.6209769248962402,
      "epoch": 4.47,
      "learning_rate": 3.900438321853476e-05,
      "loss": 109.0368,
      "step": 5287,
      "task_loss": 2.1490585803985596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9944469310619213,
      "compression/movement_sparsity/importance_threshold": -3.6040221929128056e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228407860334991,
      "compression/movement_sparsity/model_sparsity": 0.8911383660429246,
      "compression_loss": 104.92440032958984,
      "distillation_loss": 4.708249568939209,
      "epoch": 4.47,
      "learning_rate": 3.900125234815279e-05,
      "loss": 109.5676,
      "step": 5288,
      "task_loss": 2.9055228233337402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9944733742028186,
      "compression/movement_sparsity/importance_threshold": -3.586860211365894e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227827034129448,
      "compression/movement_sparsity/model_sparsity": 0.8910822787390694,
      "compression_loss": 104.9263687133789,
      "distillation_loss": 3.7109951972961426,
      "epoch": 4.47,
      "learning_rate": 3.8998121477770824e-05,
      "loss": 108.6798,
      "step": 5289,
      "task_loss": 1.9437371492385864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9944997332638476,
      "compression/movement_sparsity/importance_threshold": -3.569752798871645e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227781245325726,
      "compression/movement_sparsity/model_sparsity": 0.8910778571573243,
      "compression_loss": 104.92829895019531,
      "distillation_loss": 4.350333213806152,
      "epoch": 4.47,
      "learning_rate": 3.8994990607388856e-05,
      "loss": 108.7913,
      "step": 5290,
      "task_loss": 1.6621261835098267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9945260083788934,
      "compression/movement_sparsity/importance_threshold": -3.552699868536631e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227775521725261,
      "compression/movement_sparsity/model_sparsity": 0.8910773044596062,
      "compression_loss": 104.93026733398438,
      "distillation_loss": 3.402581214904785,
      "epoch": 4.47,
      "learning_rate": 3.8991859737006894e-05,
      "loss": 109.848,
      "step": 5291,
      "task_loss": 2.1002132892608643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9945521996818412,
      "compression/movement_sparsity/importance_threshold": -3.535701333467513e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922789345174318,
      "compression/movement_sparsity/model_sparsity": 0.891088692335507,
      "compression_loss": 104.93221282958984,
      "distillation_loss": 4.1564412117004395,
      "epoch": 4.47,
      "learning_rate": 3.8988728866624926e-05,
      "loss": 110.3441,
      "step": 5292,
      "task_loss": 2.4135560989379883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9945783073065761,
      "compression/movement_sparsity/importance_threshold": -3.518757106770777e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228027121662378,
      "compression/movement_sparsity/model_sparsity": 0.8911016001301327,
      "compression_loss": 104.93416595458984,
      "distillation_loss": 4.276082992553711,
      "epoch": 4.47,
      "learning_rate": 3.898559799624296e-05,
      "loss": 108.8935,
      "step": 5293,
      "task_loss": 1.8918296098709106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9946043313869832,
      "compression/movement_sparsity/importance_threshold": -3.5018671015533444e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228116552919646,
      "compression/movement_sparsity/model_sparsity": 0.8911102360319786,
      "compression_loss": 104.93617248535156,
      "distillation_loss": 5.882461071014404,
      "epoch": 4.47,
      "learning_rate": 3.898246712586099e-05,
      "loss": 109.8707,
      "step": 5294,
      "task_loss": 2.807783365249634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9946302720569479,
      "compression/movement_sparsity/importance_threshold": -3.485031230921441e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9227935424813258,
      "compression/movement_sparsity/model_sparsity": 0.8910927454521067,
      "compression_loss": 104.93814086914062,
      "distillation_loss": 3.617096185684204,
      "epoch": 4.48,
      "learning_rate": 3.897933625547903e-05,
      "loss": 108.878,
      "step": 5295,
      "task_loss": 2.2942380905151367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.994656129450355,
      "compression/movement_sparsity/importance_threshold": -3.4682494079818146e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228546776887949,
      "compression/movement_sparsity/model_sparsity": 0.8911517804771253,
      "compression_loss": 104.94014739990234,
      "distillation_loss": 4.526923179626465,
      "epoch": 4.48,
      "learning_rate": 3.897620538509706e-05,
      "loss": 108.8202,
      "step": 5296,
      "task_loss": 2.555478811264038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9946819037010897,
      "compression/movement_sparsity/importance_threshold": -3.4515215458412116e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228901759358469,
      "compression/movement_sparsity/model_sparsity": 0.8911860592501857,
      "compression_loss": 104.94213104248047,
      "distillation_loss": 4.733516216278076,
      "epoch": 4.48,
      "learning_rate": 3.897307451471509e-05,
      "loss": 108.9877,
      "step": 5297,
      "task_loss": 2.7907636165618896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9947075949430373,
      "compression/movement_sparsity/importance_threshold": -3.434847557606032e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229329836976596,
      "compression/movement_sparsity/model_sparsity": 0.8912273964336881,
      "compression_loss": 104.94408416748047,
      "distillation_loss": 3.833735942840576,
      "epoch": 4.48,
      "learning_rate": 3.896994364433313e-05,
      "loss": 108.7655,
      "step": 5298,
      "task_loss": 2.63924503326416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9947332033100829,
      "compression/movement_sparsity/importance_threshold": -3.4182273563829364e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922882246364369,
      "compression/movement_sparsity/model_sparsity": 0.8911784020838822,
      "compression_loss": 104.94599914550781,
      "distillation_loss": 4.926333904266357,
      "epoch": 4.48,
      "learning_rate": 3.896681277395116e-05,
      "loss": 109.2898,
      "step": 5299,
      "task_loss": 2.8917059898376465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9947587289361115,
      "compression/movement_sparsity/importance_threshold": -3.401660855278585e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229009076867191,
      "compression/movement_sparsity/model_sparsity": 0.8911964223324007,
      "compression_loss": 104.94790649414062,
      "distillation_loss": 5.437877178192139,
      "epoch": 4.48,
      "learning_rate": 3.8963681903569194e-05,
      "loss": 108.9934,
      "step": 5300,
      "task_loss": 2.3221662044525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9947841719550083,
      "compression/movement_sparsity/importance_threshold": -3.385147967399551e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922893836655311,
      "compression/movement_sparsity/model_sparsity": 0.8911895942126745,
      "compression_loss": 104.94984436035156,
      "distillation_loss": 4.193413257598877,
      "epoch": 4.48,
      "learning_rate": 3.8960551033187225e-05,
      "loss": 108.8129,
      "step": 5301,
      "task_loss": 2.473317861557007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9948095325006586,
      "compression/movement_sparsity/importance_threshold": -3.368688605852408e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9228940393661609,
      "compression/movement_sparsity/model_sparsity": 0.891189789959783,
      "compression_loss": 104.95173645019531,
      "distillation_loss": 3.0134565830230713,
      "epoch": 4.48,
      "learning_rate": 3.8957420162805264e-05,
      "loss": 108.6144,
      "step": 5302,
      "task_loss": 1.5591151714324951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9948348107069473,
      "compression/movement_sparsity/importance_threshold": -3.3522826837439033e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229326140484628,
      "compression/movement_sparsity/model_sparsity": 0.8912270394830784,
      "compression_loss": 104.9536361694336,
      "distillation_loss": 4.1993408203125,
      "epoch": 4.48,
      "learning_rate": 3.8954289292423296e-05,
      "loss": 108.8887,
      "step": 5303,
      "task_loss": 2.623748540878296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9948600067077598,
      "compression/movement_sparsity/importance_threshold": -3.335930114180437e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.922937979923899,
      "compression/movement_sparsity/model_sparsity": 0.891232221024186,
      "compression_loss": 104.95553588867188,
      "distillation_loss": 4.849981307983398,
      "epoch": 4.48,
      "learning_rate": 3.895115842204133e-05,
      "loss": 109.7846,
      "step": 5304,
      "task_loss": 3.043452501296997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.994885120636981,
      "compression/movement_sparsity/importance_threshold": -3.3196308102686686e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229890749822187,
      "compression/movement_sparsity/model_sparsity": 0.8912815608100656,
      "compression_loss": 104.95742797851562,
      "distillation_loss": 4.00096321105957,
      "epoch": 4.48,
      "learning_rate": 3.894802755165936e-05,
      "loss": 108.6422,
      "step": 5305,
      "task_loss": 2.257833242416382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9949101526284962,
      "compression/movement_sparsity/importance_threshold": -3.303384685115259e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229958479094359,
      "compression/movement_sparsity/model_sparsity": 0.8912881010663969,
      "compression_loss": 104.95935821533203,
      "distillation_loss": 3.4167909622192383,
      "epoch": 4.48,
      "learning_rate": 3.89448966812774e-05,
      "loss": 108.3845,
      "step": 5306,
      "task_loss": 1.7278761863708496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9949351028161905,
      "compression/movement_sparsity/importance_threshold": -3.287191651826782e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9230142230517627,
      "compression/movement_sparsity/model_sparsity": 0.8913058449660562,
      "compression_loss": 104.961181640625,
      "distillation_loss": 3.8735382556915283,
      "epoch": 4.49,
      "learning_rate": 3.894176581089543e-05,
      "loss": 109.0669,
      "step": 5307,
      "task_loss": 1.8631408214569092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.994959971333949,
      "compression/movement_sparsity/importance_threshold": -3.271051623509897e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229520742900446,
      "compression/movement_sparsity/model_sparsity": 0.891245831205495,
      "compression_loss": 104.96311950683594,
      "distillation_loss": 3.133443593978882,
      "epoch": 4.49,
      "learning_rate": 3.893863494051346e-05,
      "loss": 109.3277,
      "step": 5308,
      "task_loss": 1.8549857139587402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9949847583156568,
      "compression/movement_sparsity/importance_threshold": -3.2549645132710914e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229521816075533,
      "compression/movement_sparsity/model_sparsity": 0.8912459348363172,
      "compression_loss": 104.96497344970703,
      "distillation_loss": 4.805838108062744,
      "epoch": 4.49,
      "learning_rate": 3.89355040701315e-05,
      "loss": 109.7262,
      "step": 5309,
      "task_loss": 2.9234650135040283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9950094638951992,
      "compression/movement_sparsity/importance_threshold": -3.238930234217025e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229887411055249,
      "compression/movement_sparsity/model_sparsity": 0.8912812384030633,
      "compression_loss": 104.96681213378906,
      "distillation_loss": 3.557203531265259,
      "epoch": 4.49,
      "learning_rate": 3.893237319974953e-05,
      "loss": 109.0063,
      "step": 5310,
      "task_loss": 1.8688182830810547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9950340882064611,
      "compression/movement_sparsity/importance_threshold": -3.2229486994544455e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9229970522503671,
      "compression/movement_sparsity/model_sparsity": 0.8912892640345121,
      "compression_loss": 104.96865844726562,
      "distillation_loss": 4.956334590911865,
      "epoch": 4.49,
      "learning_rate": 3.8929242329367564e-05,
      "loss": 109.5451,
      "step": 5311,
      "task_loss": 2.433436155319214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9950586313833278,
      "compression/movement_sparsity/importance_threshold": -3.2070198220897524e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9230566730885464,
      "compression/movement_sparsity/model_sparsity": 0.8913468367134848,
      "compression_loss": 104.97045135498047,
      "distillation_loss": 4.149485111236572,
      "epoch": 4.49,
      "learning_rate": 3.8926111458985595e-05,
      "loss": 108.5969,
      "step": 5312,
      "task_loss": 1.9444470405578613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9950830935596846,
      "compression/movement_sparsity/importance_threshold": -3.191143515229519e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9230921713355984,
      "compression/movement_sparsity/model_sparsity": 0.8913811154865452,
      "compression_loss": 104.97228240966797,
      "distillation_loss": 3.8159453868865967,
      "epoch": 4.49,
      "learning_rate": 3.8922980588603634e-05,
      "loss": 108.7004,
      "step": 5313,
      "task_loss": 1.2942448854446411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9951074748694163,
      "compression/movement_sparsity/importance_threshold": -3.17531969198058e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9231203123712189,
      "compression/movement_sparsity/model_sparsity": 0.8914082897910203,
      "compression_loss": 104.97412109375,
      "distillation_loss": 3.9022929668426514,
      "epoch": 4.49,
      "learning_rate": 3.8919849718221666e-05,
      "loss": 109.4979,
      "step": 5314,
      "task_loss": 2.8320107460021973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9951317754464083,
      "compression/movement_sparsity/importance_threshold": -3.159548265449421e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9231519352637892,
      "compression/movement_sparsity/model_sparsity": 0.8914388263399474,
      "compression_loss": 104.97590637207031,
      "distillation_loss": 5.155794620513916,
      "epoch": 4.49,
      "learning_rate": 3.89167188478397e-05,
      "loss": 109.8148,
      "step": 5315,
      "task_loss": 3.1778371334075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9951559954245457,
      "compression/movement_sparsity/importance_threshold": -3.1438291487425295e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9231753662531937,
      "compression/movement_sparsity/model_sparsity": 0.8914614524027836,
      "compression_loss": 104.97773742675781,
      "distillation_loss": 5.103322982788086,
      "epoch": 4.49,
      "learning_rate": 3.8913587977457736e-05,
      "loss": 109.7091,
      "step": 5316,
      "task_loss": 2.435004234313965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9951801349377135,
      "compression/movement_sparsity/importance_threshold": -3.128162254966652e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9232103994577079,
      "compression/movement_sparsity/model_sparsity": 0.891495282108948,
      "compression_loss": 104.97955322265625,
      "distillation_loss": 2.7119407653808594,
      "epoch": 4.49,
      "learning_rate": 3.891045710707577e-05,
      "loss": 108.6346,
      "step": 5317,
      "task_loss": 1.9715889692306519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9952041941197969,
      "compression/movement_sparsity/importance_threshold": -3.1125474972284496e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9232078834583368,
      "compression/movement_sparsity/model_sparsity": 0.8914928525418954,
      "compression_loss": 104.98138427734375,
      "distillation_loss": 4.23311710357666,
      "epoch": 4.5,
      "learning_rate": 3.89073262366938e-05,
      "loss": 108.8413,
      "step": 5318,
      "task_loss": 2.291778564453125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9952281731046811,
      "compression/movement_sparsity/importance_threshold": -3.0969847886343216e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9232371572898828,
      "compression/movement_sparsity/model_sparsity": 0.891521120727271,
      "compression_loss": 104.98318481445312,
      "distillation_loss": 7.256402969360352,
      "epoch": 4.5,
      "learning_rate": 3.890419536631184e-05,
      "loss": 109.8205,
      "step": 5319,
      "task_loss": 3.2907369136810303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9952520720262512,
      "compression/movement_sparsity/importance_threshold": -3.081474042291015e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923205486700642,
      "compression/movement_sparsity/model_sparsity": 0.8914905381202006,
      "compression_loss": 104.9850082397461,
      "distillation_loss": 3.632678508758545,
      "epoch": 4.5,
      "learning_rate": 3.890106449592987e-05,
      "loss": 108.8173,
      "step": 5320,
      "task_loss": 2.4619462490081787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9952758910183924,
      "compression/movement_sparsity/importance_threshold": -3.066015171305104e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923231290599406,
      "compression/movement_sparsity/model_sparsity": 0.89151545557566,
      "compression_loss": 104.9867172241211,
      "distillation_loss": 2.4886250495910645,
      "epoch": 4.5,
      "learning_rate": 3.889793362554791e-05,
      "loss": 108.9896,
      "step": 5321,
      "task_loss": 2.262223958969116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9952996302149898,
      "compression/movement_sparsity/importance_threshold": -3.0506080887831612e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9232429762836891,
      "compression/movement_sparsity/model_sparsity": 0.8915267398207387,
      "compression_loss": 104.9884262084961,
      "distillation_loss": 4.979306221008301,
      "epoch": 4.5,
      "learning_rate": 3.889480275516594e-05,
      "loss": 109.1671,
      "step": 5322,
      "task_loss": 1.7315515279769897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9953232897499285,
      "compression/movement_sparsity/importance_threshold": -3.035252707831934e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9233317278634029,
      "compression/movement_sparsity/model_sparsity": 0.8916124425106575,
      "compression_loss": 104.9902114868164,
      "distillation_loss": 3.23844575881958,
      "epoch": 4.5,
      "learning_rate": 3.889167188478397e-05,
      "loss": 108.4679,
      "step": 5323,
      "task_loss": 1.4200379848480225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9953468697570936,
      "compression/movement_sparsity/importance_threshold": -3.0199489415578228e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9233527382467772,
      "compression/movement_sparsity/model_sparsity": 0.8916327311227275,
      "compression_loss": 104.99189758300781,
      "distillation_loss": 4.032686233520508,
      "epoch": 4.5,
      "learning_rate": 3.888854101440201e-05,
      "loss": 109.1486,
      "step": 5324,
      "task_loss": 2.0730175971984863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9953703703703703,
      "compression/movement_sparsity/importance_threshold": -3.004696703067574e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9233582829847279,
      "compression/movement_sparsity/model_sparsity": 0.891638085381872,
      "compression_loss": 104.99366760253906,
      "distillation_loss": 3.8643064498901367,
      "epoch": 4.5,
      "learning_rate": 3.888541014402004e-05,
      "loss": 108.5947,
      "step": 5325,
      "task_loss": 1.968390703201294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.995393791723644,
      "compression/movement_sparsity/importance_threshold": -2.989495905467588e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9233584976197453,
      "compression/movement_sparsity/model_sparsity": 0.8916382926435162,
      "compression_loss": 104.9954605102539,
      "distillation_loss": 4.609438896179199,
      "epoch": 4.5,
      "learning_rate": 3.8882279273638074e-05,
      "loss": 109.1978,
      "step": 5326,
      "task_loss": 2.3824996948242188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9954171339507993,
      "compression/movement_sparsity/importance_threshold": -2.9743464618647852e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9234288382846293,
      "compression/movement_sparsity/model_sparsity": 0.8917062168901683,
      "compression_loss": 104.9971923828125,
      "distillation_loss": 3.4963865280151367,
      "epoch": 4.5,
      "learning_rate": 3.8879148403256106e-05,
      "loss": 108.7941,
      "step": 5327,
      "task_loss": 1.604846715927124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9954403971857217,
      "compression/movement_sparsity/importance_threshold": -2.9592482853656524e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923355433108663,
      "compression/movement_sparsity/model_sparsity": 0.891635333407817,
      "compression_loss": 104.99887084960938,
      "distillation_loss": 4.464405536651611,
      "epoch": 4.5,
      "learning_rate": 3.8876017532874145e-05,
      "loss": 109.0303,
      "step": 5328,
      "task_loss": 2.488966941833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9954635815622964,
      "compression/movement_sparsity/importance_threshold": -2.9442012890765895e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9233772185629336,
      "compression/movement_sparsity/model_sparsity": 0.8916563704647137,
      "compression_loss": 105.0005874633789,
      "distillation_loss": 2.9950201511383057,
      "epoch": 4.5,
      "learning_rate": 3.8872886662492176e-05,
      "loss": 108.5445,
      "step": 5329,
      "task_loss": 1.4457182884216309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9954866872144084,
      "compression/movement_sparsity/importance_threshold": -2.9292053861044304e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923389583924772,
      "compression/movement_sparsity/model_sparsity": 0.8916683110383326,
      "compression_loss": 105.002197265625,
      "distillation_loss": 4.265384197235107,
      "epoch": 4.51,
      "learning_rate": 3.886975579211021e-05,
      "loss": 109.3405,
      "step": 5330,
      "task_loss": 2.5543572902679443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9955097142759428,
      "compression/movement_sparsity/importance_threshold": -2.9142604895556617e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9234191797088442,
      "compression/movement_sparsity/model_sparsity": 0.8916968901161746,
      "compression_loss": 105.0038070678711,
      "distillation_loss": 4.415205001831055,
      "epoch": 4.51,
      "learning_rate": 3.886662492172824e-05,
      "loss": 109.6637,
      "step": 5331,
      "task_loss": 2.355177164077759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9955326628807848,
      "compression/movement_sparsity/importance_threshold": -2.899366512536944e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235075616393613,
      "compression/movement_sparsity/model_sparsity": 0.8917822358554838,
      "compression_loss": 105.00550079345703,
      "distillation_loss": 4.2797465324401855,
      "epoch": 4.51,
      "learning_rate": 3.886349405134628e-05,
      "loss": 109.3465,
      "step": 5332,
      "task_loss": 2.350774049758911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9955555331628195,
      "compression/movement_sparsity/importance_threshold": -2.884523368154937e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235748735656657,
      "compression/movement_sparsity/model_sparsity": 0.891847235410044,
      "compression_loss": 105.00715637207031,
      "distillation_loss": 3.9964568614959717,
      "epoch": 4.51,
      "learning_rate": 3.886036318096431e-05,
      "loss": 109.1354,
      "step": 5333,
      "task_loss": 2.89021372795105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9955783252559322,
      "compression/movement_sparsity/importance_threshold": -2.869730969516128e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235912573719974,
      "compression/movement_sparsity/model_sparsity": 0.8918630563822256,
      "compression_loss": 105.00868225097656,
      "distillation_loss": 3.6269025802612305,
      "epoch": 4.51,
      "learning_rate": 3.885723231058234e-05,
      "loss": 109.0428,
      "step": 5334,
      "task_loss": 2.161698341369629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9956010392940078,
      "compression/movement_sparsity/importance_threshold": -2.854989229727177e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235287628094179,
      "compression/movement_sparsity/model_sparsity": 0.8918027087001265,
      "compression_loss": 105.01029205322266,
      "distillation_loss": 3.8611457347869873,
      "epoch": 4.51,
      "learning_rate": 3.885410144020038e-05,
      "loss": 108.8666,
      "step": 5335,
      "task_loss": 2.2263081073760986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9956236754109316,
      "compression/movement_sparsity/importance_threshold": -2.8402980618947443e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923499381660363,
      "compression/movement_sparsity/model_sparsity": 0.8917743368839287,
      "compression_loss": 105.0118637084961,
      "distillation_loss": 3.1845884323120117,
      "epoch": 4.51,
      "learning_rate": 3.885097056981841e-05,
      "loss": 108.6325,
      "step": 5336,
      "task_loss": 1.425430417060852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9956462337405887,
      "compression/movement_sparsity/importance_threshold": -2.82565737912523e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235764356316261,
      "compression/movement_sparsity/model_sparsity": 0.8918487438142331,
      "compression_loss": 105.01348876953125,
      "distillation_loss": 2.824215888977051,
      "epoch": 4.51,
      "learning_rate": 3.8847839699436444e-05,
      "loss": 109.1219,
      "step": 5337,
      "task_loss": 1.3678439855575562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9956687144168642,
      "compression/movement_sparsity/importance_threshold": -2.8110670945254677e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235980422233822,
      "compression/movement_sparsity/model_sparsity": 0.8918696081530928,
      "compression_loss": 105.01496124267578,
      "distillation_loss": 2.8060150146484375,
      "epoch": 4.51,
      "learning_rate": 3.8844708829054476e-05,
      "loss": 108.2126,
      "step": 5338,
      "task_loss": 3.1663877964019775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9956911175736434,
      "compression/movement_sparsity/importance_threshold": -2.7965271212019444e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92358973107854,
      "compression/movement_sparsity/model_sparsity": 0.8918615825216439,
      "compression_loss": 105.01653289794922,
      "distillation_loss": 5.371906757354736,
      "epoch": 4.51,
      "learning_rate": 3.8841577958672514e-05,
      "loss": 109.3051,
      "step": 5339,
      "task_loss": 2.2729039192199707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9957134433448112,
      "compression/movement_sparsity/importance_threshold": -2.78203737226132e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235893852776785,
      "compression/movement_sparsity/model_sparsity": 0.891861248600106,
      "compression_loss": 105.01805114746094,
      "distillation_loss": 4.993561744689941,
      "epoch": 4.51,
      "learning_rate": 3.8838447088290546e-05,
      "loss": 109.1469,
      "step": 5340,
      "task_loss": 2.5543055534362793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9957356918642528,
      "compression/movement_sparsity/importance_threshold": -2.7675977608102552e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235663239374708,
      "compression/movement_sparsity/model_sparsity": 0.8918389794878793,
      "compression_loss": 105.01959991455078,
      "distillation_loss": 3.4479775428771973,
      "epoch": 4.51,
      "learning_rate": 3.883531621790858e-05,
      "loss": 108.8961,
      "step": 5341,
      "task_loss": 2.082054615020752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9957578632658536,
      "compression/movement_sparsity/importance_threshold": -2.753208199955063e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9236088812917632,
      "compression/movement_sparsity/model_sparsity": 0.89188007486613,
      "compression_loss": 105.02119445800781,
      "distillation_loss": 5.277400970458984,
      "epoch": 4.52,
      "learning_rate": 3.883218534752661e-05,
      "loss": 109.8288,
      "step": 5342,
      "task_loss": 2.5926430225372314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9957799576834985,
      "compression/movement_sparsity/importance_threshold": -2.738868602802664e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235472214209182,
      "compression/movement_sparsity/model_sparsity": 0.8918205332015364,
      "compression_loss": 105.02271270751953,
      "distillation_loss": 3.324037551879883,
      "epoch": 4.52,
      "learning_rate": 3.882905447714465e-05,
      "loss": 109.018,
      "step": 5343,
      "task_loss": 1.4740777015686035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9958019752510725,
      "compression/movement_sparsity/importance_threshold": -2.7245788824596315e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235293232452967,
      "compression/movement_sparsity/model_sparsity": 0.8918032498833088,
      "compression_loss": 105.02433013916016,
      "distillation_loss": 4.5581769943237305,
      "epoch": 4.52,
      "learning_rate": 3.882592360676268e-05,
      "loss": 109.7447,
      "step": 5344,
      "task_loss": 3.1742050647735596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9958239161024611,
      "compression/movement_sparsity/importance_threshold": -2.7103389520323658e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923521226735472,
      "compression/movement_sparsity/model_sparsity": 0.8917954315135044,
      "compression_loss": 105.02586364746094,
      "distillation_loss": 4.124095439910889,
      "epoch": 4.52,
      "learning_rate": 3.882279273638071e-05,
      "loss": 109.9077,
      "step": 5345,
      "task_loss": 3.359849691390991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9958457803715492,
      "compression/movement_sparsity/importance_threshold": -2.6961487246277005e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9234857404125877,
      "compression/movement_sparsity/model_sparsity": 0.8917611642549798,
      "compression_loss": 105.02743530273438,
      "distillation_loss": 4.745896339416504,
      "epoch": 4.52,
      "learning_rate": 3.881966186599875e-05,
      "loss": 109.3974,
      "step": 5346,
      "task_loss": 2.79905366897583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9958675681922221,
      "compression/movement_sparsity/importance_threshold": -2.6820081133520357e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923531898865506,
      "compression/movement_sparsity/model_sparsity": 0.8918057370230404,
      "compression_loss": 105.02896881103516,
      "distillation_loss": 4.567929267883301,
      "epoch": 4.52,
      "learning_rate": 3.881653099561678e-05,
      "loss": 109.28,
      "step": 5347,
      "task_loss": 2.4269886016845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9958892796983647,
      "compression/movement_sparsity/importance_threshold": -2.667917031312205e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235469113925596,
      "compression/movement_sparsity/model_sparsity": 0.8918202338236058,
      "compression_loss": 105.03050994873047,
      "distillation_loss": 2.949063301086426,
      "epoch": 4.52,
      "learning_rate": 3.8813400125234814e-05,
      "loss": 108.5808,
      "step": 5348,
      "task_loss": 1.89532470703125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9959109150238624,
      "compression/movement_sparsity/importance_threshold": -2.653875391614522e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235925094095991,
      "compression/movement_sparsity/model_sparsity": 0.8918642654084841,
      "compression_loss": 105.03202819824219,
      "distillation_loss": 6.029988765716553,
      "epoch": 4.52,
      "learning_rate": 3.8810269254852846e-05,
      "loss": 109.225,
      "step": 5349,
      "task_loss": 3.6671972274780273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9959324743026002,
      "compression/movement_sparsity/importance_threshold": -2.6398831073658202e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9235862611457579,
      "compression/movement_sparsity/model_sparsity": 0.8918582317917277,
      "compression_loss": 105.03336334228516,
      "distillation_loss": 3.80770206451416,
      "epoch": 4.52,
      "learning_rate": 3.8807138384470884e-05,
      "loss": 108.6907,
      "step": 5350,
      "task_loss": 3.520747423171997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9959539576684633,
      "compression/movement_sparsity/importance_threshold": -2.625940091672673e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9236334093045901,
      "compression/movement_sparsity/model_sparsity": 0.8919037602662594,
      "compression_loss": 105.0348129272461,
      "distillation_loss": 3.414616823196411,
      "epoch": 4.52,
      "learning_rate": 3.8804007514088916e-05,
      "loss": 108.25,
      "step": 5351,
      "task_loss": 1.5243449211120605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9959753652553368,
      "compression/movement_sparsity/importance_threshold": -2.6120462576415676e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9236657595713863,
      "compression/movement_sparsity/model_sparsity": 0.8919349992018699,
      "compression_loss": 105.03612518310547,
      "distillation_loss": 3.2055225372314453,
      "epoch": 4.52,
      "learning_rate": 3.8800876643706955e-05,
      "loss": 109.3166,
      "step": 5352,
      "task_loss": 1.5317103862762451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9959966971971058,
      "compression/movement_sparsity/importance_threshold": -2.5982015183792506e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9236921239060292,
      "compression/movement_sparsity/model_sparsity": 0.8919604578405117,
      "compression_loss": 105.03749084472656,
      "distillation_loss": 3.7468931674957275,
      "epoch": 4.52,
      "learning_rate": 3.8797745773324987e-05,
      "loss": 109.4554,
      "step": 5353,
      "task_loss": 2.1353678703308105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9960179536276556,
      "compression/movement_sparsity/importance_threshold": -2.584405786992209e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9236549681996759,
      "compression/movement_sparsity/model_sparsity": 0.8919245785469759,
      "compression_loss": 105.0387954711914,
      "distillation_loss": 4.468011856079102,
      "epoch": 4.53,
      "learning_rate": 3.879461490294302e-05,
      "loss": 109.3868,
      "step": 5354,
      "task_loss": 3.340430736541748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.996039134680871,
      "compression/movement_sparsity/importance_threshold": -2.5706589765871896e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237054312771108,
      "compression/movement_sparsity/model_sparsity": 0.8919733080624583,
      "compression_loss": 105.04013061523438,
      "distillation_loss": 4.155969142913818,
      "epoch": 4.53,
      "learning_rate": 3.879148403256106e-05,
      "loss": 109.4963,
      "step": 5355,
      "task_loss": 2.6551907062530518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9960602404906376,
      "compression/movement_sparsity/importance_threshold": -2.5569610002705925e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237654575369897,
      "compression/movement_sparsity/model_sparsity": 0.8920312722356482,
      "compression_loss": 105.04146575927734,
      "distillation_loss": 4.151162147521973,
      "epoch": 4.53,
      "learning_rate": 3.878835316217909e-05,
      "loss": 109.1514,
      "step": 5356,
      "task_loss": 1.7516695261001587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9960812711908402,
      "compression/movement_sparsity/importance_threshold": -2.543311771149165e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923766793043765,
      "compression/movement_sparsity/model_sparsity": 0.8920325618636571,
      "compression_loss": 105.04277801513672,
      "distillation_loss": 2.7479889392852783,
      "epoch": 4.53,
      "learning_rate": 3.878522229179713e-05,
      "loss": 108.4572,
      "step": 5357,
      "task_loss": 1.6538057327270508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9961022269153641,
      "compression/movement_sparsity/importance_threshold": -2.5297112023295668e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237912733599214,
      "compression/movement_sparsity/model_sparsity": 0.8920562012056433,
      "compression_loss": 105.04412078857422,
      "distillation_loss": 3.905812978744507,
      "epoch": 4.53,
      "learning_rate": 3.878209142141516e-05,
      "loss": 109.0654,
      "step": 5358,
      "task_loss": 2.156081199645996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9961231077980944,
      "compression/movement_sparsity/importance_threshold": -2.5161592069181983e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237805535332168,
      "compression/movement_sparsity/model_sparsity": 0.892045849637964,
      "compression_loss": 105.04542541503906,
      "distillation_loss": 4.070124626159668,
      "epoch": 4.53,
      "learning_rate": 3.877896055103319e-05,
      "loss": 109.428,
      "step": 5359,
      "task_loss": 2.3347327709198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9961439139729162,
      "compression/movement_sparsity/importance_threshold": -2.5026556980218065e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237374595913808,
      "compression/movement_sparsity/model_sparsity": 0.8920042361056025,
      "compression_loss": 105.04668426513672,
      "distillation_loss": 4.562074661254883,
      "epoch": 4.53,
      "learning_rate": 3.877582968065122e-05,
      "loss": 109.4048,
      "step": 5360,
      "task_loss": 2.9916505813598633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9961646455737146,
      "compression/movement_sparsity/importance_threshold": -2.4892005887470516e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237441132769215,
      "compression/movement_sparsity/model_sparsity": 0.8920106612165759,
      "compression_loss": 105.04794311523438,
      "distillation_loss": 2.55051851272583,
      "epoch": 4.53,
      "learning_rate": 3.877269881026926e-05,
      "loss": 108.7109,
      "step": 5361,
      "task_loss": 1.061310887336731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.996185302734375,
      "compression/movement_sparsity/importance_threshold": -2.4757937922004203e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237074941581118,
      "compression/movement_sparsity/model_sparsity": 0.8919753000771509,
      "compression_loss": 105.04924011230469,
      "distillation_loss": 5.152840614318848,
      "epoch": 4.53,
      "learning_rate": 3.876956793988729e-05,
      "loss": 109.6232,
      "step": 5362,
      "task_loss": 2.7339820861816406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9962058855887823,
      "compression/movement_sparsity/importance_threshold": -2.4624352214884862e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237277533189251,
      "compression/movement_sparsity/model_sparsity": 0.8919948632734658,
      "compression_loss": 105.05044555664062,
      "distillation_loss": 4.604339122772217,
      "epoch": 4.53,
      "learning_rate": 3.8766437069505325e-05,
      "loss": 109.8719,
      "step": 5363,
      "task_loss": 2.188149929046631
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9962263942708216,
      "compression/movement_sparsity/importance_threshold": -2.449124789718083e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237746749185722,
      "compression/movement_sparsity/model_sparsity": 0.8920401729718173,
      "compression_loss": 105.05174255371094,
      "distillation_loss": 3.9044249057769775,
      "epoch": 4.53,
      "learning_rate": 3.8763306199123356e-05,
      "loss": 108.8073,
      "step": 5364,
      "task_loss": 2.0767111778259277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9962468289143782,
      "compression/movement_sparsity/importance_threshold": -2.435862409995524e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92373827043478,
      "compression/movement_sparsity/model_sparsity": 0.8920050190940365,
      "compression_loss": 105.05297088623047,
      "distillation_loss": 3.1993820667266846,
      "epoch": 4.53,
      "learning_rate": 3.8760175328741395e-05,
      "loss": 108.5069,
      "step": 5365,
      "task_loss": 1.7538849115371704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9962671896533372,
      "compression/movement_sparsity/importance_threshold": -2.4226479954275563e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9237709545782699,
      "compression/movement_sparsity/model_sparsity": 0.8920365804366494,
      "compression_loss": 105.05415344238281,
      "distillation_loss": 4.960831165313721,
      "epoch": 4.54,
      "learning_rate": 3.875704445835943e-05,
      "loss": 109.2954,
      "step": 5366,
      "task_loss": 2.5524208545684814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9962874766215837,
      "compression/movement_sparsity/importance_threshold": -2.4094814591207533e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9238542806617093,
      "compression/movement_sparsity/model_sparsity": 0.8921170440127817,
      "compression_loss": 105.05535125732422,
      "distillation_loss": 3.464226484298706,
      "epoch": 4.54,
      "learning_rate": 3.875391358797746e-05,
      "loss": 109.3566,
      "step": 5367,
      "task_loss": 2.134813070297241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9963076899530029,
      "compression/movement_sparsity/importance_threshold": -2.3963627141816886e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9238882406911362,
      "compression/movement_sparsity/model_sparsity": 0.8921498374107245,
      "compression_loss": 105.05656433105469,
      "distillation_loss": 4.896143913269043,
      "epoch": 4.54,
      "learning_rate": 3.875078271759549e-05,
      "loss": 109.4426,
      "step": 5368,
      "task_loss": 2.6203103065490723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9963278297814798,
      "compression/movement_sparsity/importance_threshold": -2.383291673717109e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9238818016406128,
      "compression/movement_sparsity/model_sparsity": 0.8921436195613954,
      "compression_loss": 105.05778503417969,
      "distillation_loss": 3.1612913608551025,
      "epoch": 4.54,
      "learning_rate": 3.874765184721353e-05,
      "loss": 109.2007,
      "step": 5369,
      "task_loss": 1.4873918294906616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9963478962408997,
      "compression/movement_sparsity/importance_threshold": -2.3702682508335016e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9239093703161869,
      "compression/movement_sparsity/model_sparsity": 0.8921702411681525,
      "compression_loss": 105.0589599609375,
      "distillation_loss": 4.689936637878418,
      "epoch": 4.54,
      "learning_rate": 3.874452097683156e-05,
      "loss": 109.9295,
      "step": 5370,
      "task_loss": 1.9766478538513184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9963678894651476,
      "compression/movement_sparsity/importance_threshold": -2.3572923586375263e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9238760661159799,
      "compression/movement_sparsity/model_sparsity": 0.8921380810696783,
      "compression_loss": 105.0601577758789,
      "distillation_loss": 2.923607349395752,
      "epoch": 4.54,
      "learning_rate": 3.874139010644959e-05,
      "loss": 108.4874,
      "step": 5371,
      "task_loss": 2.089992046356201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9963878095881089,
      "compression/movement_sparsity/importance_threshold": -2.3443639102356702e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9238640107825001,
      "compression/movement_sparsity/model_sparsity": 0.89212643987399,
      "compression_loss": 105.06135559082031,
      "distillation_loss": 3.319979190826416,
      "epoch": 4.54,
      "learning_rate": 3.873825923606763e-05,
      "loss": 109.0253,
      "step": 5372,
      "task_loss": 1.444828748703003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9964076567436684,
      "compression/movement_sparsity/importance_threshold": -2.33148281873468e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.923841486029836,
      "compression/movement_sparsity/model_sparsity": 0.8921046889158741,
      "compression_loss": 105.0625,
      "distillation_loss": 3.4745864868164062,
      "epoch": 4.54,
      "learning_rate": 3.873512836568566e-05,
      "loss": 108.9085,
      "step": 5373,
      "task_loss": 2.89908766746521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9964274310657115,
      "compression/movement_sparsity/importance_threshold": -2.3186489972410428e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9239579136026326,
      "compression/movement_sparsity/model_sparsity": 0.892217116843372,
      "compression_loss": 105.06367492675781,
      "distillation_loss": 4.011798858642578,
      "epoch": 4.54,
      "learning_rate": 3.8731997495303695e-05,
      "loss": 108.9356,
      "step": 5374,
      "task_loss": 2.025961399078369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9964471326881232,
      "compression/movement_sparsity/importance_threshold": -2.3058623588614185e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9239522257746703,
      "compression/movement_sparsity/model_sparsity": 0.892211624409798,
      "compression_loss": 105.06478118896484,
      "distillation_loss": 4.176133632659912,
      "epoch": 4.54,
      "learning_rate": 3.8728866624921726e-05,
      "loss": 109.7125,
      "step": 5375,
      "task_loss": 1.7605586051940918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9964667617447887,
      "compression/movement_sparsity/importance_threshold": -2.2931228167024677e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9239445823832156,
      "compression/movement_sparsity/model_sparsity": 0.8922042435923537,
      "compression_loss": 105.06596374511719,
      "distillation_loss": 5.654709815979004,
      "epoch": 4.54,
      "learning_rate": 3.8725735754539765e-05,
      "loss": 109.714,
      "step": 5376,
      "task_loss": 3.1003432273864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9964863183695931,
      "compression/movement_sparsity/importance_threshold": -2.280430283870677e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9240040124347128,
      "compression/movement_sparsity/model_sparsity": 0.8922616320387536,
      "compression_loss": 105.06709289550781,
      "distillation_loss": 3.419468879699707,
      "epoch": 4.54,
      "learning_rate": 3.87226048841578e-05,
      "loss": 108.0293,
      "step": 5377,
      "task_loss": 2.3688979148864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9965058026964216,
      "compression/movement_sparsity/importance_threshold": -2.2677846734727065e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.924091046934287,
      "compression/movement_sparsity/model_sparsity": 0.892345676635518,
      "compression_loss": 105.06820678710938,
      "distillation_loss": 2.858613967895508,
      "epoch": 4.55,
      "learning_rate": 3.871947401377583e-05,
      "loss": 108.3221,
      "step": 5378,
      "task_loss": 2.2977075576782227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9965252148591592,
      "compression/movement_sparsity/importance_threshold": -2.2551858986153035e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9241011705526098,
      "compression/movement_sparsity/model_sparsity": 0.8923554524764076,
      "compression_loss": 105.06927490234375,
      "distillation_loss": 5.770139217376709,
      "epoch": 4.55,
      "learning_rate": 3.871634314339386e-05,
      "loss": 109.9744,
      "step": 5379,
      "task_loss": 4.273530960083008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9965445549916914,
      "compression/movement_sparsity/importance_threshold": -2.2426338724047812e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9240992507616205,
      "compression/movement_sparsity/model_sparsity": 0.8923535986361447,
      "compression_loss": 105.07042694091797,
      "distillation_loss": 4.4093017578125,
      "epoch": 4.55,
      "learning_rate": 3.87132122730119e-05,
      "loss": 109.0312,
      "step": 5380,
      "task_loss": 2.9445528984069824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9965638232279028,
      "compression/movement_sparsity/importance_threshold": -2.2301285079479732e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9240649807038349,
      "compression/movement_sparsity/model_sparsity": 0.8923205058602712,
      "compression_loss": 105.07157897949219,
      "distillation_loss": 3.26068115234375,
      "epoch": 4.55,
      "learning_rate": 3.871008140262993e-05,
      "loss": 109.2206,
      "step": 5381,
      "task_loss": 2.1686394214630127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9965830197016791,
      "compression/movement_sparsity/importance_threshold": -2.2176697183512797e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9241093863041109,
      "compression/movement_sparsity/model_sparsity": 0.8923633859915701,
      "compression_loss": 105.07266998291016,
      "distillation_loss": 3.894324779510498,
      "epoch": 4.55,
      "learning_rate": 3.870695053224796e-05,
      "loss": 109.0356,
      "step": 5382,
      "task_loss": 2.005593776702881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9966021445469049,
      "compression/movement_sparsity/importance_threshold": -2.205257416721621e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9240938968103519,
      "compression/movement_sparsity/model_sparsity": 0.892348428609573,
      "compression_loss": 105.0737533569336,
      "distillation_loss": 4.804529190063477,
      "epoch": 4.55,
      "learning_rate": 3.8703819661866e-05,
      "loss": 109.3605,
      "step": 5383,
      "task_loss": 3.1910228729248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9966211978974657,
      "compression/movement_sparsity/importance_threshold": -2.1928915161653108e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9241200703583127,
      "compression/movement_sparsity/model_sparsity": 0.892373703015642,
      "compression_loss": 105.07485961914062,
      "distillation_loss": 4.354255676269531,
      "epoch": 4.55,
      "learning_rate": 3.870068879148403e-05,
      "loss": 109.2824,
      "step": 5384,
      "task_loss": 2.2885844707489014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9966401798872466,
      "compression/movement_sparsity/importance_threshold": -2.180571929789009e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9241595274290197,
      "compression/movement_sparsity/model_sparsity": 0.8924118046145861,
      "compression_loss": 105.07595825195312,
      "distillation_loss": 2.5335981845855713,
      "epoch": 4.55,
      "learning_rate": 3.8697557921102065e-05,
      "loss": 108.609,
      "step": 5385,
      "task_loss": 2.231628656387329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9966590906501327,
      "compression/movement_sparsity/importance_threshold": -2.1682985706994624e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9242037303184458,
      "compression/movement_sparsity/model_sparsity": 0.8924544889987764,
      "compression_loss": 105.0770263671875,
      "distillation_loss": 4.4565911293029785,
      "epoch": 4.55,
      "learning_rate": 3.86944270507201e-05,
      "loss": 109.5951,
      "step": 5386,
      "task_loss": 3.623366594314575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9966779303200091,
      "compression/movement_sparsity/importance_threshold": -2.1560713520031582e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9242962976318031,
      "compression/movement_sparsity/model_sparsity": 0.8925438763401494,
      "compression_loss": 105.07804870605469,
      "distillation_loss": 4.1281843185424805,
      "epoch": 4.55,
      "learning_rate": 3.8691296180338135e-05,
      "loss": 109.5902,
      "step": 5387,
      "task_loss": 1.8519588708877563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.996696699030761,
      "compression/movement_sparsity/importance_threshold": -2.1438901868066698e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9242684427762057,
      "compression/movement_sparsity/model_sparsity": 0.8925169783845335,
      "compression_loss": 105.07907104492188,
      "distillation_loss": 3.5561437606811523,
      "epoch": 4.55,
      "learning_rate": 3.8688165309956173e-05,
      "loss": 109.2162,
      "step": 5388,
      "task_loss": 1.629446268081665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9967153969162734,
      "compression/movement_sparsity/importance_threshold": -2.1317549882166574e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9242292241888513,
      "compression/movement_sparsity/model_sparsity": 0.8924791070763052,
      "compression_loss": 105.08018493652344,
      "distillation_loss": 5.73874568939209,
      "epoch": 4.56,
      "learning_rate": 3.8685034439574205e-05,
      "loss": 109.1001,
      "step": 5389,
      "task_loss": 3.3973846435546875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9967340241104317,
      "compression/movement_sparsity/importance_threshold": -2.1196656693397813e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9242533944766492,
      "compression/movement_sparsity/model_sparsity": 0.8925024470403607,
      "compression_loss": 105.08118438720703,
      "distillation_loss": 4.768984317779541,
      "epoch": 4.56,
      "learning_rate": 3.868190356919224e-05,
      "loss": 109.2747,
      "step": 5390,
      "task_loss": 4.146753311157227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9967525807471208,
      "compression/movement_sparsity/importance_threshold": -2.1076221432825282e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9243144700632802,
      "compression/movement_sparsity/model_sparsity": 0.8925614244927004,
      "compression_loss": 105.08226013183594,
      "distillation_loss": 5.163151741027832,
      "epoch": 4.56,
      "learning_rate": 3.8678772698810276e-05,
      "loss": 109.4935,
      "step": 5391,
      "task_loss": 2.5901589393615723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.996771066960226,
      "compression/movement_sparsity/importance_threshold": -2.0956243231514717e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9243609027720542,
      "compression/movement_sparsity/model_sparsity": 0.8926062620950843,
      "compression_loss": 105.08326721191406,
      "distillation_loss": 3.53347110748291,
      "epoch": 4.56,
      "learning_rate": 3.867564182842831e-05,
      "loss": 108.6019,
      "step": 5392,
      "task_loss": 2.0257177352905273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9967894828836323,
      "compression/movement_sparsity/importance_threshold": -2.0836721220534454e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.924432853199569,
      "compression/movement_sparsity/model_sparsity": 0.8926757408040685,
      "compression_loss": 105.08433532714844,
      "distillation_loss": 2.8883910179138184,
      "epoch": 4.56,
      "learning_rate": 3.867251095804634e-05,
      "loss": 108.4581,
      "step": 5393,
      "task_loss": 1.5464166402816772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.996807828651225,
      "compression/movement_sparsity/importance_threshold": -2.0717654530948496e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244846756321144,
      "compression/movement_sparsity/model_sparsity": 0.8927257829766316,
      "compression_loss": 105.08536529541016,
      "distillation_loss": 2.789808750152588,
      "epoch": 4.56,
      "learning_rate": 3.866938008766438e-05,
      "loss": 108.9332,
      "step": 5394,
      "task_loss": 1.5644052028656006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9968261043968891,
      "compression/movement_sparsity/importance_threshold": -2.0599042293823443e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244790831974932,
      "compression/movement_sparsity/model_sparsity": 0.892720382659344,
      "compression_loss": 105.08641815185547,
      "distillation_loss": 5.797066688537598,
      "epoch": 4.56,
      "learning_rate": 3.866624921728241e-05,
      "loss": 109.4659,
      "step": 5395,
      "task_loss": 2.8911988735198975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9968443102545098,
      "compression/movement_sparsity/importance_threshold": -2.048088364022503e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244808479743033,
      "compression/movement_sparsity/model_sparsity": 0.8927220868106416,
      "compression_loss": 105.08739471435547,
      "distillation_loss": 3.254239559173584,
      "epoch": 4.56,
      "learning_rate": 3.866311834690044e-05,
      "loss": 108.7768,
      "step": 5396,
      "task_loss": 1.4735738039016724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9968624463579723,
      "compression/movement_sparsity/importance_threshold": -2.0363177701219863e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244961109088772,
      "compression/movement_sparsity/model_sparsity": 0.8927368254164586,
      "compression_loss": 105.08851623535156,
      "distillation_loss": 4.360401630401611,
      "epoch": 4.56,
      "learning_rate": 3.865998747651847e-05,
      "loss": 108.9221,
      "step": 5397,
      "task_loss": 1.9387401342391968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9968805128411616,
      "compression/movement_sparsity/importance_threshold": -2.0245923607873674e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9245324915443343,
      "compression/movement_sparsity/model_sparsity": 0.8927719562651677,
      "compression_loss": 105.08960723876953,
      "distillation_loss": 4.3813347816467285,
      "epoch": 4.56,
      "learning_rate": 3.865685660613651e-05,
      "loss": 108.9444,
      "step": 5398,
      "task_loss": 1.942732572555542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9968985098379629,
      "compression/movement_sparsity/importance_threshold": -2.0129120491253934e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244500955459705,
      "compression/movement_sparsity/model_sparsity": 0.8926923908228275,
      "compression_loss": 105.09059143066406,
      "distillation_loss": 4.57605504989624,
      "epoch": 4.56,
      "learning_rate": 3.865372573575454e-05,
      "loss": 108.9765,
      "step": 5399,
      "task_loss": 2.224964141845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9969164374822614,
      "compression/movement_sparsity/importance_threshold": -2.0012767482423775e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9244345345072056,
      "compression/movement_sparsity/model_sparsity": 0.8926773643536156,
      "compression_loss": 105.09156799316406,
      "distillation_loss": 3.0222039222717285,
      "epoch": 4.56,
      "learning_rate": 3.8650594865372575e-05,
      "loss": 108.7984,
      "step": 5400,
      "task_loss": 1.835209846496582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9969342959079422,
      "compression/movement_sparsity/importance_threshold": -1.989686371245067e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9245444037878024,
      "compression/movement_sparsity/model_sparsity": 0.8927834592864264,
      "compression_loss": 105.09263610839844,
      "distillation_loss": 4.198319911956787,
      "epoch": 4.57,
      "learning_rate": 3.864746399499061e-05,
      "loss": 109.5881,
      "step": 5401,
      "task_loss": 2.307222366333008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9969520852488906,
      "compression/movement_sparsity/importance_threshold": -1.9781408312401216e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9245429013426804,
      "compression/movement_sparsity/model_sparsity": 0.8927820084549164,
      "compression_loss": 105.09371948242188,
      "distillation_loss": 7.26679801940918,
      "epoch": 4.57,
      "learning_rate": 3.8644333124608645e-05,
      "loss": 110.131,
      "step": 5402,
      "task_loss": 3.252574920654297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9969698056389914,
      "compression/movement_sparsity/importance_threshold": -1.9666400413341154e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9245748938844474,
      "compression/movement_sparsity/model_sparsity": 0.8928129019544532,
      "compression_loss": 105.0947494506836,
      "distillation_loss": 4.190859317779541,
      "epoch": 4.57,
      "learning_rate": 3.864120225422668e-05,
      "loss": 108.6939,
      "step": 5403,
      "task_loss": 2.3342881202697754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9969874572121299,
      "compression/movement_sparsity/importance_threshold": -1.9551839146336215e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9246180712954568,
      "compression/movement_sparsity/model_sparsity": 0.8928545960885652,
      "compression_loss": 105.09579467773438,
      "distillation_loss": 3.4124059677124023,
      "epoch": 4.57,
      "learning_rate": 3.863807138384471e-05,
      "loss": 108.4328,
      "step": 5404,
      "task_loss": 2.061204671859741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970050401021913,
      "compression/movement_sparsity/importance_threshold": -1.9437723642453004e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9246001731198354,
      "compression/movement_sparsity/model_sparsity": 0.8928373127703375,
      "compression_loss": 105.09676361083984,
      "distillation_loss": 3.9953110218048096,
      "epoch": 4.57,
      "learning_rate": 3.863494051346274e-05,
      "loss": 109.0441,
      "step": 5405,
      "task_loss": 2.9763576984405518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970225544430608,
      "compression/movement_sparsity/importance_threshold": -1.932405303275639e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9245848028677528,
      "compression/movement_sparsity/model_sparsity": 0.8928224705336983,
      "compression_loss": 105.0977783203125,
      "distillation_loss": 5.719180107116699,
      "epoch": 4.57,
      "learning_rate": 3.863180964308078e-05,
      "loss": 109.3453,
      "step": 5406,
      "task_loss": 3.1963179111480713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970400003686233,
      "compression/movement_sparsity/importance_threshold": -1.9210826448313838e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92462405722761,
      "compression/movement_sparsity/model_sparsity": 0.8928603763855341,
      "compression_loss": 105.09880828857422,
      "distillation_loss": 3.210707664489746,
      "epoch": 4.57,
      "learning_rate": 3.862867877269881e-05,
      "loss": 109.2258,
      "step": 5407,
      "task_loss": 1.8107291460037231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970573780127642,
      "compression/movement_sparsity/importance_threshold": -1.909804302019022e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247170776593374,
      "compression/movement_sparsity/model_sparsity": 0.8929502012792673,
      "compression_loss": 105.09980010986328,
      "distillation_loss": 4.035536766052246,
      "epoch": 4.57,
      "learning_rate": 3.862554790231684e-05,
      "loss": 108.533,
      "step": 5408,
      "task_loss": 2.2668843269348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970746875093683,
      "compression/movement_sparsity/importance_threshold": -1.8985701879453004e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247460414625249,
      "compression/movement_sparsity/model_sparsity": 0.8929781700867122,
      "compression_loss": 105.10071563720703,
      "distillation_loss": 3.6903271675109863,
      "epoch": 4.57,
      "learning_rate": 3.862241703193488e-05,
      "loss": 109.2876,
      "step": 5409,
      "task_loss": 1.880687952041626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9970919289923212,
      "compression/movement_sparsity/importance_threshold": -1.887380215716706e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247761738341408,
      "compression/movement_sparsity/model_sparsity": 0.893007267318665,
      "compression_loss": 105.1016845703125,
      "distillation_loss": 3.3730239868164062,
      "epoch": 4.57,
      "learning_rate": 3.861928616155291e-05,
      "loss": 108.8686,
      "step": 5410,
      "task_loss": 0.9647518992424011
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9971091025955078,
      "compression/movement_sparsity/importance_threshold": -1.876234298439812e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.924715944863412,
      "compression/movement_sparsity/model_sparsity": 0.8929491073983667,
      "compression_loss": 105.10261535644531,
      "distillation_loss": 3.067903995513916,
      "epoch": 4.57,
      "learning_rate": 3.8616155291170945e-05,
      "loss": 108.8011,
      "step": 5411,
      "task_loss": 1.9716331958770752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9971262084528132,
      "compression/movement_sparsity/importance_threshold": -1.865132349221279e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247323644422466,
      "compression/movement_sparsity/model_sparsity": 0.8929649629141558,
      "compression_loss": 105.10358428955078,
      "distillation_loss": 3.9024672508239746,
      "epoch": 4.57,
      "learning_rate": 3.861302442078898e-05,
      "loss": 108.7685,
      "step": 5412,
      "task_loss": 2.5585455894470215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9971432466981225,
      "compression/movement_sparsity/importance_threshold": -1.854074281167767e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247444555482294,
      "compression/movement_sparsity/model_sparsity": 0.8929766386534514,
      "compression_loss": 105.10455322265625,
      "distillation_loss": 4.257826328277588,
      "epoch": 4.58,
      "learning_rate": 3.8609893550407015e-05,
      "loss": 109.8517,
      "step": 5413,
      "task_loss": 2.326820135116577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997160217465321,
      "compression/movement_sparsity/importance_threshold": -1.8430600073857627e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248090606884805,
      "compression/movement_sparsity/model_sparsity": 0.8930390244083863,
      "compression_loss": 105.10546875,
      "distillation_loss": 5.346103668212891,
      "epoch": 4.58,
      "learning_rate": 3.860676268002505e-05,
      "loss": 109.111,
      "step": 5414,
      "task_loss": 3.3305671215057373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9971771208882938,
      "compression/movement_sparsity/importance_threshold": -1.8320894409820133e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248871043656571,
      "compression/movement_sparsity/model_sparsity": 0.8931143870451616,
      "compression_loss": 105.10639190673828,
      "distillation_loss": 3.5003116130828857,
      "epoch": 4.58,
      "learning_rate": 3.860363180964308e-05,
      "loss": 109.019,
      "step": 5415,
      "task_loss": 1.4780279397964478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997193957100926,
      "compression/movement_sparsity/importance_threshold": -1.8211624950630056e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248415540452882,
      "compression/movement_sparsity/model_sparsity": 0.8930704015184264,
      "compression_loss": 105.10734558105469,
      "distillation_loss": 4.190576553344727,
      "epoch": 4.58,
      "learning_rate": 3.860050093926111e-05,
      "loss": 108.7538,
      "step": 5416,
      "task_loss": 2.012813091278076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972107262371027,
      "compression/movement_sparsity/importance_threshold": -1.810279082735313e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248124233037538,
      "compression/movement_sparsity/model_sparsity": 0.8930422715074804,
      "compression_loss": 105.1082763671875,
      "distillation_loss": 3.7812423706054688,
      "epoch": 4.58,
      "learning_rate": 3.859737006887915e-05,
      "loss": 109.1974,
      "step": 5417,
      "task_loss": 2.917998790740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972274284307091,
      "compression/movement_sparsity/importance_threshold": -1.7994391171056827e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248024070029396,
      "compression/movement_sparsity/model_sparsity": 0.893032599297413,
      "compression_loss": 105.1091537475586,
      "distillation_loss": 3.6733474731445312,
      "epoch": 4.58,
      "learning_rate": 3.859423919849718e-05,
      "loss": 109.0382,
      "step": 5418,
      "task_loss": 2.1816415786743164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972440638156304,
      "compression/movement_sparsity/importance_threshold": -1.7886425112806012e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247843895856418,
      "compression/movement_sparsity/model_sparsity": 0.8930152008338275,
      "compression_loss": 105.11002349853516,
      "distillation_loss": 4.892642974853516,
      "epoch": 4.58,
      "learning_rate": 3.859110832811522e-05,
      "loss": 109.8337,
      "step": 5419,
      "task_loss": 3.4692134857177734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972606325257516,
      "compression/movement_sparsity/importance_threshold": -1.777889178366729e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247656924907888,
      "compression/movement_sparsity/model_sparsity": 0.8929971460417016,
      "compression_loss": 105.11089324951172,
      "distillation_loss": 4.056175708770752,
      "epoch": 4.58,
      "learning_rate": 3.858797745773325e-05,
      "loss": 109.2173,
      "step": 5420,
      "task_loss": 2.679232597351074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972771346949579,
      "compression/movement_sparsity/importance_threshold": -1.767179031470726e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247870844475276,
      "compression/movement_sparsity/model_sparsity": 0.893017803118917,
      "compression_loss": 105.11178588867188,
      "distillation_loss": 4.300522327423096,
      "epoch": 4.58,
      "learning_rate": 3.858484658735128e-05,
      "loss": 109.311,
      "step": 5421,
      "task_loss": 3.140900135040283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9972935704571345,
      "compression/movement_sparsity/importance_threshold": -1.7565119836989926e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248387041692232,
      "compression/movement_sparsity/model_sparsity": 0.8930676495443716,
      "compression_loss": 105.11267852783203,
      "distillation_loss": 5.671657562255859,
      "epoch": 4.58,
      "learning_rate": 3.858171571696932e-05,
      "loss": 109.0296,
      "step": 5422,
      "task_loss": 2.3730099201202393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9973099399461665,
      "compression/movement_sparsity/importance_threshold": -1.7458879481583624e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248271377266164,
      "compression/movement_sparsity/model_sparsity": 0.8930564804446508,
      "compression_loss": 105.11356353759766,
      "distillation_loss": 4.516895294189453,
      "epoch": 4.58,
      "learning_rate": 3.8578584846587354e-05,
      "loss": 109.5112,
      "step": 5423,
      "task_loss": 2.1537418365478516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997326243295939,
      "compression/movement_sparsity/importance_threshold": -1.735306837955322e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248265534424023,
      "compression/movement_sparsity/model_sparsity": 0.8930559162323969,
      "compression_loss": 105.1144790649414,
      "distillation_loss": 5.598310470581055,
      "epoch": 4.58,
      "learning_rate": 3.857545397620539e-05,
      "loss": 109.8144,
      "step": 5424,
      "task_loss": 3.2304656505584717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9973424806403371,
      "compression/movement_sparsity/importance_threshold": -1.724768566196532e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248168471699467,
      "compression/movement_sparsity/model_sparsity": 0.8930465434002601,
      "compression_loss": 105.11534118652344,
      "distillation_loss": 3.8078513145446777,
      "epoch": 4.59,
      "learning_rate": 3.8572323105823424e-05,
      "loss": 109.1073,
      "step": 5425,
      "task_loss": 1.538874864578247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9973586521132461,
      "compression/movement_sparsity/importance_threshold": -1.7142730459884792e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248475280532737,
      "compression/movement_sparsity/model_sparsity": 0.8930761703008595,
      "compression_loss": 105.11625671386719,
      "distillation_loss": 5.0467376708984375,
      "epoch": 4.59,
      "learning_rate": 3.8569192235441456e-05,
      "loss": 109.4598,
      "step": 5426,
      "task_loss": 2.5639138221740723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9973747578485511,
      "compression/movement_sparsity/importance_threshold": -1.7038201904379102e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248505687160209,
      "compression/movement_sparsity/model_sparsity": 0.8930791065074871,
      "compression_loss": 105.11711883544922,
      "distillation_loss": 5.840982437133789,
      "epoch": 4.59,
      "learning_rate": 3.856606136505949e-05,
      "loss": 110.2651,
      "step": 5427,
      "task_loss": 3.1429085731506348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9973907979801372,
      "compression/movement_sparsity/importance_threshold": -1.693409912651312e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248707563318284,
      "compression/movement_sparsity/model_sparsity": 0.8930986006165873,
      "compression_loss": 105.1180191040039,
      "distillation_loss": 4.505388259887695,
      "epoch": 4.59,
      "learning_rate": 3.8562930494677526e-05,
      "loss": 108.846,
      "step": 5428,
      "task_loss": 2.1659722328186035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974067726418895,
      "compression/movement_sparsity/importance_threshold": -1.683042125735345e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248457990489666,
      "compression/movement_sparsity/model_sparsity": 0.8930745006931693,
      "compression_loss": 105.11890411376953,
      "distillation_loss": 3.876424551010132,
      "epoch": 4.59,
      "learning_rate": 3.855979962429556e-05,
      "loss": 109.0756,
      "step": 5429,
      "task_loss": 2.4443154335021973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974226819676932,
      "compression/movement_sparsity/importance_threshold": -1.6727167427965824e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248450359022379,
      "compression/movement_sparsity/model_sparsity": 0.8930737637628784,
      "compression_loss": 105.11972045898438,
      "distillation_loss": 3.2960877418518066,
      "epoch": 4.59,
      "learning_rate": 3.855666875391359e-05,
      "loss": 109.3503,
      "step": 5430,
      "task_loss": 2.5977606773376465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974385260914334,
      "compression/movement_sparsity/importance_threshold": -1.6624336769417714e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248580213207933,
      "compression/movement_sparsity/model_sparsity": 0.8930863030923587,
      "compression_loss": 105.12057495117188,
      "distillation_loss": 3.664245843887329,
      "epoch": 4.59,
      "learning_rate": 3.855353788353163e-05,
      "loss": 109.2039,
      "step": 5431,
      "task_loss": 1.3039288520812988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974543051469952,
      "compression/movement_sparsity/importance_threshold": -1.652192841277312e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9247967787958156,
      "compression/movement_sparsity/model_sparsity": 0.893027164436518,
      "compression_loss": 105.12139892578125,
      "distillation_loss": 5.333217620849609,
      "epoch": 4.59,
      "learning_rate": 3.855040701314966e-05,
      "loss": 109.5119,
      "step": 5432,
      "task_loss": 3.232448101043701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974700192682638,
      "compression/movement_sparsity/importance_threshold": -1.641994148909951e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248172764399816,
      "compression/movement_sparsity/model_sparsity": 0.8930469579235487,
      "compression_loss": 105.1222915649414,
      "distillation_loss": 4.606888771057129,
      "epoch": 4.59,
      "learning_rate": 3.854727614276769e-05,
      "loss": 109.3881,
      "step": 5433,
      "task_loss": 2.971060276031494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9974856685891245,
      "compression/movement_sparsity/importance_threshold": -1.6318375129461757e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9249022242102195,
      "compression/movement_sparsity/model_sparsity": 0.8931289874765491,
      "compression_loss": 105.12315368652344,
      "distillation_loss": 5.2242608070373535,
      "epoch": 4.59,
      "learning_rate": 3.8544145272385723e-05,
      "loss": 109.9443,
      "step": 5434,
      "task_loss": 2.38887357711792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975012532434622,
      "compression/movement_sparsity/importance_threshold": -1.6217228464927326e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9249206589733845,
      "compression/movement_sparsity/model_sparsity": 0.8931467889488874,
      "compression_loss": 105.12401580810547,
      "distillation_loss": 5.861793518066406,
      "epoch": 4.59,
      "learning_rate": 3.854101440200376e-05,
      "loss": 109.8229,
      "step": 5435,
      "task_loss": 3.135319709777832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975167733651621,
      "compression/movement_sparsity/importance_threshold": -1.611650062656022e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9249058372330131,
      "compression/movement_sparsity/model_sparsity": 0.8931324763808948,
      "compression_loss": 105.1248550415039,
      "distillation_loss": 3.81300950050354,
      "epoch": 4.59,
      "learning_rate": 3.8537883531621794e-05,
      "loss": 109.1883,
      "step": 5436,
      "task_loss": 1.936614990234375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975322290881093,
      "compression/movement_sparsity/importance_threshold": -1.6016190745428774e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9248692538867063,
      "compression/movement_sparsity/model_sparsity": 0.8930971497850771,
      "compression_loss": 105.12567138671875,
      "distillation_loss": 4.949329376220703,
      "epoch": 4.6,
      "learning_rate": 3.8534752661239826e-05,
      "loss": 109.1462,
      "step": 5437,
      "task_loss": 3.5151026248931885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975476205461891,
      "compression/movement_sparsity/importance_threshold": -1.5916297952598725e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.924925392867936,
      "compression/movement_sparsity/model_sparsity": 0.8931513602195978,
      "compression_loss": 105.1264419555664,
      "distillation_loss": 4.4441633224487305,
      "epoch": 4.6,
      "learning_rate": 3.853162179085786e-05,
      "loss": 109.1856,
      "step": 5438,
      "task_loss": 3.7187256813049316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975629478732865,
      "compression/movement_sparsity/importance_threshold": -1.5816821379134073e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9249619285175722,
      "compression/movement_sparsity/model_sparsity": 0.8931866407572723,
      "compression_loss": 105.12722778320312,
      "distillation_loss": 2.8159220218658447,
      "epoch": 4.6,
      "learning_rate": 3.8528490920475896e-05,
      "loss": 108.6606,
      "step": 5439,
      "task_loss": 1.3298004865646362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975782112032866,
      "compression/movement_sparsity/importance_threshold": -1.5717760156103155e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250384101287886,
      "compression/movement_sparsity/model_sparsity": 0.8932604949898585,
      "compression_loss": 105.12808990478516,
      "distillation_loss": 5.054182052612305,
      "epoch": 4.6,
      "learning_rate": 3.852536005009393e-05,
      "loss": 109.5044,
      "step": 5440,
      "task_loss": 2.5140435695648193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9975934106700748,
      "compression/movement_sparsity/importance_threshold": -1.5619113414569973e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250580015362143,
      "compression/movement_sparsity/model_sparsity": 0.893279413372169,
      "compression_loss": 105.12886047363281,
      "distillation_loss": 3.260744571685791,
      "epoch": 4.6,
      "learning_rate": 3.852222917971196e-05,
      "loss": 108.8533,
      "step": 5441,
      "task_loss": 2.808159351348877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976085464075359,
      "compression/movement_sparsity/importance_threshold": -1.5520880285601994e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250291331263679,
      "compression/movement_sparsity/model_sparsity": 0.8932515366810103,
      "compression_loss": 105.1296157836914,
      "distillation_loss": 4.102766990661621,
      "epoch": 4.6,
      "learning_rate": 3.851909830932999e-05,
      "loss": 109.3082,
      "step": 5442,
      "task_loss": 2.122342586517334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976236185495553,
      "compression/movement_sparsity/importance_threshold": -1.5423059900264956e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250651918092988,
      "compression/movement_sparsity/model_sparsity": 0.8932863566372531,
      "compression_loss": 105.1303482055664,
      "distillation_loss": 4.034440994262695,
      "epoch": 4.6,
      "learning_rate": 3.851596743894803e-05,
      "loss": 109.1749,
      "step": 5443,
      "task_loss": 1.7374626398086548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976386272300181,
      "compression/movement_sparsity/importance_threshold": -1.5325651389624592e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250838769799842,
      "compression/movement_sparsity/model_sparsity": 0.8933043999148431,
      "compression_loss": 105.13109588623047,
      "distillation_loss": 3.6509857177734375,
      "epoch": 4.6,
      "learning_rate": 3.851283656856606e-05,
      "loss": 109.3434,
      "step": 5444,
      "task_loss": 1.9409536123275757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976535725828093,
      "compression/movement_sparsity/importance_threshold": -1.5228653884747506e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925023695705926,
      "compression/movement_sparsity/model_sparsity": 0.8932462860526881,
      "compression_loss": 105.13178253173828,
      "distillation_loss": 4.862400054931641,
      "epoch": 4.6,
      "learning_rate": 3.850970569818409e-05,
      "loss": 109.5053,
      "step": 5445,
      "task_loss": 2.5034730434417725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976684547418141,
      "compression/movement_sparsity/importance_threshold": -1.5132066516699433e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250222767299773,
      "compression/movement_sparsity/model_sparsity": 0.8932449158229285,
      "compression_loss": 105.13248443603516,
      "distillation_loss": 3.2507286071777344,
      "epoch": 4.6,
      "learning_rate": 3.850657482780213e-05,
      "loss": 108.858,
      "step": 5446,
      "task_loss": 2.5123324394226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976832738409177,
      "compression/movement_sparsity/importance_threshold": -1.5035888416546107e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925028083799616,
      "compression/movement_sparsity/model_sparsity": 0.8932505234018604,
      "compression_loss": 105.13312530517578,
      "distillation_loss": 3.463916778564453,
      "epoch": 4.6,
      "learning_rate": 3.8503443957420164e-05,
      "loss": 108.9719,
      "step": 5447,
      "task_loss": 2.070040464401245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9976980300140053,
      "compression/movement_sparsity/importance_threshold": -1.4940118715354132e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250275710604077,
      "compression/movement_sparsity/model_sparsity": 0.8932500282768213,
      "compression_loss": 105.13383483886719,
      "distillation_loss": 3.502894401550293,
      "epoch": 4.6,
      "learning_rate": 3.8500313087038195e-05,
      "loss": 108.4811,
      "step": 5448,
      "task_loss": 1.5050935745239258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977127233949618,
      "compression/movement_sparsity/importance_threshold": -1.484475654419011e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250886227987033,
      "compression/movement_sparsity/model_sparsity": 0.8933089827000893,
      "compression_loss": 105.13449096679688,
      "distillation_loss": 3.0233869552612305,
      "epoch": 4.61,
      "learning_rate": 3.849718221665623e-05,
      "loss": 108.8509,
      "step": 5449,
      "task_loss": 1.765134572982788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977273541176725,
      "compression/movement_sparsity/importance_threshold": -1.4749801034118042e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9251071887277122,
      "compression/movement_sparsity/model_sparsity": 0.8933269108323214,
      "compression_loss": 105.13510131835938,
      "distillation_loss": 3.886171817779541,
      "epoch": 4.61,
      "learning_rate": 3.8494051346274266e-05,
      "loss": 109.1054,
      "step": 5450,
      "task_loss": 2.220212936401367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977419223160227,
      "compression/movement_sparsity/importance_threshold": -1.4655251316204529e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9251590588569283,
      "compression/movement_sparsity/model_sparsity": 0.8933769990630277,
      "compression_loss": 105.13567352294922,
      "distillation_loss": 5.6045331954956055,
      "epoch": 4.61,
      "learning_rate": 3.84909204758923e-05,
      "loss": 109.3995,
      "step": 5451,
      "task_loss": 2.8757314682006836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977564281238972,
      "compression/movement_sparsity/importance_threshold": -1.456110652151791e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9251112548688761,
      "compression/movement_sparsity/model_sparsity": 0.8933308372890274,
      "compression_loss": 105.13631439208984,
      "distillation_loss": 3.9218149185180664,
      "epoch": 4.61,
      "learning_rate": 3.848778960551033e-05,
      "loss": 109.5039,
      "step": 5452,
      "task_loss": 2.547415256500244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977708716751814,
      "compression/movement_sparsity/importance_threshold": -1.4467365781121316e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9251512723754621,
      "compression/movement_sparsity/model_sparsity": 0.8933694800711538,
      "compression_loss": 105.13690948486328,
      "distillation_loss": 3.49699330329895,
      "epoch": 4.61,
      "learning_rate": 3.848465873512837e-05,
      "loss": 109.3515,
      "step": 5453,
      "task_loss": 2.994401693344116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977852531037603,
      "compression/movement_sparsity/importance_threshold": -1.437402822608222e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250805978338843,
      "compression/movement_sparsity/model_sparsity": 0.8933012334174996,
      "compression_loss": 105.13752746582031,
      "distillation_loss": 3.404147148132324,
      "epoch": 4.61,
      "learning_rate": 3.84815278647464e-05,
      "loss": 109.129,
      "step": 5454,
      "task_loss": 2.8487491607666016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9977995725435191,
      "compression/movement_sparsity/importance_threshold": -1.4281092987467221e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9250445391509535,
      "compression/movement_sparsity/model_sparsity": 0.8932664134612569,
      "compression_loss": 105.13811492919922,
      "distillation_loss": 4.893152713775635,
      "epoch": 4.61,
      "learning_rate": 3.847839699436444e-05,
      "loss": 109.6555,
      "step": 5455,
      "task_loss": 2.8395915031433105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997813830128343,
      "compression/movement_sparsity/importance_threshold": -1.4188559196340322e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925090137167993,
      "compression/movement_sparsity/model_sparsity": 0.8933104450461352,
      "compression_loss": 105.138671875,
      "distillation_loss": 3.330874443054199,
      "epoch": 4.61,
      "learning_rate": 3.847526612398247e-05,
      "loss": 109.3042,
      "step": 5456,
      "task_loss": 1.154024600982666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978280259921171,
      "compression/movement_sparsity/importance_threshold": -1.409642598376986e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9251523217022141,
      "compression/movement_sparsity/model_sparsity": 0.8933704933503037,
      "compression_loss": 105.13929748535156,
      "distillation_loss": 2.9671449661254883,
      "epoch": 4.61,
      "learning_rate": 3.847213525360051e-05,
      "loss": 108.6809,
      "step": 5457,
      "task_loss": 2.0611112117767334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978421602687264,
      "compression/movement_sparsity/importance_threshold": -1.4004692480820702e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9252088064843051,
      "compression/movement_sparsity/model_sparsity": 0.8934250377063625,
      "compression_loss": 105.13992309570312,
      "distillation_loss": 3.914046049118042,
      "epoch": 4.61,
      "learning_rate": 3.846900438321854e-05,
      "loss": 108.7817,
      "step": 5458,
      "task_loss": 1.3501880168914795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978562330920562,
      "compression/movement_sparsity/importance_threshold": -1.391335781855945e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9252024985996258,
      "compression/movement_sparsity/model_sparsity": 0.8934189465169272,
      "compression_loss": 105.14044952392578,
      "distillation_loss": 4.135209560394287,
      "epoch": 4.61,
      "learning_rate": 3.846587351283657e-05,
      "loss": 109.7103,
      "step": 5459,
      "task_loss": 3.3069474697113037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978702445959916,
      "compression/movement_sparsity/importance_threshold": -1.3822421128050974e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9252675807065823,
      "compression/movement_sparsity/model_sparsity": 0.8934817928532938,
      "compression_loss": 105.14098358154297,
      "distillation_loss": 4.304827690124512,
      "epoch": 4.61,
      "learning_rate": 3.8462742642454604e-05,
      "loss": 108.8778,
      "step": 5460,
      "task_loss": 1.419272780418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978841949144177,
      "compression/movement_sparsity/importance_threshold": -1.3731881540362742e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9252979754098861,
      "compression/movement_sparsity/model_sparsity": 0.8935111434050341,
      "compression_loss": 105.14156341552734,
      "distillation_loss": 2.5716919898986816,
      "epoch": 4.62,
      "learning_rate": 3.845961177207264e-05,
      "loss": 108.4016,
      "step": 5461,
      "task_loss": 1.220475673675537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9978980841812197,
      "compression/movement_sparsity/importance_threshold": -1.3641738186559622e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925269619739248,
      "compression/movement_sparsity/model_sparsity": 0.8934837618389146,
      "compression_loss": 105.14207458496094,
      "distillation_loss": 4.18829345703125,
      "epoch": 4.62,
      "learning_rate": 3.8456480901690674e-05,
      "loss": 109.493,
      "step": 5462,
      "task_loss": 2.4378135204315186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9979119125302828,
      "compression/movement_sparsity/importance_threshold": -1.3551990197708218e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9253753394095076,
      "compression/movement_sparsity/model_sparsity": 0.893585849713269,
      "compression_loss": 105.14264678955078,
      "distillation_loss": 3.117889642715454,
      "epoch": 4.62,
      "learning_rate": 3.8453350031308706e-05,
      "loss": 108.3922,
      "step": 5463,
      "task_loss": 1.759373664855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997925680095492,
      "compression/movement_sparsity/importance_threshold": -1.3462636704874263e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9254299759456152,
      "compression/movement_sparsity/model_sparsity": 0.8936386093162797,
      "compression_loss": 105.1432113647461,
      "distillation_loss": 3.751377820968628,
      "epoch": 4.62,
      "learning_rate": 3.845021916092674e-05,
      "loss": 109.1616,
      "step": 5464,
      "task_loss": 2.6221935749053955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9979393870107324,
      "compression/movement_sparsity/importance_threshold": -1.3373676839125229e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9255267524901478,
      "compression/movement_sparsity/model_sparsity": 0.8937320612887881,
      "compression_loss": 105.14366149902344,
      "distillation_loss": 4.230052947998047,
      "epoch": 4.62,
      "learning_rate": 3.8447088290544776e-05,
      "loss": 109.4968,
      "step": 5465,
      "task_loss": 1.3410485982894897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9979530334098894,
      "compression/movement_sparsity/importance_threshold": -1.3285109731524247e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9256067159583139,
      "compression/movement_sparsity/model_sparsity": 0.8938092777658263,
      "compression_loss": 105.1441650390625,
      "distillation_loss": 4.719376564025879,
      "epoch": 4.62,
      "learning_rate": 3.844395742016281e-05,
      "loss": 109.5722,
      "step": 5466,
      "task_loss": 2.313566207885742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9979666194268478,
      "compression/movement_sparsity/importance_threshold": -1.3196934513140524e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9256769254573538,
      "compression/movement_sparsity/model_sparsity": 0.8938770753525845,
      "compression_loss": 105.14468383789062,
      "distillation_loss": 4.137048721313477,
      "epoch": 4.62,
      "learning_rate": 3.844082654978084e-05,
      "loss": 108.9777,
      "step": 5467,
      "task_loss": 2.5386693477630615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.997980145195493,
      "compression/movement_sparsity/importance_threshold": -1.3109150315038925e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9256694609284137,
      "compression/movement_sparsity/model_sparsity": 0.8938698672531772,
      "compression_loss": 105.14519500732422,
      "distillation_loss": 4.3023271560668945,
      "epoch": 4.62,
      "learning_rate": 3.843769567939888e-05,
      "loss": 109.4844,
      "step": 5468,
      "task_loss": 1.8443610668182373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9979936108497102,
      "compression/movement_sparsity/importance_threshold": -1.302175626828432e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257169787364427,
      "compression/movement_sparsity/model_sparsity": 0.8939157526783185,
      "compression_loss": 105.14576721191406,
      "distillation_loss": 3.6623787879943848,
      "epoch": 4.62,
      "learning_rate": 3.843456480901691e-05,
      "loss": 109.1554,
      "step": 5469,
      "task_loss": 1.3797202110290527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980070165233843,
      "compression/movement_sparsity/importance_threshold": -1.2934751503943312e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257294752641251,
      "compression/movement_sparsity/model_sparsity": 0.8939278199118311,
      "compression_loss": 105.14632415771484,
      "distillation_loss": 3.234874725341797,
      "epoch": 4.62,
      "learning_rate": 3.843143393863494e-05,
      "loss": 108.8508,
      "step": 5470,
      "task_loss": 2.4963691234588623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980203623504005,
      "compression/movement_sparsity/importance_threshold": -1.2848135153083369e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257873551738296,
      "compression/movement_sparsity/model_sparsity": 0.8939837114685778,
      "compression_loss": 105.1468505859375,
      "distillation_loss": 4.341855049133301,
      "epoch": 4.62,
      "learning_rate": 3.8428303068252974e-05,
      "loss": 108.6728,
      "step": 5471,
      "task_loss": 1.9215161800384521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998033648464644,
      "compression/movement_sparsity/importance_threshold": -1.2761906346768492e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258237358092866,
      "compression/movement_sparsity/model_sparsity": 0.894018842317287,
      "compression_loss": 105.14742279052734,
      "distillation_loss": 3.787132501602173,
      "epoch": 4.63,
      "learning_rate": 3.842517219787101e-05,
      "loss": 108.6383,
      "step": 5472,
      "task_loss": 2.4077484607696533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998046875,
      "compression/movement_sparsity/importance_threshold": -1.2676064216066152e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258064219178793,
      "compression/movement_sparsity/model_sparsity": 0.8940021232113133,
      "compression_loss": 105.14793395996094,
      "distillation_loss": 3.27209734916687,
      "epoch": 4.63,
      "learning_rate": 3.8422041327489044e-05,
      "loss": 108.9684,
      "step": 5473,
      "task_loss": 2.403099536895752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980600420903535,
      "compression/movement_sparsity/importance_threshold": -1.2590607892042083e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258289347463758,
      "compression/movement_sparsity/model_sparsity": 0.8940238626548934,
      "compression_loss": 105.14842224121094,
      "distillation_loss": 4.8819355964660645,
      "epoch": 4.63,
      "learning_rate": 3.8418910457107076e-05,
      "loss": 110.1898,
      "step": 5474,
      "task_loss": 3.3823001384735107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980731498695897,
      "compression/movement_sparsity/importance_threshold": -1.250553650576202e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257766949679631,
      "compression/movement_sparsity/model_sparsity": 0.8939734174735775,
      "compression_loss": 105.14900970458984,
      "distillation_loss": 3.5622847080230713,
      "epoch": 4.63,
      "learning_rate": 3.841577958672511e-05,
      "loss": 108.8104,
      "step": 5475,
      "task_loss": 1.701818585395813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980861984715937,
      "compression/movement_sparsity/importance_threshold": -1.2420849188292567e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258525922949654,
      "compression/movement_sparsity/model_sparsity": 0.8940467074939098,
      "compression_loss": 105.14949798583984,
      "distillation_loss": 4.4940948486328125,
      "epoch": 4.63,
      "learning_rate": 3.8412648716343146e-05,
      "loss": 109.6733,
      "step": 5476,
      "task_loss": 2.364332914352417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9980991880302509,
      "compression/movement_sparsity/importance_threshold": -1.2336545070697723e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257799979623982,
      "compression/movement_sparsity/model_sparsity": 0.8939766069999926,
      "compression_loss": 105.15001678466797,
      "distillation_loss": 3.6913392543792725,
      "epoch": 4.63,
      "learning_rate": 3.840951784596118e-05,
      "loss": 108.9585,
      "step": 5477,
      "task_loss": 2.9271106719970703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998112118679446,
      "compression/movement_sparsity/importance_threshold": -1.2252623284046693e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257301072450098,
      "compression/movement_sparsity/model_sparsity": 0.8939284301822282,
      "compression_loss": 105.15055084228516,
      "distillation_loss": 4.065769672393799,
      "epoch": 4.63,
      "learning_rate": 3.840638697557921e-05,
      "loss": 109.4747,
      "step": 5478,
      "task_loss": 2.445261240005493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981249905530645,
      "compression/movement_sparsity/importance_threshold": -1.2169082959403478e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257020735268978,
      "compression/movement_sparsity/model_sparsity": 0.8939013595085753,
      "compression_loss": 105.15103149414062,
      "distillation_loss": 4.104911804199219,
      "epoch": 4.63,
      "learning_rate": 3.840325610519724e-05,
      "loss": 108.7139,
      "step": 5479,
      "task_loss": 2.1350109577178955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981378037849913,
      "compression/movement_sparsity/importance_threshold": -1.2085923227835547e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257296183541367,
      "compression/movement_sparsity/model_sparsity": 0.8939279580862607,
      "compression_loss": 105.15153503417969,
      "distillation_loss": 5.8017120361328125,
      "epoch": 4.63,
      "learning_rate": 3.840012523481528e-05,
      "loss": 109.2792,
      "step": 5480,
      "task_loss": 3.2855920791625977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981505585091117,
      "compression/movement_sparsity/importance_threshold": -1.2003143220406902e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257861031362278,
      "compression/movement_sparsity/model_sparsity": 0.8939825024423194,
      "compression_loss": 105.15204620361328,
      "distillation_loss": 6.229037761688232,
      "epoch": 4.63,
      "learning_rate": 3.839699436443331e-05,
      "loss": 109.7864,
      "step": 5481,
      "task_loss": 3.0736749172210693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981632548593108,
      "compression/movement_sparsity/importance_threshold": -1.1920742068185011e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257501994674762,
      "compression/movement_sparsity/model_sparsity": 0.893947832175042,
      "compression_loss": 105.15254974365234,
      "distillation_loss": 3.806746482849121,
      "epoch": 4.63,
      "learning_rate": 3.8393863494051344e-05,
      "loss": 109.4279,
      "step": 5482,
      "task_loss": 2.2679524421691895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981758929694737,
      "compression/movement_sparsity/importance_threshold": -1.183871890223561e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257838733168798,
      "compression/movement_sparsity/model_sparsity": 0.8939803492241258,
      "compression_loss": 105.15311431884766,
      "distillation_loss": 4.799604892730713,
      "epoch": 4.63,
      "learning_rate": 3.839073262366938e-05,
      "loss": 109.6951,
      "step": 5483,
      "task_loss": 3.3111438751220703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9981884729734857,
      "compression/movement_sparsity/importance_threshold": -1.1757072853624435e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257720445425851,
      "compression/movement_sparsity/model_sparsity": 0.8939689268046176,
      "compression_loss": 105.15357971191406,
      "distillation_loss": 4.675943851470947,
      "epoch": 4.64,
      "learning_rate": 3.8387601753287414e-05,
      "loss": 109.6592,
      "step": 5484,
      "task_loss": 2.593230962753296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982009950052316,
      "compression/movement_sparsity/importance_threshold": -1.1675803053418088e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9256771520165389,
      "compression/movement_sparsity/model_sparsity": 0.8938772941287647,
      "compression_loss": 105.15412139892578,
      "distillation_loss": 5.4743452072143555,
      "epoch": 4.64,
      "learning_rate": 3.8384470882905446e-05,
      "loss": 110.0713,
      "step": 5485,
      "task_loss": 2.888535261154175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982134591985969,
      "compression/movement_sparsity/importance_threshold": -1.1594908632682303e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257531089643793,
      "compression/movement_sparsity/model_sparsity": 0.8939506417217759,
      "compression_loss": 105.154541015625,
      "distillation_loss": 3.588864803314209,
      "epoch": 4.64,
      "learning_rate": 3.8381340012523484e-05,
      "loss": 108.6363,
      "step": 5486,
      "task_loss": 2.99826717376709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982258656874666,
      "compression/movement_sparsity/importance_threshold": -1.1514388722482817e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257225473227286,
      "compression/movement_sparsity/model_sparsity": 0.8939211299665345,
      "compression_loss": 105.15509033203125,
      "distillation_loss": 4.768405437469482,
      "epoch": 4.64,
      "learning_rate": 3.8378209142141516e-05,
      "loss": 109.4923,
      "step": 5487,
      "task_loss": 2.3449032306671143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982382146057258,
      "compression/movement_sparsity/importance_threshold": -1.1434242453886231e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925728890979911,
      "compression/movement_sparsity/model_sparsity": 0.8939272556995772,
      "compression_loss": 105.15558624267578,
      "distillation_loss": 2.6913158893585205,
      "epoch": 4.64,
      "learning_rate": 3.837507827175955e-05,
      "loss": 108.5963,
      "step": 5488,
      "task_loss": 1.8931641578674316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982505060872596,
      "compression/movement_sparsity/importance_threshold": -1.1354468957959149e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257354611962783,
      "compression/movement_sparsity/model_sparsity": 0.8939336002088,
      "compression_loss": 105.15608215332031,
      "distillation_loss": 4.095090866088867,
      "epoch": 4.64,
      "learning_rate": 3.8371947401377587e-05,
      "loss": 108.9845,
      "step": 5489,
      "task_loss": 2.0458030700683594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982627402659533,
      "compression/movement_sparsity/importance_threshold": -1.1275067365766438e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257169310397722,
      "compression/movement_sparsity/model_sparsity": 0.8939157066201753,
      "compression_loss": 105.15648651123047,
      "distillation_loss": 3.957024574279785,
      "epoch": 4.64,
      "learning_rate": 3.836881653099562e-05,
      "loss": 108.3831,
      "step": 5490,
      "task_loss": 2.5465614795684814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998274917275692,
      "compression/movement_sparsity/importance_threshold": -1.1196036808373833e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.925759571863238,
      "compression/movement_sparsity/model_sparsity": 0.8939568826001766,
      "compression_loss": 105.15692901611328,
      "distillation_loss": 3.6451454162597656,
      "epoch": 4.64,
      "learning_rate": 3.836568566061366e-05,
      "loss": 109.5367,
      "step": 5491,
      "task_loss": 2.189373016357422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982870372503607,
      "compression/movement_sparsity/importance_threshold": -1.1117376416847936e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258299363764573,
      "compression/movement_sparsity/model_sparsity": 0.8940248298759002,
      "compression_loss": 105.15730285644531,
      "distillation_loss": 2.8968100547790527,
      "epoch": 4.64,
      "learning_rate": 3.836255479023169e-05,
      "loss": 109.1668,
      "step": 5492,
      "task_loss": 1.3097339868545532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9982991003238446,
      "compression/movement_sparsity/importance_threshold": -1.1039085322256219e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258222929850026,
      "compression/movement_sparsity/model_sparsity": 0.8940174490584558,
      "compression_loss": 105.15770721435547,
      "distillation_loss": 5.471523284912109,
      "epoch": 4.64,
      "learning_rate": 3.835942391984972e-05,
      "loss": 109.5617,
      "step": 5493,
      "task_loss": 3.1415367126464844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998311106630029,
      "compression/movement_sparsity/importance_threshold": -1.096116265566268e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258423732833014,
      "compression/movement_sparsity/model_sparsity": 0.8940368395367339,
      "compression_loss": 105.15811920166016,
      "distillation_loss": 4.231326103210449,
      "epoch": 4.64,
      "learning_rate": 3.835629304946776e-05,
      "loss": 109.3664,
      "step": 5494,
      "task_loss": 3.8758065700531006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983230563027988,
      "compression/movement_sparsity/importance_threshold": -1.0883607548133924e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257641507436102,
      "compression/movement_sparsity/model_sparsity": 0.8939613041819217,
      "compression_loss": 105.1585922241211,
      "distillation_loss": 5.411951065063477,
      "epoch": 4.64,
      "learning_rate": 3.835316217908579e-05,
      "loss": 109.6312,
      "step": 5495,
      "task_loss": 2.411834716796875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983349494760394,
      "compression/movement_sparsity/importance_threshold": -1.0806419130736551e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258036674351554,
      "compression/movement_sparsity/model_sparsity": 0.8939994633535447,
      "compression_loss": 105.1590347290039,
      "distillation_loss": 4.161849021911621,
      "epoch": 4.65,
      "learning_rate": 3.835003130870382e-05,
      "loss": 109.6138,
      "step": 5496,
      "task_loss": 2.9240989685058594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983467862836357,
      "compression/movement_sparsity/importance_threshold": -1.072959653453543e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258296740447692,
      "compression/movement_sparsity/model_sparsity": 0.8940245765561127,
      "compression_loss": 105.15949249267578,
      "distillation_loss": 4.885004997253418,
      "epoch": 4.65,
      "learning_rate": 3.8346900438321854e-05,
      "loss": 109.1386,
      "step": 5497,
      "task_loss": 3.7227299213409424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998358566859473,
      "compression/movement_sparsity/importance_threshold": -1.0653138890598032e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258100468648406,
      "compression/movement_sparsity/model_sparsity": 0.8940056236301949,
      "compression_loss": 105.159912109375,
      "distillation_loss": 3.305805206298828,
      "epoch": 4.65,
      "learning_rate": 3.834376956793989e-05,
      "loss": 108.7117,
      "step": 5498,
      "task_loss": 2.0963401794433594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983702913374364,
      "compression/movement_sparsity/importance_threshold": -1.0577045329989224e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257734158218632,
      "compression/movement_sparsity/model_sparsity": 0.8939702509762341,
      "compression_loss": 105.16030883789062,
      "distillation_loss": 5.707159996032715,
      "epoch": 4.65,
      "learning_rate": 3.8340638697557925e-05,
      "loss": 109.5723,
      "step": 5499,
      "task_loss": 2.8513622283935547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983819598514109,
      "compression/movement_sparsity/importance_threshold": -1.0501314983776475e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257248844595852,
      "compression/movement_sparsity/model_sparsity": 0.8939233868155503,
      "compression_loss": 105.16072082519531,
      "distillation_loss": 4.359749794006348,
      "epoch": 4.65,
      "learning_rate": 3.8337507827175957e-05,
      "loss": 109.5736,
      "step": 5500,
      "task_loss": 2.8013970851898193
    },
    {
      "epoch": 4.65,
      "eval_accuracy": 0.5855049504950495,
      "eval_loss": 108.76239776611328,
      "eval_runtime": 208.5599,
      "eval_samples_per_second": 121.068,
      "eval_steps_per_second": 0.949,
      "step": 5500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9983935725352818,
      "compression/movement_sparsity/importance_threshold": -1.0425946983024653e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257318124009817,
      "compression/movement_sparsity/model_sparsity": 0.8939300767608469,
      "compression_loss": 105.16111755371094,
      "distillation_loss": 5.257047176361084,
      "epoch": 4.65,
      "learning_rate": 3.833437695679399e-05,
      "loss": 109.2185,
      "step": 5501,
      "task_loss": 3.3152670860290527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984051295229343,
      "compression/movement_sparsity/importance_threshold": -1.0350940458799494e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257434861610973,
      "compression/movement_sparsity/model_sparsity": 0.8939413494913897,
      "compression_loss": 105.16153717041016,
      "distillation_loss": 4.588510513305664,
      "epoch": 4.65,
      "learning_rate": 3.833124608641203e-05,
      "loss": 109.012,
      "step": 5502,
      "task_loss": 2.472874164581299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984166309482533,
      "compression/movement_sparsity/importance_threshold": -1.0276294542168468e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9257739166369039,
      "compression/movement_sparsity/model_sparsity": 0.8939707345867374,
      "compression_loss": 105.16191101074219,
      "distillation_loss": 3.590587615966797,
      "epoch": 4.65,
      "learning_rate": 3.832811521603006e-05,
      "loss": 109.202,
      "step": 5503,
      "task_loss": 3.0143370628356934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984280769451241,
      "compression/movement_sparsity/importance_threshold": -1.0202008364196442e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258080555288454,
      "compression/movement_sparsity/model_sparsity": 0.8940037007027172,
      "compression_loss": 105.16233825683594,
      "distillation_loss": 5.387524604797363,
      "epoch": 4.65,
      "learning_rate": 3.832498434564809e-05,
      "loss": 109.4645,
      "step": 5504,
      "task_loss": 3.0847272872924805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998439467647432,
      "compression/movement_sparsity/importance_threshold": -1.0128081055949152e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258317726982731,
      "compression/movement_sparsity/model_sparsity": 0.8940266031144125,
      "compression_loss": 105.16273498535156,
      "distillation_loss": 3.8409762382507324,
      "epoch": 4.65,
      "learning_rate": 3.832185347526613e-05,
      "loss": 109.4404,
      "step": 5505,
      "task_loss": 2.4944803714752197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984508031890618,
      "compression/movement_sparsity/importance_threshold": -1.0054511748494067e-05,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258736980716809,
      "compression/movement_sparsity/model_sparsity": 0.8940670882222661,
      "compression_loss": 105.16311645507812,
      "distillation_loss": 3.9612977504730225,
      "epoch": 4.65,
      "learning_rate": 3.831872260488416e-05,
      "loss": 108.6688,
      "step": 5506,
      "task_loss": 2.0610318183898926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984620837038989,
      "compression/movement_sparsity/importance_threshold": -9.981299572896056e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9258907615555678,
      "compression/movement_sparsity/model_sparsity": 0.8940835655229881,
      "compression_loss": 105.1634521484375,
      "distillation_loss": 3.0728611946105957,
      "epoch": 4.65,
      "learning_rate": 3.831559173450219e-05,
      "loss": 109.1076,
      "step": 5507,
      "task_loss": 2.5437867641448975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984733093258282,
      "compression/movement_sparsity/importance_threshold": -9.90844366022172e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259508593604525,
      "compression/movement_sparsity/model_sparsity": 0.8941415987833926,
      "compression_loss": 105.16384887695312,
      "distillation_loss": 4.05833625793457,
      "epoch": 4.66,
      "learning_rate": 3.8312460864120224e-05,
      "loss": 108.9534,
      "step": 5508,
      "task_loss": 1.9262977838516235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984844801887351,
      "compression/movement_sparsity/importance_threshold": -9.835943141536796e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259623781063887,
      "compression/movement_sparsity/model_sparsity": 0.8941527218249701,
      "compression_loss": 105.16414642333984,
      "distillation_loss": 3.1709847450256348,
      "epoch": 4.66,
      "learning_rate": 3.830932999373826e-05,
      "loss": 108.697,
      "step": 5509,
      "task_loss": 2.172089099884033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9984955964265047,
      "compression/movement_sparsity/importance_threshold": -9.763797147907018e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259498458062034,
      "compression/movement_sparsity/model_sparsity": 0.89414062004785,
      "compression_loss": 105.16445922851562,
      "distillation_loss": 3.7472143173217773,
      "epoch": 4.66,
      "learning_rate": 3.8306199123356295e-05,
      "loss": 109.1167,
      "step": 5510,
      "task_loss": 2.3472213745117188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985066581730219,
      "compression/movement_sparsity/importance_threshold": -9.692004810399855e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259790242444085,
      "compression/movement_sparsity/model_sparsity": 0.8941687961169392,
      "compression_loss": 105.16485595703125,
      "distillation_loss": 3.2483909130096436,
      "epoch": 4.66,
      "learning_rate": 3.8303068252974326e-05,
      "loss": 108.7451,
      "step": 5511,
      "task_loss": 2.174842596054077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985176655621721,
      "compression/movement_sparsity/importance_threshold": -9.62056526007931e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259868822708804,
      "compression/movement_sparsity/model_sparsity": 0.8941763841960279,
      "compression_loss": 105.16523742675781,
      "distillation_loss": 3.3938636779785156,
      "epoch": 4.66,
      "learning_rate": 3.829993738259236e-05,
      "loss": 109.1717,
      "step": 5512,
      "task_loss": 0.9340510368347168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985286187278404,
      "compression/movement_sparsity/importance_threshold": -9.54947762801285e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259660388258529,
      "compression/movement_sparsity/model_sparsity": 0.894156256787459,
      "compression_loss": 105.16557312011719,
      "distillation_loss": 6.411905288696289,
      "epoch": 4.66,
      "learning_rate": 3.82968065122104e-05,
      "loss": 109.8375,
      "step": 5513,
      "task_loss": 3.8978633880615234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985395178039117,
      "compression/movement_sparsity/importance_threshold": -9.47874104526708e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9259707607962367,
      "compression/movement_sparsity/model_sparsity": 0.8941608165436337,
      "compression_loss": 105.16596984863281,
      "distillation_loss": 5.095303535461426,
      "epoch": 4.66,
      "learning_rate": 3.829367564182843e-05,
      "loss": 109.3488,
      "step": 5514,
      "task_loss": 1.8470959663391113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985503629242715,
      "compression/movement_sparsity/importance_threshold": -9.408354642906e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9260321583353939,
      "compression/movement_sparsity/model_sparsity": 0.8942201048884397,
      "compression_loss": 105.16632843017578,
      "distillation_loss": 4.106523513793945,
      "epoch": 4.66,
      "learning_rate": 3.829054477144646e-05,
      "loss": 109.3228,
      "step": 5515,
      "task_loss": 2.208195686340332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985611542228048,
      "compression/movement_sparsity/importance_threshold": -9.338317551996211e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261100112258884,
      "compression/movement_sparsity/model_sparsity": 0.8942952832926423,
      "compression_loss": 105.16665649414062,
      "distillation_loss": 3.1844897270202637,
      "epoch": 4.66,
      "learning_rate": 3.828741390106449e-05,
      "loss": 108.9703,
      "step": 5516,
      "task_loss": 1.9110333919525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985718918333966,
      "compression/movement_sparsity/importance_threshold": -9.268628903605185e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261129207227915,
      "compression/movement_sparsity/model_sparsity": 0.8942980928393762,
      "compression_loss": 105.16697692871094,
      "distillation_loss": 4.284382343292236,
      "epoch": 4.66,
      "learning_rate": 3.828428303068253e-05,
      "loss": 108.3623,
      "step": 5517,
      "task_loss": 2.7876713275909424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985825758899322,
      "compression/movement_sparsity/importance_threshold": -9.199287828797788e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261836906577103,
      "compression/movement_sparsity/model_sparsity": 0.8943664316093167,
      "compression_loss": 105.1673583984375,
      "distillation_loss": 4.435400009155273,
      "epoch": 4.66,
      "learning_rate": 3.828115216030056e-05,
      "loss": 108.7831,
      "step": 5518,
      "task_loss": 2.9452011585235596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9985932065262967,
      "compression/movement_sparsity/importance_threshold": -9.130293458639756e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261835356435311,
      "compression/movement_sparsity/model_sparsity": 0.8943662819203514,
      "compression_loss": 105.16768646240234,
      "distillation_loss": 3.2061800956726074,
      "epoch": 4.66,
      "learning_rate": 3.8278021289918594e-05,
      "loss": 108.6611,
      "step": 5519,
      "task_loss": 2.259645462036133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986037838763752,
      "compression/movement_sparsity/importance_threshold": -9.061644924198559e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9262230404109087,
      "compression/movement_sparsity/model_sparsity": 0.8944044295774387,
      "compression_loss": 105.16802215576172,
      "distillation_loss": 3.0869526863098145,
      "epoch": 4.67,
      "learning_rate": 3.827489041953663e-05,
      "loss": 109.1175,
      "step": 5520,
      "task_loss": 0.9609329700469971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986143080740528,
      "compression/movement_sparsity/importance_threshold": -8.993341356539064e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261819974259061,
      "compression/movement_sparsity/model_sparsity": 0.8943647965452339,
      "compression_loss": 105.16841888427734,
      "distillation_loss": 4.504428386688232,
      "epoch": 4.67,
      "learning_rate": 3.8271759549154665e-05,
      "loss": 109.2082,
      "step": 5521,
      "task_loss": 1.4417804479599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986247792532149,
      "compression/movement_sparsity/importance_threshold": -8.925381886727007e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926188877670632,
      "compression/movement_sparsity/model_sparsity": 0.8943714404323874,
      "compression_loss": 105.1687240600586,
      "distillation_loss": 4.324798583984375,
      "epoch": 4.67,
      "learning_rate": 3.82686286787727e-05,
      "loss": 109.492,
      "step": 5522,
      "task_loss": 2.553222894668579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986351975477463,
      "compression/movement_sparsity/importance_threshold": -8.857765645829858e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9261892473198287,
      "compression/movement_sparsity/model_sparsity": 0.894371797382997,
      "compression_loss": 105.16905212402344,
      "distillation_loss": 3.866504192352295,
      "epoch": 4.67,
      "learning_rate": 3.8265497808390735e-05,
      "loss": 108.2679,
      "step": 5523,
      "task_loss": 2.1640403270721436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986455630915324,
      "compression/movement_sparsity/importance_threshold": -8.790491764912485e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926233509830093,
      "compression/movement_sparsity/model_sparsity": 0.8944145393398664,
      "compression_loss": 105.1693115234375,
      "distillation_loss": 4.284952640533447,
      "epoch": 4.67,
      "learning_rate": 3.8262366938008773e-05,
      "loss": 109.4593,
      "step": 5524,
      "task_loss": 2.164170980453491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986558760184582,
      "compression/movement_sparsity/importance_threshold": -8.72355937504149e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9262215021932837,
      "compression/movement_sparsity/model_sparsity": 0.8944029442023212,
      "compression_loss": 105.16963195800781,
      "distillation_loss": 3.5136938095092773,
      "epoch": 4.67,
      "learning_rate": 3.8259236067626805e-05,
      "loss": 108.8273,
      "step": 5525,
      "task_loss": 2.6103854179382324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986661364624089,
      "compression/movement_sparsity/importance_threshold": -8.656967607282608e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9262820769648739,
      "compression/movement_sparsity/model_sparsity": 0.8944614380441576,
      "compression_loss": 105.16987609863281,
      "distillation_loss": 3.114741086959839,
      "epoch": 4.67,
      "learning_rate": 3.825610519724484e-05,
      "loss": 108.698,
      "step": 5526,
      "task_loss": 2.019852638244629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986763445572695,
      "compression/movement_sparsity/importance_threshold": -8.590715592702441e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263229530115297,
      "compression/movement_sparsity/model_sparsity": 0.8945009098728612,
      "compression_loss": 105.17005157470703,
      "distillation_loss": 4.283642768859863,
      "epoch": 4.67,
      "learning_rate": 3.825297432686287e-05,
      "loss": 109.1006,
      "step": 5527,
      "task_loss": 2.925391674041748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986865004369254,
      "compression/movement_sparsity/importance_threshold": -8.524802462365859e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9262707132331169,
      "compression/movement_sparsity/model_sparsity": 0.8944504646915453,
      "compression_loss": 105.17029571533203,
      "distillation_loss": 3.7527427673339844,
      "epoch": 4.67,
      "learning_rate": 3.824984345648091e-05,
      "loss": 108.6132,
      "step": 5528,
      "task_loss": 2.860309600830078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9986966042352615,
      "compression/movement_sparsity/importance_threshold": -8.45922734734033e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263155481034278,
      "compression/movement_sparsity/model_sparsity": 0.8944937593461328,
      "compression_loss": 105.17048645019531,
      "distillation_loss": 3.696965217590332,
      "epoch": 4.67,
      "learning_rate": 3.824671258609894e-05,
      "loss": 108.4653,
      "step": 5529,
      "task_loss": 1.7292072772979736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987066560861632,
      "compression/movement_sparsity/importance_threshold": -8.393989378689855e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263800340020025,
      "compression/movement_sparsity/model_sparsity": 0.8945560299557097,
      "compression_loss": 105.17066955566406,
      "distillation_loss": 3.969604969024658,
      "epoch": 4.67,
      "learning_rate": 3.824358171571697e-05,
      "loss": 109.3445,
      "step": 5530,
      "task_loss": 1.5265544652938843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987166561235153,
      "compression/movement_sparsity/importance_threshold": -8.329087687482771e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264136243822327,
      "compression/movement_sparsity/model_sparsity": 0.8945884664030429,
      "compression_loss": 105.17082977294922,
      "distillation_loss": 4.752014636993408,
      "epoch": 4.67,
      "learning_rate": 3.824045084533501e-05,
      "loss": 109.5428,
      "step": 5531,
      "task_loss": 2.9104249477386475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987266044812032,
      "compression/movement_sparsity/importance_threshold": -8.264521404783946e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263694334169742,
      "compression/movement_sparsity/model_sparsity": 0.8945457935333884,
      "compression_loss": 105.17105102539062,
      "distillation_loss": 3.736938238143921,
      "epoch": 4.68,
      "learning_rate": 3.823731997495304e-05,
      "loss": 109.08,
      "step": 5532,
      "task_loss": 2.687177896499634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.998736501293112,
      "compression/movement_sparsity/importance_threshold": -8.200289661659983e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263633282431446,
      "compression/movement_sparsity/model_sparsity": 0.8945398980910615,
      "compression_loss": 105.17122650146484,
      "distillation_loss": 5.019606113433838,
      "epoch": 4.68,
      "learning_rate": 3.823418910457107e-05,
      "loss": 108.9038,
      "step": 5533,
      "task_loss": 2.7686045169830322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987463466931267,
      "compression/movement_sparsity/importance_threshold": -8.136391589176617e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263940687473099,
      "compression/movement_sparsity/model_sparsity": 0.8945695825643398,
      "compression_loss": 105.17137145996094,
      "distillation_loss": 4.460613250732422,
      "epoch": 4.68,
      "learning_rate": 3.8231058234189105e-05,
      "loss": 108.5624,
      "step": 5534,
      "task_loss": 2.7495803833007812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987561408151326,
      "compression/movement_sparsity/importance_threshold": -8.072826318398715e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264049674365291,
      "compression/movement_sparsity/model_sparsity": 0.8945801068500561,
      "compression_loss": 105.17155456542969,
      "distillation_loss": 3.437826633453369,
      "epoch": 4.68,
      "learning_rate": 3.8227927363807143e-05,
      "loss": 109.0161,
      "step": 5535,
      "task_loss": 2.3904030323028564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987658837930148,
      "compression/movement_sparsity/importance_threshold": -8.009592980394616e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264143517564585,
      "compression/movement_sparsity/model_sparsity": 0.8945891687897264,
      "compression_loss": 105.17163848876953,
      "distillation_loss": 4.378613471984863,
      "epoch": 4.68,
      "learning_rate": 3.8224796493425175e-05,
      "loss": 109.7495,
      "step": 5536,
      "task_loss": 3.443814754486084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987755757606583,
      "compression/movement_sparsity/importance_threshold": -7.946690706228318e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263804513478697,
      "compression/movement_sparsity/model_sparsity": 0.8945564329644625,
      "compression_loss": 105.17179870605469,
      "distillation_loss": 4.681374549865723,
      "epoch": 4.68,
      "learning_rate": 3.822166562304321e-05,
      "loss": 108.2461,
      "step": 5537,
      "task_loss": 2.250774383544922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987852168519485,
      "compression/movement_sparsity/importance_threshold": -7.884118626967293e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9263854833466121,
      "compression/movement_sparsity/model_sparsity": 0.8945612920985678,
      "compression_loss": 105.1719970703125,
      "distillation_loss": 3.9234302043914795,
      "epoch": 4.68,
      "learning_rate": 3.821853475266124e-05,
      "loss": 108.6919,
      "step": 5538,
      "task_loss": 2.0033278465270996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9987948072007704,
      "compression/movement_sparsity/importance_threshold": -7.821875873676408e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264266098007882,
      "compression/movement_sparsity/model_sparsity": 0.8946010057325232,
      "compression_loss": 105.17220306396484,
      "distillation_loss": 3.8876285552978516,
      "epoch": 4.68,
      "learning_rate": 3.821540388227928e-05,
      "loss": 108.9226,
      "step": 5539,
      "task_loss": 2.638014316558838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988043469410092,
      "compression/movement_sparsity/importance_threshold": -7.759961577422265e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264850620705392,
      "compression/movement_sparsity/model_sparsity": 0.894657449986988,
      "compression_loss": 105.17229461669922,
      "distillation_loss": 2.566643714904785,
      "epoch": 4.68,
      "learning_rate": 3.821227301189731e-05,
      "loss": 108.692,
      "step": 5540,
      "task_loss": 2.013514280319214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988138362065498,
      "compression/movement_sparsity/importance_threshold": -7.698374869272336e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926457231063277,
      "compression/movement_sparsity/model_sparsity": 0.8946305750604435,
      "compression_loss": 105.17242431640625,
      "distillation_loss": 3.8205931186676025,
      "epoch": 4.68,
      "learning_rate": 3.820914214151534e-05,
      "loss": 109.1307,
      "step": 5541,
      "task_loss": 2.13059401512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988232751312777,
      "compression/movement_sparsity/importance_threshold": -7.637114880289751e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264359344998794,
      "compression/movement_sparsity/model_sparsity": 0.8946100100995145,
      "compression_loss": 105.17259979248047,
      "distillation_loss": 4.249103546142578,
      "epoch": 4.68,
      "learning_rate": 3.820601127113338e-05,
      "loss": 109.3943,
      "step": 5542,
      "task_loss": 2.140233039855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988326638490778,
      "compression/movement_sparsity/importance_threshold": -7.57618074154285e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264558240114961,
      "compression/movement_sparsity/model_sparsity": 0.8946292163452197,
      "compression_loss": 105.17280578613281,
      "distillation_loss": 4.0050458908081055,
      "epoch": 4.69,
      "learning_rate": 3.820288040075141e-05,
      "loss": 109.1276,
      "step": 5543,
      "task_loss": 1.6777533292770386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988420024938354,
      "compression/movement_sparsity/importance_threshold": -7.515571584095632e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9264735314004353,
      "compression/movement_sparsity/model_sparsity": 0.8946463154308747,
      "compression_loss": 105.17301940917969,
      "distillation_loss": 3.1025309562683105,
      "epoch": 4.69,
      "learning_rate": 3.819974953036944e-05,
      "loss": 108.7996,
      "step": 5544,
      "task_loss": 1.3356029987335205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988512911994354,
      "compression/movement_sparsity/importance_threshold": -7.4552865390173015e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9265193798249952,
      "compression/movement_sparsity/model_sparsity": 0.8946905888210047,
      "compression_loss": 105.17317962646484,
      "distillation_loss": 2.925321102142334,
      "epoch": 4.69,
      "learning_rate": 3.8196618659987475e-05,
      "loss": 109.0552,
      "step": 5545,
      "task_loss": 1.525267243385315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988605300997632,
      "compression/movement_sparsity/importance_threshold": -7.395324737370125e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9265679469597761,
      "compression/movement_sparsity/model_sparsity": 0.8947374875252958,
      "compression_loss": 105.17334747314453,
      "distillation_loss": 4.556665420532227,
      "epoch": 4.69,
      "learning_rate": 3.819348778960551e-05,
      "loss": 109.2586,
      "step": 5546,
      "task_loss": 2.8845741748809814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988697193287037,
      "compression/movement_sparsity/importance_threshold": -7.335685310223307e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266090972622875,
      "compression/movement_sparsity/model_sparsity": 0.8947772241883228,
      "compression_loss": 105.17359161376953,
      "distillation_loss": 3.7846620082855225,
      "epoch": 4.69,
      "learning_rate": 3.8190356919223545e-05,
      "loss": 109.3713,
      "step": 5547,
      "task_loss": 2.7701807022094727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988788590201423,
      "compression/movement_sparsity/importance_threshold": -7.2763673886408475e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266404458990021,
      "compression/movement_sparsity/model_sparsity": 0.8948074959029266,
      "compression_loss": 105.17377471923828,
      "distillation_loss": 3.3148512840270996,
      "epoch": 4.69,
      "learning_rate": 3.818722604884158e-05,
      "loss": 108.5992,
      "step": 5548,
      "task_loss": 2.0378522872924805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988879493079639,
      "compression/movement_sparsity/importance_threshold": -7.217370103690217e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266696362613747,
      "compression/movement_sparsity/model_sparsity": 0.8948356834865517,
      "compression_loss": 105.17394256591797,
      "distillation_loss": 3.1718435287475586,
      "epoch": 4.69,
      "learning_rate": 3.818409517845961e-05,
      "loss": 109.0555,
      "step": 5549,
      "task_loss": 1.47273588180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9988969903260538,
      "compression/movement_sparsity/importance_threshold": -7.158692586436283e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266904558580669,
      "compression/movement_sparsity/model_sparsity": 0.8948557878660489,
      "compression_loss": 105.17410278320312,
      "distillation_loss": 5.971027374267578,
      "epoch": 4.69,
      "learning_rate": 3.818096430807765e-05,
      "loss": 109.3803,
      "step": 5550,
      "task_loss": 2.9477932453155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989059822082972,
      "compression/movement_sparsity/importance_threshold": -7.100333967945648e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9267275280952468,
      "compression/movement_sparsity/model_sparsity": 0.8948915865578342,
      "compression_loss": 105.17430114746094,
      "distillation_loss": 3.131446599960327,
      "epoch": 4.69,
      "learning_rate": 3.817783343769568e-05,
      "loss": 108.602,
      "step": 5551,
      "task_loss": 2.2974634170532227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989149250885789,
      "compression/movement_sparsity/importance_threshold": -7.042293379284914e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9267453070291919,
      "compression/movement_sparsity/model_sparsity": 0.8949087547307039,
      "compression_loss": 105.17443084716797,
      "distillation_loss": 3.5285887718200684,
      "epoch": 4.69,
      "learning_rate": 3.817470256731371e-05,
      "loss": 108.6185,
      "step": 5552,
      "task_loss": 2.4092583656311035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989238191007845,
      "compression/movement_sparsity/importance_threshold": -6.9845699515180826e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266917198198363,
      "compression/movement_sparsity/model_sparsity": 0.8948570084068432,
      "compression_loss": 105.174560546875,
      "distillation_loss": 3.582732677459717,
      "epoch": 4.69,
      "learning_rate": 3.817157169693175e-05,
      "loss": 109.0138,
      "step": 5553,
      "task_loss": 2.291818857192993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989326643787988,
      "compression/movement_sparsity/importance_threshold": -6.927162815714358e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926660979315671,
      "compression/movement_sparsity/model_sparsity": 0.8948273239335649,
      "compression_loss": 105.17466735839844,
      "distillation_loss": 4.950085639953613,
      "epoch": 4.69,
      "learning_rate": 3.816844082654978e-05,
      "loss": 109.1714,
      "step": 5554,
      "task_loss": 2.706205368041992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989414610565072,
      "compression/movement_sparsity/importance_threshold": -6.870071102936005e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266280328404932,
      "compression/movement_sparsity/model_sparsity": 0.8947955092711646,
      "compression_loss": 105.17479705810547,
      "distillation_loss": 4.543703556060791,
      "epoch": 4.7,
      "learning_rate": 3.816530995616781e-05,
      "loss": 109.7805,
      "step": 5555,
      "task_loss": 2.605151653289795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989502092677945,
      "compression/movement_sparsity/importance_threshold": -6.81329394425223e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266784243729224,
      "compression/movement_sparsity/model_sparsity": 0.8948441696994323,
      "compression_loss": 105.17493438720703,
      "distillation_loss": 3.374993085861206,
      "epoch": 4.7,
      "learning_rate": 3.816217908578585e-05,
      "loss": 108.7021,
      "step": 5556,
      "task_loss": 1.7889169454574585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989589091465461,
      "compression/movement_sparsity/importance_threshold": -6.7568304707278995e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266233585667799,
      "compression/movement_sparsity/model_sparsity": 0.8947909955731331,
      "compression_loss": 105.17504119873047,
      "distillation_loss": 5.11016845703125,
      "epoch": 4.7,
      "learning_rate": 3.815904821540388e-05,
      "loss": 109.2552,
      "step": 5557,
      "task_loss": 4.1361308097839355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989675608266471,
      "compression/movement_sparsity/importance_threshold": -6.700679813429616e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9265928446217997,
      "compression/movement_sparsity/model_sparsity": 0.8947615298760349,
      "compression_loss": 105.17512512207031,
      "distillation_loss": 3.848191261291504,
      "epoch": 4.7,
      "learning_rate": 3.815591734502192e-05,
      "loss": 108.7094,
      "step": 5558,
      "task_loss": 1.6348544359207153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989761644419826,
      "compression/movement_sparsity/importance_threshold": -6.6448411034222485e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9265534113994279,
      "compression/movement_sparsity/model_sparsity": 0.8947234513061623,
      "compression_loss": 105.17520141601562,
      "distillation_loss": 4.06427001953125,
      "epoch": 4.7,
      "learning_rate": 3.8152786474639954e-05,
      "loss": 108.9647,
      "step": 5559,
      "task_loss": 2.1815524101257324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989847201264378,
      "compression/movement_sparsity/importance_threshold": -6.589313471771531e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266048641827767,
      "compression/movement_sparsity/model_sparsity": 0.8947731365281157,
      "compression_loss": 105.17527770996094,
      "distillation_loss": 4.414445877075195,
      "epoch": 4.7,
      "learning_rate": 3.8149655604257985e-05,
      "loss": 109.175,
      "step": 5560,
      "task_loss": 3.4308266639709473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9989932280138978,
      "compression/movement_sparsity/importance_threshold": -6.534096049544934e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926567851566435,
      "compression/movement_sparsity/model_sparsity": 0.8947373954090095,
      "compression_loss": 105.17532348632812,
      "distillation_loss": 4.377659797668457,
      "epoch": 4.7,
      "learning_rate": 3.8146524733876024e-05,
      "loss": 109.048,
      "step": 5561,
      "task_loss": 2.2091407775878906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990016882382476,
      "compression/movement_sparsity/importance_threshold": -6.479187967809059e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266255049169544,
      "compression/movement_sparsity/model_sparsity": 0.894793068189576,
      "compression_loss": 105.17537689208984,
      "distillation_loss": 3.518171548843384,
      "epoch": 4.7,
      "learning_rate": 3.8143393863494056e-05,
      "loss": 108.9943,
      "step": 5562,
      "task_loss": 2.501857280731201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990101009333726,
      "compression/movement_sparsity/importance_threshold": -6.424588357627908e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266072132438009,
      "compression/movement_sparsity/model_sparsity": 0.8947754048916673,
      "compression_loss": 105.17540740966797,
      "distillation_loss": 4.434576988220215,
      "epoch": 4.7,
      "learning_rate": 3.814026299311209e-05,
      "loss": 109.7419,
      "step": 5563,
      "task_loss": 2.501779556274414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990184662331578,
      "compression/movement_sparsity/importance_threshold": -6.3702963500689505e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266471234328781,
      "compression/movement_sparsity/model_sparsity": 0.8948139440429717,
      "compression_loss": 105.1754379272461,
      "distillation_loss": 4.800159454345703,
      "epoch": 4.7,
      "learning_rate": 3.813713212273012e-05,
      "loss": 109.5195,
      "step": 5564,
      "task_loss": 2.8439595699310303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990267842714884,
      "compression/movement_sparsity/importance_threshold": -6.316311076197921e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266723549715957,
      "compression/movement_sparsity/model_sparsity": 0.8948383088007128,
      "compression_loss": 105.17546081542969,
      "distillation_loss": 4.310975074768066,
      "epoch": 4.7,
      "learning_rate": 3.813400125234816e-05,
      "loss": 109.5623,
      "step": 5565,
      "task_loss": 2.5220627784729004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990350551822496,
      "compression/movement_sparsity/importance_threshold": -6.262631667079688e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266421987516446,
      "compression/movement_sparsity/model_sparsity": 0.8948091885396885,
      "compression_loss": 105.17549133300781,
      "distillation_loss": 5.584038734436035,
      "epoch": 4.7,
      "learning_rate": 3.813087038196619e-05,
      "loss": 109.7877,
      "step": 5566,
      "task_loss": 3.0400047302246094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990432790993262,
      "compression/movement_sparsity/importance_threshold": -6.209257253782588e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9267027139023966,
      "compression/movement_sparsity/model_sparsity": 0.8948676248088457,
      "compression_loss": 105.17554473876953,
      "distillation_loss": 4.327881813049316,
      "epoch": 4.71,
      "learning_rate": 3.812773951158422e-05,
      "loss": 109.2614,
      "step": 5567,
      "task_loss": 1.453777551651001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990514561566037,
      "compression/movement_sparsity/importance_threshold": -6.156186967370622e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9266686584796285,
      "compression/movement_sparsity/model_sparsity": 0.8948347392946165,
      "compression_loss": 105.17559814453125,
      "distillation_loss": 3.622878074645996,
      "epoch": 4.71,
      "learning_rate": 3.812460864120226e-05,
      "loss": 109.3756,
      "step": 5568,
      "task_loss": 2.611117362976074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990595864879671,
      "compression/movement_sparsity/importance_threshold": -6.103419938910393e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9267234023332448,
      "compression/movement_sparsity/model_sparsity": 0.8948876025284492,
      "compression_loss": 105.17566680908203,
      "distillation_loss": 4.083302974700928,
      "epoch": 4.71,
      "learning_rate": 3.812147777082029e-05,
      "loss": 109.6934,
      "step": 5569,
      "task_loss": 2.715667724609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990676702273016,
      "compression/movement_sparsity/importance_threshold": -6.05095529946937e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9267141968758299,
      "compression/movement_sparsity/model_sparsity": 0.8948787133068159,
      "compression_loss": 105.17572021484375,
      "distillation_loss": 5.780909538269043,
      "epoch": 4.71,
      "learning_rate": 3.8118346900438324e-05,
      "loss": 109.5712,
      "step": 5570,
      "task_loss": 3.6009857654571533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990757075084923,
      "compression/movement_sparsity/importance_threshold": -5.9987921801115535e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9268093040368935,
      "compression/movement_sparsity/model_sparsity": 0.8949705532443132,
      "compression_loss": 105.17578125,
      "distillation_loss": 5.239343643188477,
      "epoch": 4.71,
      "learning_rate": 3.8115216030056355e-05,
      "loss": 109.4272,
      "step": 5571,
      "task_loss": 2.882859468460083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990836984654243,
      "compression/movement_sparsity/importance_threshold": -5.946929711903547e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9268444564830841,
      "compression/movement_sparsity/model_sparsity": 0.8950044980958355,
      "compression_loss": 105.17587280273438,
      "distillation_loss": 4.190180778503418,
      "epoch": 4.71,
      "learning_rate": 3.8112085159674394e-05,
      "loss": 109.1389,
      "step": 5572,
      "task_loss": 2.388023614883423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990916432319829,
      "compression/movement_sparsity/importance_threshold": -5.895367025911952e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9268783807400082,
      "compression/movement_sparsity/model_sparsity": 0.8950372569501709,
      "compression_loss": 105.17589569091797,
      "distillation_loss": 5.0588788986206055,
      "epoch": 4.71,
      "learning_rate": 3.8108954289292426e-05,
      "loss": 109.2845,
      "step": 5573,
      "task_loss": 2.9973626136779785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9990995419420531,
      "compression/movement_sparsity/importance_threshold": -5.8441032532016365e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9268891959600538,
      "compression/movement_sparsity/model_sparsity": 0.8950477006341365,
      "compression_loss": 105.17591857910156,
      "distillation_loss": 3.5846149921417236,
      "epoch": 4.71,
      "learning_rate": 3.810582341891046e-05,
      "loss": 109.5452,
      "step": 5574,
      "task_loss": 1.670130968093872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991073947295199,
      "compression/movement_sparsity/importance_threshold": -5.793137524840938e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269237283495273,
      "compression/movement_sparsity/model_sparsity": 0.8950810467297976,
      "compression_loss": 105.17593383789062,
      "distillation_loss": 3.4605393409729004,
      "epoch": 4.71,
      "learning_rate": 3.810269254852849e-05,
      "loss": 108.4199,
      "step": 5575,
      "task_loss": 1.792089819908142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991152017282688,
      "compression/movement_sparsity/importance_threshold": -5.74246897189299e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269855432345516,
      "compression/movement_sparsity/model_sparsity": 0.8951407380833565,
      "compression_loss": 105.17586517333984,
      "distillation_loss": 3.691481590270996,
      "epoch": 4.71,
      "learning_rate": 3.809956167814653e-05,
      "loss": 108.8179,
      "step": 5576,
      "task_loss": 1.4901686906814575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991229630721846,
      "compression/movement_sparsity/importance_threshold": -5.692096725426997e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270294837922898,
      "compression/movement_sparsity/model_sparsity": 0.8951831691477593,
      "compression_loss": 105.17579650878906,
      "distillation_loss": 4.215408802032471,
      "epoch": 4.71,
      "learning_rate": 3.809643080776456e-05,
      "loss": 109.3368,
      "step": 5577,
      "task_loss": 2.1374082565307617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991306788951527,
      "compression/movement_sparsity/importance_threshold": -5.642019916506091e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270639327125898,
      "compression/movement_sparsity/model_sparsity": 0.8952164346416698,
      "compression_loss": 105.17577362060547,
      "distillation_loss": 3.085242509841919,
      "epoch": 4.71,
      "learning_rate": 3.809329993738259e-05,
      "loss": 108.5494,
      "step": 5578,
      "task_loss": 1.6982921361923218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991383493310582,
      "compression/movement_sparsity/importance_threshold": -5.5922376761977435e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271144434866952,
      "compression/movement_sparsity/model_sparsity": 0.8952652102152955,
      "compression_loss": 105.17575073242188,
      "distillation_loss": 4.2885942459106445,
      "epoch": 4.72,
      "learning_rate": 3.809016906700063e-05,
      "loss": 108.8948,
      "step": 5579,
      "task_loss": 3.002333164215088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991459745137861,
      "compression/movement_sparsity/importance_threshold": -5.542749135567689e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270518773791099,
      "compression/movement_sparsity/model_sparsity": 0.8952047934459815,
      "compression_loss": 105.17569732666016,
      "distillation_loss": 4.584970951080322,
      "epoch": 4.72,
      "learning_rate": 3.808703819661866e-05,
      "loss": 109.3645,
      "step": 5580,
      "task_loss": 2.9372076988220215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991535545772214,
      "compression/movement_sparsity/importance_threshold": -5.493553425682529e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270122652942235,
      "compression/movement_sparsity/model_sparsity": 0.895166542158072,
      "compression_loss": 105.17567443847656,
      "distillation_loss": 4.3118577003479,
      "epoch": 4.72,
      "learning_rate": 3.8083907326236693e-05,
      "loss": 109.1682,
      "step": 5581,
      "task_loss": 2.3679845333099365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991610896552497,
      "compression/movement_sparsity/importance_threshold": -5.444649677607133e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269960603504065,
      "compression/movement_sparsity/model_sparsity": 0.8951508939039272,
      "compression_loss": 105.17564392089844,
      "distillation_loss": 3.8330936431884766,
      "epoch": 4.72,
      "learning_rate": 3.8080776455854725e-05,
      "loss": 108.8739,
      "step": 5582,
      "task_loss": 2.781050443649292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991685798817559,
      "compression/movement_sparsity/importance_threshold": -5.3960370224081025e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270061839687292,
      "compression/movement_sparsity/model_sparsity": 0.8951606697448168,
      "compression_loss": 105.17558288574219,
      "distillation_loss": 5.359485626220703,
      "epoch": 4.72,
      "learning_rate": 3.8077645585472764e-05,
      "loss": 109.6429,
      "step": 5583,
      "task_loss": 3.7263500690460205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999176025390625,
      "compression/movement_sparsity/importance_threshold": -5.347714591152908e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269975747196962,
      "compression/movement_sparsity/model_sparsity": 0.8951523562499731,
      "compression_loss": 105.17554473876953,
      "distillation_loss": 3.7659897804260254,
      "epoch": 4.72,
      "learning_rate": 3.8074514715090796e-05,
      "loss": 108.9507,
      "step": 5584,
      "task_loss": 4.226146697998047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991834263157423,
      "compression/movement_sparsity/importance_threshold": -5.299681514905549e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269999476290558,
      "compression/movement_sparsity/model_sparsity": 0.8951546476425962,
      "compression_loss": 105.17549133300781,
      "distillation_loss": 5.4948625564575195,
      "epoch": 4.72,
      "learning_rate": 3.807138384470883e-05,
      "loss": 109.5163,
      "step": 5585,
      "task_loss": 4.467922210693359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991907827909929,
      "compression/movement_sparsity/importance_threshold": -5.251936924733497e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9269528948635646,
      "compression/movement_sparsity/model_sparsity": 0.8951092112843511,
      "compression_loss": 105.17542266845703,
      "distillation_loss": 4.0091753005981445,
      "epoch": 4.72,
      "learning_rate": 3.806825297432686e-05,
      "loss": 109.4922,
      "step": 5586,
      "task_loss": 2.174107313156128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9991980949502621,
      "compression/movement_sparsity/importance_threshold": -5.204479951700751e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.926985006647008,
      "compression/movement_sparsity/model_sparsity": 0.8951402199292458,
      "compression_loss": 105.17533111572266,
      "distillation_loss": 5.01429557800293,
      "epoch": 4.72,
      "learning_rate": 3.80651221039449e-05,
      "loss": 108.946,
      "step": 5587,
      "task_loss": 2.608403205871582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992053629274348,
      "compression/movement_sparsity/importance_threshold": -5.157309726875649e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270455337219277,
      "compression/movement_sparsity/model_sparsity": 0.8951986677129388,
      "compression_loss": 105.17529296875,
      "distillation_loss": 3.3934690952301025,
      "epoch": 4.72,
      "learning_rate": 3.806199123356293e-05,
      "loss": 109.0639,
      "step": 5588,
      "task_loss": 2.0721724033355713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992125868563962,
      "compression/movement_sparsity/importance_threshold": -5.110425381322191e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270180962121976,
      "compression/movement_sparsity/model_sparsity": 0.8951721727660755,
      "compression_loss": 105.1751480102539,
      "distillation_loss": 5.66282844543457,
      "epoch": 4.72,
      "learning_rate": 3.805886036318097e-05,
      "loss": 108.9026,
      "step": 5589,
      "task_loss": 2.9394891262054443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992197668710315,
      "compression/movement_sparsity/importance_threshold": -5.0638260461087145e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270768585103071,
      "compression/movement_sparsity/model_sparsity": 0.895228916398471,
      "compression_loss": 105.17507934570312,
      "distillation_loss": 3.102369546890259,
      "epoch": 4.72,
      "learning_rate": 3.8055729492799e-05,
      "loss": 108.9947,
      "step": 5590,
      "task_loss": 1.2442781925201416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992269031052259,
      "compression/movement_sparsity/importance_threshold": -5.0175108523000875e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270465234278414,
      "compression/movement_sparsity/model_sparsity": 0.8951996234194097,
      "compression_loss": 105.17491149902344,
      "distillation_loss": 3.2460999488830566,
      "epoch": 4.73,
      "learning_rate": 3.805259862241704e-05,
      "loss": 108.383,
      "step": 5591,
      "task_loss": 2.0337064266204834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992339956928643,
      "compression/movement_sparsity/importance_threshold": -4.971478930962045e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270773116286772,
      "compression/movement_sparsity/model_sparsity": 0.8952293539508313,
      "compression_loss": 105.17475128173828,
      "distillation_loss": 4.370203495025635,
      "epoch": 4.73,
      "learning_rate": 3.804946775203507e-05,
      "loss": 109.1093,
      "step": 5592,
      "task_loss": 2.351027727127075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992410447678322,
      "compression/movement_sparsity/importance_threshold": -4.925729413160322e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270402632398326,
      "compression/movement_sparsity/model_sparsity": 0.8951935782881176,
      "compression_loss": 105.17456817626953,
      "distillation_loss": 5.534505844116211,
      "epoch": 4.73,
      "learning_rate": 3.80463368816531e-05,
      "loss": 109.1741,
      "step": 5593,
      "task_loss": 3.2604806423187256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992480504640143,
      "compression/movement_sparsity/importance_threshold": -4.880261429962389e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270870059769651,
      "compression/movement_sparsity/model_sparsity": 0.8952387152684322,
      "compression_loss": 105.17438507080078,
      "distillation_loss": 4.598031044006348,
      "epoch": 4.73,
      "learning_rate": 3.804320601127114e-05,
      "loss": 109.3597,
      "step": 5594,
      "task_loss": 2.107825517654419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992550129152962,
      "compression/movement_sparsity/importance_threshold": -4.835074112433113e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270635630633931,
      "compression/movement_sparsity/model_sparsity": 0.8952160776910602,
      "compression_loss": 105.1742935180664,
      "distillation_loss": 5.4908061027526855,
      "epoch": 4.73,
      "learning_rate": 3.804007514088917e-05,
      "loss": 109.1034,
      "step": 5595,
      "task_loss": 3.5702922344207764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992619322555627,
      "compression/movement_sparsity/importance_threshold": -4.790166591639097e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270466188211826,
      "compression/movement_sparsity/model_sparsity": 0.8951997155356961,
      "compression_loss": 105.17412567138672,
      "distillation_loss": 4.021405220031738,
      "epoch": 4.73,
      "learning_rate": 3.8036944270507204e-05,
      "loss": 109.4028,
      "step": 5596,
      "task_loss": 2.2533118724823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999268808618699,
      "compression/movement_sparsity/importance_threshold": -4.745537998646077e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270593061355471,
      "compression/movement_sparsity/model_sparsity": 0.8952119670017815,
      "compression_loss": 105.17396545410156,
      "distillation_loss": 3.674778938293457,
      "epoch": 4.73,
      "learning_rate": 3.8033813400125236e-05,
      "loss": 109.7735,
      "step": 5597,
      "task_loss": 2.621121644973755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992756421385904,
      "compression/movement_sparsity/importance_threshold": -4.701187464519786e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270764411644398,
      "compression/movement_sparsity/model_sparsity": 0.8952285133897182,
      "compression_loss": 105.17383575439453,
      "distillation_loss": 3.977170467376709,
      "epoch": 4.73,
      "learning_rate": 3.8030682529743274e-05,
      "loss": 109.2377,
      "step": 5598,
      "task_loss": 3.638206720352173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999282432949122,
      "compression/movement_sparsity/importance_threshold": -4.657114120326829e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270844422809235,
      "compression/movement_sparsity/model_sparsity": 0.8952362396432364,
      "compression_loss": 105.17371368408203,
      "distillation_loss": 4.477200508117676,
      "epoch": 4.73,
      "learning_rate": 3.8027551659361306e-05,
      "loss": 109.3179,
      "step": 5599,
      "task_loss": 2.23447585105896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9992891811841788,
      "compression/movement_sparsity/importance_threshold": -4.613317097132939e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271168044718872,
      "compression/movement_sparsity/model_sparsity": 0.8952674900933828,
      "compression_loss": 105.17363739013672,
      "distillation_loss": 4.93639612197876,
      "epoch": 4.73,
      "learning_rate": 3.802442078897934e-05,
      "loss": 109.3878,
      "step": 5600,
      "task_loss": 2.8831794261932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999295886977646,
      "compression/movement_sparsity/importance_threshold": -4.5697955260047204e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270956629226688,
      "compression/movement_sparsity/model_sparsity": 0.8952470748214191,
      "compression_loss": 105.17346954345703,
      "distillation_loss": 4.509274959564209,
      "epoch": 4.73,
      "learning_rate": 3.802128991859737e-05,
      "loss": 109.739,
      "step": 5601,
      "task_loss": 3.2465507984161377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993025504634088,
      "compression/movement_sparsity/importance_threshold": -4.526548538007907e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9270924314732395,
      "compression/movement_sparsity/model_sparsity": 0.8952439543822187,
      "compression_loss": 105.1733627319336,
      "distillation_loss": 4.101229667663574,
      "epoch": 4.73,
      "learning_rate": 3.801815904821541e-05,
      "loss": 108.7818,
      "step": 5602,
      "task_loss": 1.3042793273925781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993091717753523,
      "compression/movement_sparsity/importance_threshold": -4.483575264207368e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271321985723051,
      "compression/movement_sparsity/model_sparsity": 0.8952823553590935,
      "compression_loss": 105.17317199707031,
      "distillation_loss": 4.678112983703613,
      "epoch": 4.74,
      "learning_rate": 3.801502817783344e-05,
      "loss": 110.1301,
      "step": 5603,
      "task_loss": 2.174325704574585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993157510473617,
      "compression/movement_sparsity/importance_threshold": -4.440874835670572e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272083224584925,
      "compression/movement_sparsity/model_sparsity": 0.8953558641556059,
      "compression_loss": 105.17305755615234,
      "distillation_loss": 4.019852638244629,
      "epoch": 4.74,
      "learning_rate": 3.801189730745147e-05,
      "loss": 109.0665,
      "step": 5604,
      "task_loss": 1.8070100545883179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999322288413322,
      "compression/movement_sparsity/importance_threshold": -4.3984463834632545e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272053414165835,
      "compression/movement_sparsity/model_sparsity": 0.8953529855216572,
      "compression_loss": 105.17294311523438,
      "distillation_loss": 3.370327949523926,
      "epoch": 4.74,
      "learning_rate": 3.800876643706951e-05,
      "loss": 108.7844,
      "step": 5605,
      "task_loss": 1.9210201501846313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993287840071184,
      "compression/movement_sparsity/importance_threshold": -4.356289038652018e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92711441963836,
      "compression/movement_sparsity/model_sparsity": 0.8952651871862238,
      "compression_loss": 105.17281341552734,
      "distillation_loss": 4.274309158325195,
      "epoch": 4.74,
      "learning_rate": 3.800563556668754e-05,
      "loss": 109.2517,
      "step": 5606,
      "task_loss": 2.573810338973999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993352379626362,
      "compression/movement_sparsity/importance_threshold": -4.314401932301731e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271443731474613,
      "compression/movement_sparsity/model_sparsity": 0.8952941117001397,
      "compression_loss": 105.17268371582031,
      "distillation_loss": 3.3102352619171143,
      "epoch": 4.74,
      "learning_rate": 3.8002504696305574e-05,
      "loss": 109.2903,
      "step": 5607,
      "task_loss": 2.3443877696990967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993416504137603,
      "compression/movement_sparsity/importance_threshold": -4.272784195478996e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271539005574023,
      "compression/movement_sparsity/model_sparsity": 0.8953033118142396,
      "compression_loss": 105.17250061035156,
      "distillation_loss": 4.373867988586426,
      "epoch": 4.74,
      "learning_rate": 3.7999373825923606e-05,
      "loss": 109.2466,
      "step": 5608,
      "task_loss": 2.658832311630249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993480214943761,
      "compression/movement_sparsity/importance_threshold": -4.231434959249547e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9271947408315552,
      "compression/movement_sparsity/model_sparsity": 0.8953427490993359,
      "compression_loss": 105.17236328125,
      "distillation_loss": 3.2238526344299316,
      "epoch": 4.74,
      "learning_rate": 3.7996242955541644e-05,
      "loss": 108.8326,
      "step": 5609,
      "task_loss": 1.1932510137557983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993543513383685,
      "compression/movement_sparsity/importance_threshold": -4.19035335467912e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272495800785125,
      "compression/movement_sparsity/model_sparsity": 0.8953957044494549,
      "compression_loss": 105.17225646972656,
      "distillation_loss": 3.6951887607574463,
      "epoch": 4.74,
      "learning_rate": 3.7993112085159676e-05,
      "loss": 109.1984,
      "step": 5610,
      "task_loss": 2.638152599334717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993606400796227,
      "compression/movement_sparsity/importance_threshold": -4.149538512835185e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272816918619559,
      "compression/movement_sparsity/model_sparsity": 0.8954267130943497,
      "compression_loss": 105.17206573486328,
      "distillation_loss": 4.539162635803223,
      "epoch": 4.74,
      "learning_rate": 3.798998121477771e-05,
      "loss": 108.9227,
      "step": 5611,
      "task_loss": 2.9690115451812744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993668878520238,
      "compression/movement_sparsity/importance_threshold": -4.108989564783477e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272943195554822,
      "compression/movement_sparsity/model_sparsity": 0.8954389069877561,
      "compression_loss": 105.17183685302734,
      "distillation_loss": 3.8183960914611816,
      "epoch": 4.74,
      "learning_rate": 3.798685034439574e-05,
      "loss": 109.1079,
      "step": 5612,
      "task_loss": 2.134345769882202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993730947894571,
      "compression/movement_sparsity/importance_threshold": -4.068705641588864e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927309785200906,
      "compression/movement_sparsity/model_sparsity": 0.8954538413406816,
      "compression_loss": 105.17172241210938,
      "distillation_loss": 4.689839839935303,
      "epoch": 4.74,
      "learning_rate": 3.798371947401378e-05,
      "loss": 109.5208,
      "step": 5613,
      "task_loss": 2.920403003692627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993792610258077,
      "compression/movement_sparsity/importance_threshold": -4.0286858743179485e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9273120269444215,
      "compression/movement_sparsity/model_sparsity": 0.895456006073411,
      "compression_loss": 105.17162322998047,
      "distillation_loss": 5.262742042541504,
      "epoch": 4.75,
      "learning_rate": 3.798058860363181e-05,
      "loss": 109.8888,
      "step": 5614,
      "task_loss": 2.997758626937866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993853866949606,
      "compression/movement_sparsity/importance_threshold": -3.988929394037333e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272755866881264,
      "compression/movement_sparsity/model_sparsity": 0.8954208176520229,
      "compression_loss": 105.17143249511719,
      "distillation_loss": 4.130698204040527,
      "epoch": 4.75,
      "learning_rate": 3.797745773324984e-05,
      "loss": 109.336,
      "step": 5615,
      "task_loss": 3.2911829948425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999391471930801,
      "compression/movement_sparsity/importance_threshold": -3.949435331811885e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272688018367415,
      "compression/movement_sparsity/model_sparsity": 0.8954142658811558,
      "compression_loss": 105.17127990722656,
      "distillation_loss": 3.3833725452423096,
      "epoch": 4.75,
      "learning_rate": 3.797432686286788e-05,
      "loss": 108.8575,
      "step": 5616,
      "task_loss": 2.2924909591674805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9993975168672142,
      "compression/movement_sparsity/importance_threshold": -3.910202818708207e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927343614064489,
      "compression/movement_sparsity/model_sparsity": 0.8954865080787308,
      "compression_loss": 105.17107391357422,
      "distillation_loss": 4.490034103393555,
      "epoch": 4.75,
      "learning_rate": 3.797119599248591e-05,
      "loss": 109.8844,
      "step": 5617,
      "task_loss": 1.9390512704849243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994035216380851,
      "compression/movement_sparsity/importance_threshold": -3.871230985792902e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9273450330404376,
      "compression/movement_sparsity/model_sparsity": 0.8954878783084903,
      "compression_loss": 105.17086791992188,
      "distillation_loss": 5.24521541595459,
      "epoch": 4.75,
      "learning_rate": 3.7968065122103944e-05,
      "loss": 109.438,
      "step": 5618,
      "task_loss": 2.526980400085449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994094863772991,
      "compression/movement_sparsity/importance_threshold": -3.832518964130838e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9272930317453776,
      "compression/movement_sparsity/model_sparsity": 0.8954376634178903,
      "compression_loss": 105.17066955566406,
      "distillation_loss": 4.407623291015625,
      "epoch": 4.75,
      "learning_rate": 3.7964934251721976e-05,
      "loss": 110.1086,
      "step": 5619,
      "task_loss": 3.2372076511383057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999415411218741,
      "compression/movement_sparsity/importance_threshold": -3.7940658847903513e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927320528875946,
      "compression/movement_sparsity/model_sparsity": 0.8954642159374325,
      "compression_loss": 105.17052459716797,
      "distillation_loss": 3.0262563228607178,
      "epoch": 4.75,
      "learning_rate": 3.7961803381340014e-05,
      "loss": 109.148,
      "step": 5620,
      "task_loss": 1.6418359279632568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994212962962963,
      "compression/movement_sparsity/importance_threshold": -3.755870878834576e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927347215163115,
      "compression/movement_sparsity/model_sparsity": 0.8954899854685406,
      "compression_loss": 105.17036437988281,
      "distillation_loss": 4.117809295654297,
      "epoch": 4.75,
      "learning_rate": 3.7958672510958046e-05,
      "loss": 108.806,
      "step": 5621,
      "task_loss": 1.6671500205993652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99942714174385,
      "compression/movement_sparsity/importance_threshold": -3.7179330773309816e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9273546558437198,
      "compression/movement_sparsity/model_sparsity": 0.8954971705388765,
      "compression_loss": 105.17017364501953,
      "distillation_loss": 4.129779815673828,
      "epoch": 4.75,
      "learning_rate": 3.795554164057608e-05,
      "loss": 109.3139,
      "step": 5622,
      "task_loss": 2.314971446990967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999432947695287,
      "compression/movement_sparsity/importance_threshold": -3.6802516113461706e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9274035210826915,
      "compression/movement_sparsity/model_sparsity": 0.8955443571065625,
      "compression_loss": 105.17001342773438,
      "distillation_loss": 4.222329139709473,
      "epoch": 4.75,
      "learning_rate": 3.7952410770194116e-05,
      "loss": 108.5758,
      "step": 5623,
      "task_loss": 1.9707956314086914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994387142844928,
      "compression/movement_sparsity/importance_threshold": -3.642825611945011e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9274098051190356,
      "compression/movement_sparsity/model_sparsity": 0.8955504252669262,
      "compression_loss": 105.16983795166016,
      "distillation_loss": 2.909404754638672,
      "epoch": 4.75,
      "learning_rate": 3.794927989981215e-05,
      "loss": 109.1444,
      "step": 5624,
      "task_loss": 1.6796776056289673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994444416453524,
      "compression/movement_sparsity/importance_threshold": -3.605654210194105e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9274863582752578,
      "compression/movement_sparsity/model_sparsity": 0.8956243485867271,
      "compression_loss": 105.16967010498047,
      "distillation_loss": 4.857074737548828,
      "epoch": 4.75,
      "learning_rate": 3.794614902943019e-05,
      "loss": 109.4302,
      "step": 5625,
      "task_loss": 2.6717443466186523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999450129911751,
      "compression/movement_sparsity/importance_threshold": -3.568736537159188e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275273297152546,
      "compression/movement_sparsity/model_sparsity": 0.8956639125317172,
      "compression_loss": 105.16941833496094,
      "distillation_loss": 3.745906114578247,
      "epoch": 4.76,
      "learning_rate": 3.794301815904822e-05,
      "loss": 108.9274,
      "step": 5626,
      "task_loss": 1.7672632932662964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994557792175736,
      "compression/movement_sparsity/importance_threshold": -3.5320717239068627e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275061285451981,
      "compression/movement_sparsity/model_sparsity": 0.8956434396870745,
      "compression_loss": 105.16918182373047,
      "distillation_loss": 3.289419651031494,
      "epoch": 4.76,
      "learning_rate": 3.793988728866626e-05,
      "loss": 108.6461,
      "step": 5627,
      "task_loss": 1.8858476877212524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994613896967054,
      "compression/movement_sparsity/importance_threshold": -3.495658901502864e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275641634690819,
      "compression/movement_sparsity/model_sparsity": 0.8956994809327865,
      "compression_loss": 105.16899871826172,
      "distillation_loss": 4.8499436378479,
      "epoch": 4.76,
      "learning_rate": 3.793675641828429e-05,
      "loss": 109.0989,
      "step": 5628,
      "task_loss": 2.2408409118652344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994669614830316,
      "compression/movement_sparsity/importance_threshold": -3.4594972010129274e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275803922612342,
      "compression/movement_sparsity/model_sparsity": 0.895715152216003,
      "compression_loss": 105.16878509521484,
      "distillation_loss": 3.1620476245880127,
      "epoch": 4.76,
      "learning_rate": 3.793362554790232e-05,
      "loss": 109.3879,
      "step": 5629,
      "task_loss": 2.9544825553894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994724947104373,
      "compression/movement_sparsity/importance_threshold": -3.423585753503655e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276143999873318,
      "compression/movement_sparsity/model_sparsity": 0.895747991672089,
      "compression_loss": 105.16853332519531,
      "distillation_loss": 4.325157165527344,
      "epoch": 4.76,
      "learning_rate": 3.793049467752035e-05,
      "loss": 109.3851,
      "step": 5630,
      "task_loss": 3.3323140144348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994779895128076,
      "compression/movement_sparsity/importance_threshold": -3.3879236900407825e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275926980022345,
      "compression/movement_sparsity/model_sparsity": 0.8957270352169429,
      "compression_loss": 105.16829681396484,
      "distillation_loss": 3.586042642593384,
      "epoch": 4.76,
      "learning_rate": 3.792736380713839e-05,
      "loss": 109.1204,
      "step": 5631,
      "task_loss": 1.4665666818618774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994834460240277,
      "compression/movement_sparsity/importance_threshold": -3.3525101416900446e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275908855287538,
      "compression/movement_sparsity/model_sparsity": 0.8957252850075021,
      "compression_loss": 105.16802215576172,
      "distillation_loss": 4.750227451324463,
      "epoch": 4.76,
      "learning_rate": 3.792423293675642e-05,
      "loss": 109.3753,
      "step": 5632,
      "task_loss": 2.7582952976226807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994888643779828,
      "compression/movement_sparsity/importance_threshold": -3.317344239518044e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276396792227198,
      "compression/movement_sparsity/model_sparsity": 0.8957724024879734,
      "compression_loss": 105.16783142089844,
      "distillation_loss": 3.9537556171417236,
      "epoch": 4.76,
      "learning_rate": 3.7921102066374454e-05,
      "loss": 108.6935,
      "step": 5633,
      "task_loss": 1.7923908233642578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999494244708558,
      "compression/movement_sparsity/importance_threshold": -3.282425114590516e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276359827307527,
      "compression/movement_sparsity/model_sparsity": 0.895768832981877,
      "compression_loss": 105.16761016845703,
      "distillation_loss": 3.088893413543701,
      "epoch": 4.76,
      "learning_rate": 3.7917971195992486e-05,
      "loss": 108.4697,
      "step": 5634,
      "task_loss": 2.380194902420044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9994995871496383,
      "compression/movement_sparsity/importance_threshold": -3.2477518979740633e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276404423694485,
      "compression/movement_sparsity/model_sparsity": 0.8957731394182642,
      "compression_loss": 105.16724395751953,
      "distillation_loss": 2.819814920425415,
      "epoch": 4.76,
      "learning_rate": 3.7914840325610525e-05,
      "loss": 109.1464,
      "step": 5635,
      "task_loss": 1.66770339012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995048918351089,
      "compression/movement_sparsity/importance_threshold": -3.2133237207335533e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276296033010675,
      "compression/movement_sparsity/model_sparsity": 0.895762672705227,
      "compression_loss": 105.16696166992188,
      "distillation_loss": 5.193902015686035,
      "epoch": 4.76,
      "learning_rate": 3.7911709455228557e-05,
      "loss": 109.4587,
      "step": 5636,
      "task_loss": 2.1770036220550537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995101588988551,
      "compression/movement_sparsity/importance_threshold": -3.179139713936456e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276041332789973,
      "compression/movement_sparsity/model_sparsity": 0.8957380776567698,
      "compression_loss": 105.1666488647461,
      "distillation_loss": 4.229099273681641,
      "epoch": 4.76,
      "learning_rate": 3.790857858484659e-05,
      "loss": 108.8378,
      "step": 5637,
      "task_loss": 2.3797640800476074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995153884747618,
      "compression/movement_sparsity/importance_threshold": -3.1451990086476395e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276028216205573,
      "compression/movement_sparsity/model_sparsity": 0.8957368110578324,
      "compression_loss": 105.16636657714844,
      "distillation_loss": 2.2725024223327637,
      "epoch": 4.77,
      "learning_rate": 3.790544771446462e-05,
      "loss": 108.5281,
      "step": 5638,
      "task_loss": 1.6470874547958374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995205806967143,
      "compression/movement_sparsity/importance_threshold": -3.111500735933706e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9276054807099401,
      "compression/movement_sparsity/model_sparsity": 0.8957393787993146,
      "compression_loss": 105.1659927368164,
      "distillation_loss": 3.8390512466430664,
      "epoch": 4.77,
      "learning_rate": 3.790231684408266e-05,
      "loss": 109.3017,
      "step": 5639,
      "task_loss": 2.5434184074401855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995257356985978,
      "compression/movement_sparsity/importance_threshold": -3.078044026860391e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9275752052483127,
      "compression/movement_sparsity/model_sparsity": 0.8957101433929323,
      "compression_loss": 105.16567993164062,
      "distillation_loss": 3.701099395751953,
      "epoch": 4.77,
      "learning_rate": 3.789918597370069e-05,
      "loss": 109.1517,
      "step": 5640,
      "task_loss": 3.489248752593994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995308536142973,
      "compression/movement_sparsity/importance_threshold": -3.0448280124942967e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927683715173799,
      "compression/movement_sparsity/model_sparsity": 0.8958149256686626,
      "compression_loss": 105.16533660888672,
      "distillation_loss": 5.723487854003906,
      "epoch": 4.77,
      "learning_rate": 3.789605510331872e-05,
      "loss": 109.6504,
      "step": 5641,
      "task_loss": 3.634521245956421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999535934577698,
      "compression/movement_sparsity/importance_threshold": -3.0118518239011585e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277491192332817,
      "compression/movement_sparsity/model_sparsity": 0.8958780828974957,
      "compression_loss": 105.16497039794922,
      "distillation_loss": 3.3670592308044434,
      "epoch": 4.77,
      "learning_rate": 3.789292423293676e-05,
      "loss": 108.7991,
      "step": 5642,
      "task_loss": 1.3536770343780518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999540978722685,
      "compression/movement_sparsity/importance_threshold": -2.9791145921467116e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277172578573587,
      "compression/movement_sparsity/model_sparsity": 0.8958473160578526,
      "compression_loss": 105.1646957397461,
      "distillation_loss": 3.135817527770996,
      "epoch": 4.77,
      "learning_rate": 3.788979336255479e-05,
      "loss": 109.0314,
      "step": 5643,
      "task_loss": 2.1893410682678223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995459861831435,
      "compression/movement_sparsity/importance_threshold": -2.946615448296691e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277332004694878,
      "compression/movement_sparsity/model_sparsity": 0.8958627109922099,
      "compression_loss": 105.16436767578125,
      "distillation_loss": 4.09429931640625,
      "epoch": 4.77,
      "learning_rate": 3.7886662492172824e-05,
      "loss": 108.6308,
      "step": 5644,
      "task_loss": 3.764420747756958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995509570929586,
      "compression/movement_sparsity/importance_threshold": -2.9143535234176995e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927725402063854,
      "compression/movement_sparsity/model_sparsity": 0.8958551804858004,
      "compression_loss": 105.16400909423828,
      "distillation_loss": 3.5779495239257812,
      "epoch": 4.77,
      "learning_rate": 3.7883531621790856e-05,
      "loss": 108.8473,
      "step": 5645,
      "task_loss": 2.109835624694824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995558915860154,
      "compression/movement_sparsity/importance_threshold": -2.8823279485763395e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277410704201275,
      "compression/movement_sparsity/model_sparsity": 0.8958703105858343,
      "compression_loss": 105.1636734008789,
      "distillation_loss": 2.825469970703125,
      "epoch": 4.77,
      "learning_rate": 3.7880400751408895e-05,
      "loss": 108.6366,
      "step": 5646,
      "task_loss": 1.1203947067260742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995607897961991,
      "compression/movement_sparsity/importance_threshold": -2.850537854838346e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927812245776746,
      "compression/movement_sparsity/model_sparsity": 0.895939040849992,
      "compression_loss": 105.1633071899414,
      "distillation_loss": 5.232424736022949,
      "epoch": 4.77,
      "learning_rate": 3.7877269881026927e-05,
      "loss": 109.9169,
      "step": 5647,
      "task_loss": 2.6240832805633545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995656518573949,
      "compression/movement_sparsity/importance_threshold": -2.8189823732694547e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277784646098336,
      "compression/movement_sparsity/model_sparsity": 0.895906420170086,
      "compression_loss": 105.1629409790039,
      "distillation_loss": 3.316263437271118,
      "epoch": 4.77,
      "learning_rate": 3.787413901064496e-05,
      "loss": 108.7016,
      "step": 5648,
      "task_loss": 2.361022472381592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995704779034879,
      "compression/movement_sparsity/importance_threshold": -2.787660634934533e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9278055563187023,
      "compression/movement_sparsity/model_sparsity": 0.8959325811954112,
      "compression_loss": 105.16254425048828,
      "distillation_loss": 5.069239139556885,
      "epoch": 4.77,
      "learning_rate": 3.787100814026299e-05,
      "loss": 109.431,
      "step": 5649,
      "task_loss": 2.7190113067626953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995752680683632,
      "compression/movement_sparsity/importance_threshold": -2.756571770901918e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9278021698550937,
      "compression/movement_sparsity/model_sparsity": 0.8959293110672456,
      "compression_loss": 105.16211700439453,
      "distillation_loss": 3.864623546600342,
      "epoch": 4.78,
      "learning_rate": 3.786787726988103e-05,
      "loss": 108.9246,
      "step": 5650,
      "task_loss": 1.445967197418213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995800224859058,
      "compression/movement_sparsity/importance_threshold": -2.725714912236478e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9278754080927132,
      "compression/movement_sparsity/model_sparsity": 0.8960000333460957,
      "compression_loss": 105.16162872314453,
      "distillation_loss": 4.760858535766602,
      "epoch": 4.78,
      "learning_rate": 3.786474639949906e-05,
      "loss": 109.4685,
      "step": 5651,
      "task_loss": 1.7276077270507812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995847412900012,
      "compression/movement_sparsity/importance_threshold": -2.695089190003948e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9278666319053331,
      "compression/movement_sparsity/model_sparsity": 0.8959915586477509,
      "compression_loss": 105.1612548828125,
      "distillation_loss": 3.952158212661743,
      "epoch": 4.78,
      "learning_rate": 3.786161552911709e-05,
      "loss": 108.8091,
      "step": 5652,
      "task_loss": 2.209183931350708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995894246145341,
      "compression/movement_sparsity/importance_threshold": -2.66469373527093e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277965774204725,
      "compression/movement_sparsity/model_sparsity": 0.8959239107499579,
      "compression_loss": 105.16077423095703,
      "distillation_loss": 2.907589912414551,
      "epoch": 4.78,
      "learning_rate": 3.785848465873513e-05,
      "loss": 108.8527,
      "step": 5653,
      "task_loss": 2.582805633544922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9995940725933901,
      "compression/movement_sparsity/importance_threshold": -2.6345276791031602e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277693545457598,
      "compression/movement_sparsity/model_sparsity": 0.895897623064739,
      "compression_loss": 105.16033935546875,
      "distillation_loss": 4.12917423248291,
      "epoch": 4.78,
      "learning_rate": 3.785535378835316e-05,
      "loss": 109.2267,
      "step": 5654,
      "task_loss": 1.5618934631347656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999598685360454,
      "compression/movement_sparsity/importance_threshold": -2.604590152566373e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9278130804684805,
      "compression/movement_sparsity/model_sparsity": 0.8959398468674976,
      "compression_loss": 105.15992736816406,
      "distillation_loss": 4.940338134765625,
      "epoch": 4.78,
      "learning_rate": 3.7852222917971194e-05,
      "loss": 109.6535,
      "step": 5655,
      "task_loss": 2.576239824295044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996032630496111,
      "compression/movement_sparsity/importance_threshold": -2.5748802867280388e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9277978294580742,
      "compression/movement_sparsity/model_sparsity": 0.8959251197762164,
      "compression_loss": 105.15950775146484,
      "distillation_loss": 3.9481563568115234,
      "epoch": 4.78,
      "learning_rate": 3.784909204758923e-05,
      "loss": 108.5636,
      "step": 5656,
      "task_loss": 1.92830491065979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996078057947465,
      "compression/movement_sparsity/importance_threshold": -2.545397212653025e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.927883075332503,
      "compression/movement_sparsity/model_sparsity": 0.8960074371926116,
      "compression_loss": 105.15904235839844,
      "distillation_loss": 3.5926618576049805,
      "epoch": 4.78,
      "learning_rate": 3.7845961177207265e-05,
      "loss": 109.4275,
      "step": 5657,
      "task_loss": 2.4622955322265625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996123137297453,
      "compression/movement_sparsity/importance_threshold": -2.516140061407067e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9279415156780864,
      "compression/movement_sparsity/model_sparsity": 0.8960638699325406,
      "compression_loss": 105.15859985351562,
      "distillation_loss": 3.332850217819214,
      "epoch": 4.78,
      "learning_rate": 3.78428303068253e-05,
      "loss": 109.0933,
      "step": 5658,
      "task_loss": 1.9004569053649902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996167869884928,
      "compression/movement_sparsity/importance_threshold": -2.4871079640567673e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280420721837597,
      "compression/movement_sparsity/model_sparsity": 0.8961609720128959,
      "compression_loss": 105.15824127197266,
      "distillation_loss": 4.395236015319824,
      "epoch": 4.78,
      "learning_rate": 3.7839699436443335e-05,
      "loss": 108.5013,
      "step": 5659,
      "task_loss": 1.7540792226791382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996212257048739,
      "compression/movement_sparsity/importance_threshold": -2.458300051667861e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280043441173598,
      "compression/movement_sparsity/model_sparsity": 0.896124540021642,
      "compression_loss": 105.15776062011719,
      "distillation_loss": 3.2006683349609375,
      "epoch": 4.78,
      "learning_rate": 3.783656856606137e-05,
      "loss": 108.6742,
      "step": 5660,
      "task_loss": 1.020683765411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996256300127739,
      "compression/movement_sparsity/importance_threshold": -2.4297154553060835e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280648473439441,
      "compression/movement_sparsity/model_sparsity": 0.8961829647762636,
      "compression_loss": 105.15736389160156,
      "distillation_loss": 3.6531529426574707,
      "epoch": 4.78,
      "learning_rate": 3.7833437695679405e-05,
      "loss": 108.8637,
      "step": 5661,
      "task_loss": 1.7094944715499878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996300000460779,
      "compression/movement_sparsity/importance_threshold": -2.4013533060389045e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280528754796378,
      "compression/movement_sparsity/model_sparsity": 0.8961714041823258,
      "compression_loss": 105.1568374633789,
      "distillation_loss": 4.255620002746582,
      "epoch": 4.79,
      "learning_rate": 3.783030682529744e-05,
      "loss": 109.7569,
      "step": 5662,
      "task_loss": 1.5422857999801636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999634335938671,
      "compression/movement_sparsity/importance_threshold": -2.373212734932059e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280008384120748,
      "compression/movement_sparsity/model_sparsity": 0.8961211547481185,
      "compression_loss": 105.15644073486328,
      "distillation_loss": 4.779195785522461,
      "epoch": 4.79,
      "learning_rate": 3.782717595491547e-05,
      "loss": 109.0893,
      "step": 5663,
      "task_loss": 2.192225933074951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996386378244385,
      "compression/movement_sparsity/importance_threshold": -2.345292873049548e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280157436216196,
      "compression/movement_sparsity/model_sparsity": 0.8961355479178617,
      "compression_loss": 105.15599060058594,
      "distillation_loss": 4.366491317749023,
      "epoch": 4.79,
      "learning_rate": 3.782404508453351e-05,
      "loss": 109.5473,
      "step": 5664,
      "task_loss": 2.5201008319854736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996429058372653,
      "compression/movement_sparsity/importance_threshold": -2.3175928514597086e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9279991571044381,
      "compression/movement_sparsity/model_sparsity": 0.8961195311985714,
      "compression_loss": 105.155517578125,
      "distillation_loss": 3.8546900749206543,
      "epoch": 4.79,
      "learning_rate": 3.782091421415154e-05,
      "loss": 109.5276,
      "step": 5665,
      "task_loss": 2.2374320030212402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996471401110367,
      "compression/movement_sparsity/importance_threshold": -2.2901118012274083e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928034464564808,
      "compression/movement_sparsity/model_sparsity": 0.896153625739059,
      "compression_loss": 105.15509033203125,
      "distillation_loss": 5.075146675109863,
      "epoch": 4.79,
      "learning_rate": 3.781778334376957e-05,
      "loss": 109.2981,
      "step": 5666,
      "task_loss": 2.9911551475524902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996513407796378,
      "compression/movement_sparsity/importance_threshold": -2.26284885341925e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280556538106969,
      "compression/movement_sparsity/model_sparsity": 0.8961740870691659,
      "compression_loss": 105.15460968017578,
      "distillation_loss": 3.323672294616699,
      "epoch": 4.79,
      "learning_rate": 3.78146524733876e-05,
      "loss": 109.5624,
      "step": 5667,
      "task_loss": 1.9575350284576416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996555079769538,
      "compression/movement_sparsity/importance_threshold": -2.2358031391009683e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9280904246835231,
      "compression/movement_sparsity/model_sparsity": 0.8962076634555428,
      "compression_loss": 105.15418243408203,
      "distillation_loss": 6.101563453674316,
      "epoch": 4.79,
      "learning_rate": 3.781152160300564e-05,
      "loss": 109.5092,
      "step": 5668,
      "task_loss": 2.9339373111724854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996596418368697,
      "compression/movement_sparsity/importance_threshold": -2.208973789338299e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9281336974878736,
      "compression/movement_sparsity/model_sparsity": 0.8962494497059412,
      "compression_loss": 105.15373229980469,
      "distillation_loss": 3.7804789543151855,
      "epoch": 4.79,
      "learning_rate": 3.780839073262367e-05,
      "loss": 109.1008,
      "step": 5669,
      "task_loss": 2.4357709884643555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996637424932708,
      "compression/movement_sparsity/importance_threshold": -2.1823599351978445e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9281261733380953,
      "compression/movement_sparsity/model_sparsity": 0.8962421840338548,
      "compression_loss": 105.1533203125,
      "distillation_loss": 4.596798896789551,
      "epoch": 4.79,
      "learning_rate": 3.7805259862241705e-05,
      "loss": 109.1912,
      "step": 5670,
      "task_loss": 2.3184292316436768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996678100800421,
      "compression/movement_sparsity/importance_threshold": -2.15596070774534e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9281172182882008,
      "compression/movement_sparsity/model_sparsity": 0.8962335366174732,
      "compression_loss": 105.15281677246094,
      "distillation_loss": 4.150029182434082,
      "epoch": 4.79,
      "learning_rate": 3.780212899185974e-05,
      "loss": 108.9138,
      "step": 5671,
      "task_loss": 3.5438995361328125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996718447310688,
      "compression/movement_sparsity/importance_threshold": -2.1297752380473878e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9281631621061018,
      "compression/movement_sparsity/model_sparsity": 0.8962779021238895,
      "compression_loss": 105.15233612060547,
      "distillation_loss": 2.3976187705993652,
      "epoch": 4.79,
      "learning_rate": 3.7798998121477775e-05,
      "loss": 108.5502,
      "step": 5672,
      "task_loss": 2.4671525955200195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996758465802362,
      "compression/movement_sparsity/importance_threshold": -2.103802657168856e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9281820619118046,
      "compression/movement_sparsity/model_sparsity": 0.8962961526631239,
      "compression_loss": 105.15192413330078,
      "distillation_loss": 2.6796724796295166,
      "epoch": 4.79,
      "learning_rate": 3.779586725109581e-05,
      "loss": 109.0561,
      "step": 5673,
      "task_loss": 2.377904176712036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996798157614292,
      "compression/movement_sparsity/importance_threshold": -2.078042096177214e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9282271233413005,
      "compression/movement_sparsity/model_sparsity": 0.8963396660938915,
      "compression_loss": 105.15143585205078,
      "distillation_loss": 3.775479793548584,
      "epoch": 4.8,
      "learning_rate": 3.779273638071384e-05,
      "loss": 108.8999,
      "step": 5674,
      "task_loss": 1.8431401252746582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999683752408533,
      "compression/movement_sparsity/importance_threshold": -2.0524926861373305e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9282361260878657,
      "compression/movement_sparsity/model_sparsity": 0.8963483595684163,
      "compression_loss": 105.15095520019531,
      "distillation_loss": 3.4375410079956055,
      "epoch": 4.8,
      "learning_rate": 3.778960551033187e-05,
      "loss": 109.0596,
      "step": 5675,
      "task_loss": 2.2854788303375244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996876566554328,
      "compression/movement_sparsity/importance_threshold": -2.0271535581158073e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9282125281601142,
      "compression/movement_sparsity/model_sparsity": 0.8963255723020789,
      "compression_loss": 105.15046691894531,
      "distillation_loss": 3.0544443130493164,
      "epoch": 4.8,
      "learning_rate": 3.778647463994991e-05,
      "loss": 108.7629,
      "step": 5676,
      "task_loss": 0.9625123739242554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996915286360136,
      "compression/movement_sparsity/importance_threshold": -2.0020238431792473e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9282812113656969,
      "compression/movement_sparsity/model_sparsity": 0.8963918960282554,
      "compression_loss": 105.15006256103516,
      "distillation_loss": 4.308782577514648,
      "epoch": 4.8,
      "learning_rate": 3.778334376956794e-05,
      "loss": 109.04,
      "step": 5677,
      "task_loss": 2.905580520629883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996953684841609,
      "compression/movement_sparsity/importance_threshold": -1.9771026723916507e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283116656898388,
      "compression/movement_sparsity/model_sparsity": 0.8964213041526747,
      "compression_loss": 105.14957427978516,
      "distillation_loss": 5.329658508300781,
      "epoch": 4.8,
      "learning_rate": 3.778021289918597e-05,
      "loss": 109.6446,
      "step": 5678,
      "task_loss": 3.6057379245758057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9996991763337594,
      "compression/movement_sparsity/importance_threshold": -1.952389176821355e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283273578944476,
      "compression/movement_sparsity/model_sparsity": 0.8964364572817803,
      "compression_loss": 105.14912414550781,
      "distillation_loss": 3.8374180793762207,
      "epoch": 4.8,
      "learning_rate": 3.777708202880401e-05,
      "loss": 108.6666,
      "step": 5679,
      "task_loss": 2.265000343322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997029523186944,
      "compression/movement_sparsity/importance_threshold": -1.927882487533228e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283355617217811,
      "compression/movement_sparsity/model_sparsity": 0.896444379282407,
      "compression_loss": 105.14866638183594,
      "distillation_loss": 5.119097709655762,
      "epoch": 4.8,
      "learning_rate": 3.777395115842204e-05,
      "loss": 109.1235,
      "step": 5680,
      "task_loss": 3.119065761566162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997066965728512,
      "compression/movement_sparsity/importance_threshold": -1.903581735593872e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283329741774041,
      "compression/movement_sparsity/model_sparsity": 0.8964418806281396,
      "compression_loss": 105.14824676513672,
      "distillation_loss": 4.361950874328613,
      "epoch": 4.8,
      "learning_rate": 3.7770820288040075e-05,
      "loss": 109.3964,
      "step": 5681,
      "task_loss": 2.719069004058838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997104092301147,
      "compression/movement_sparsity/importance_threshold": -1.879486052068155e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283283952970319,
      "compression/movement_sparsity/model_sparsity": 0.8964374590463945,
      "compression_loss": 105.14778900146484,
      "distillation_loss": 5.382049560546875,
      "epoch": 4.8,
      "learning_rate": 3.776768941765811e-05,
      "loss": 109.2202,
      "step": 5682,
      "task_loss": 2.760979652404785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997140904243702,
      "compression/movement_sparsity/importance_threshold": -1.855594568023547e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283245199425503,
      "compression/movement_sparsity/model_sparsity": 0.8964337168222613,
      "compression_loss": 105.14735412597656,
      "distillation_loss": 3.0451557636260986,
      "epoch": 4.8,
      "learning_rate": 3.7764558547276145e-05,
      "loss": 108.5832,
      "step": 5683,
      "task_loss": 1.4524154663085938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997177402895029,
      "compression/movement_sparsity/importance_threshold": -1.8319064145249156e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283404029338412,
      "compression/movement_sparsity/model_sparsity": 0.8964490541839396,
      "compression_loss": 105.14691162109375,
      "distillation_loss": 5.0012006759643555,
      "epoch": 4.8,
      "learning_rate": 3.776142767689418e-05,
      "loss": 108.7265,
      "step": 5684,
      "task_loss": 2.8204026222229004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997213589593976,
      "compression/movement_sparsity/importance_threshold": -1.8084207226405982e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9283277275436443,
      "compression/movement_sparsity/model_sparsity": 0.89643681423239,
      "compression_loss": 105.14641571044922,
      "distillation_loss": 3.9979729652404785,
      "epoch": 4.81,
      "learning_rate": 3.775829680651221e-05,
      "loss": 109.3176,
      "step": 5685,
      "task_loss": 2.732560157775879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997249465679399,
      "compression/movement_sparsity/importance_threshold": -1.785136623433728e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92839755546932,
      "compression/movement_sparsity/model_sparsity": 0.8965042433540028,
      "compression_loss": 105.14590454101562,
      "distillation_loss": 6.056184768676758,
      "epoch": 4.81,
      "learning_rate": 3.775516593613024e-05,
      "loss": 109.0438,
      "step": 5686,
      "task_loss": 2.952420949935913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997285032490146,
      "compression/movement_sparsity/importance_threshold": -1.7620532479709072e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284437735430766,
      "compression/movement_sparsity/model_sparsity": 0.8965488736947425,
      "compression_loss": 105.14545440673828,
      "distillation_loss": 4.826766014099121,
      "epoch": 4.81,
      "learning_rate": 3.775203506574828e-05,
      "loss": 109.1896,
      "step": 5687,
      "task_loss": 2.492788553237915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999732029136507,
      "compression/movement_sparsity/importance_threshold": -1.739169727319606e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928488787275902,
      "compression/movement_sparsity/model_sparsity": 0.8965923410673668,
      "compression_loss": 105.14495849609375,
      "distillation_loss": 5.068090438842773,
      "epoch": 4.81,
      "learning_rate": 3.774890419536631e-05,
      "loss": 109.6649,
      "step": 5688,
      "task_loss": 2.0418059825897217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997355243643022,
      "compression/movement_sparsity/importance_threshold": -1.7164851925455596e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285376286665384,
      "compression/movement_sparsity/model_sparsity": 0.8966395046059813,
      "compression_loss": 105.14447784423828,
      "distillation_loss": 4.4825263023376465,
      "epoch": 4.81,
      "learning_rate": 3.774577332498434e-05,
      "loss": 109.2077,
      "step": 5689,
      "task_loss": 4.041322231292725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997389890662853,
      "compression/movement_sparsity/importance_threshold": -1.6939987747136356e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284897173609775,
      "compression/movement_sparsity/model_sparsity": 0.8965932392011589,
      "compression_loss": 105.14395904541016,
      "distillation_loss": 1.916048526763916,
      "epoch": 4.81,
      "learning_rate": 3.774264245460238e-05,
      "loss": 108.9146,
      "step": 5690,
      "task_loss": 1.2966583967208862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997424233763416,
      "compression/movement_sparsity/importance_threshold": -1.6717096048904367e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284685281150886,
      "compression/movement_sparsity/model_sparsity": 0.8965727778710519,
      "compression_loss": 105.14337921142578,
      "distillation_loss": 2.6985087394714355,
      "epoch": 4.81,
      "learning_rate": 3.773951158422041e-05,
      "loss": 108.3378,
      "step": 5691,
      "task_loss": 1.8842496871948242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997458274283559,
      "compression/movement_sparsity/importance_threshold": -1.6496168141425654e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285040979071464,
      "compression/movement_sparsity/model_sparsity": 0.8966071257313271,
      "compression_loss": 105.14291381835938,
      "distillation_loss": 3.9621620178222656,
      "epoch": 4.81,
      "learning_rate": 3.773638071383845e-05,
      "loss": 109.7357,
      "step": 5692,
      "task_loss": 3.7692806720733643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997492013562138,
      "compression/movement_sparsity/importance_threshold": -1.6277195335348896e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284920187253313,
      "compression/movement_sparsity/model_sparsity": 0.8965954615065672,
      "compression_loss": 105.14236450195312,
      "distillation_loss": 4.358094215393066,
      "epoch": 4.81,
      "learning_rate": 3.773324984345648e-05,
      "loss": 109.2179,
      "step": 5693,
      "task_loss": 2.5227670669555664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997525452938001,
      "compression/movement_sparsity/importance_threshold": -1.606016894134879e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285256091055615,
      "compression/movement_sparsity/model_sparsity": 0.8966278979539004,
      "compression_loss": 105.14187622070312,
      "distillation_loss": 3.936018943786621,
      "epoch": 4.81,
      "learning_rate": 3.773011897307452e-05,
      "loss": 109.1957,
      "step": 5694,
      "task_loss": 2.3310346603393555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999755859375,
      "compression/movement_sparsity/importance_threshold": -1.584508027008269e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285574943298198,
      "compression/movement_sparsity/model_sparsity": 0.8966586878226149,
      "compression_loss": 105.14134216308594,
      "distillation_loss": 3.8969006538391113,
      "epoch": 4.81,
      "learning_rate": 3.7726988102692554e-05,
      "loss": 108.8044,
      "step": 5695,
      "task_loss": 2.731745719909668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997591437336987,
      "compression/movement_sparsity/importance_threshold": -1.5631920632207946e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285024881445155,
      "compression/movement_sparsity/model_sparsity": 0.8966055712689948,
      "compression_loss": 105.14086151123047,
      "distillation_loss": 3.358635902404785,
      "epoch": 4.81,
      "learning_rate": 3.7723857232310585e-05,
      "loss": 108.7996,
      "step": 5696,
      "task_loss": 1.7261542081832886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997623985037813,
      "compression/movement_sparsity/importance_threshold": -1.5420681338373238e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284886322617227,
      "compression/movement_sparsity/model_sparsity": 0.8965921913784015,
      "compression_loss": 105.1404037475586,
      "distillation_loss": 4.911891937255859,
      "epoch": 4.82,
      "learning_rate": 3.772072636192862e-05,
      "loss": 108.8121,
      "step": 5697,
      "task_loss": 3.5406105518341064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999765623819133,
      "compression/movement_sparsity/importance_threshold": -1.5211353699253263e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9284820858936906,
      "compression/movement_sparsity/model_sparsity": 0.8965858698982503,
      "compression_loss": 105.13993835449219,
      "distillation_loss": 4.28127908706665,
      "epoch": 4.82,
      "learning_rate": 3.7717595491546656e-05,
      "loss": 109.0779,
      "step": 5698,
      "task_loss": 2.6752474308013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999768819813639,
      "compression/movement_sparsity/importance_threshold": -1.5003929025505375e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285261576172728,
      "compression/movement_sparsity/model_sparsity": 0.8966284276225469,
      "compression_loss": 105.13948059082031,
      "distillation_loss": 4.4638824462890625,
      "epoch": 4.82,
      "learning_rate": 3.771446462116469e-05,
      "loss": 109.32,
      "step": 5699,
      "task_loss": 2.550107955932617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997719866211843,
      "compression/movement_sparsity/importance_threshold": -1.4798398627786924e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285689057582474,
      "compression/movement_sparsity/model_sparsity": 0.8966697072333704,
      "compression_loss": 105.1390380859375,
      "distillation_loss": 2.9985618591308594,
      "epoch": 4.82,
      "learning_rate": 3.771133375078272e-05,
      "loss": 108.3931,
      "step": 5700,
      "task_loss": 1.3278377056121826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999775124375654,
      "compression/movement_sparsity/importance_threshold": -1.459475381677261e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285766564672107,
      "compression/movement_sparsity/model_sparsity": 0.8966771916816368,
      "compression_loss": 105.13862609863281,
      "distillation_loss": 5.424281120300293,
      "epoch": 4.82,
      "learning_rate": 3.770820288040076e-05,
      "loss": 109.7177,
      "step": 5701,
      "task_loss": 2.5882558822631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997782332109333,
      "compression/movement_sparsity/importance_threshold": -1.4392985903102437e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285442465795763,
      "compression/movement_sparsity/model_sparsity": 0.8966458951733473,
      "compression_loss": 105.13821411132812,
      "distillation_loss": 4.760251998901367,
      "epoch": 4.82,
      "learning_rate": 3.770507201001879e-05,
      "loss": 109.1537,
      "step": 5702,
      "task_loss": 2.0732247829437256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997813132609075,
      "compression/movement_sparsity/importance_threshold": -1.4193086197451105e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285597718458383,
      "compression/movement_sparsity/model_sparsity": 0.8966608870989518,
      "compression_loss": 105.13782501220703,
      "distillation_loss": 3.0764834880828857,
      "epoch": 4.82,
      "learning_rate": 3.770194113963682e-05,
      "loss": 109.0119,
      "step": 5703,
      "task_loss": 2.2881557941436768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997843646594615,
      "compression/movement_sparsity/importance_threshold": -1.399504601046729e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9285947573536819,
      "compression/movement_sparsity/model_sparsity": 0.896694670746973,
      "compression_loss": 105.13744354248047,
      "distillation_loss": 3.5574026107788086,
      "epoch": 4.82,
      "learning_rate": 3.769881026925485e-05,
      "loss": 109.2389,
      "step": 5704,
      "task_loss": 2.0909719467163086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997873875404806,
      "compression/movement_sparsity/importance_threshold": -1.379885665281702e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286185579922831,
      "compression/movement_sparsity/model_sparsity": 0.8967176537604188,
      "compression_loss": 105.13697814941406,
      "distillation_loss": 4.950407028198242,
      "epoch": 4.82,
      "learning_rate": 3.769567939887289e-05,
      "loss": 109.2816,
      "step": 5705,
      "task_loss": 3.56109356880188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997903820378499,
      "compression/movement_sparsity/importance_threshold": -1.360450943516632e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286697126714409,
      "compression/movement_sparsity/model_sparsity": 0.8967670511189774,
      "compression_loss": 105.13648986816406,
      "distillation_loss": 4.1877617835998535,
      "epoch": 4.82,
      "learning_rate": 3.7692548528490924e-05,
      "loss": 109.2286,
      "step": 5706,
      "task_loss": 2.338343381881714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997933482854545,
      "compression/movement_sparsity/importance_threshold": -1.3411995668163867e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286213482475099,
      "compression/movement_sparsity/model_sparsity": 0.8967203481617948,
      "compression_loss": 105.13603973388672,
      "distillation_loss": 4.229730606079102,
      "epoch": 4.82,
      "learning_rate": 3.7689417658108955e-05,
      "loss": 108.7791,
      "step": 5707,
      "task_loss": 2.1339974403381348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997962864171795,
      "compression/movement_sparsity/importance_threshold": -1.3221306662484361e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286660161794738,
      "compression/movement_sparsity/model_sparsity": 0.8967634816128811,
      "compression_loss": 105.13548278808594,
      "distillation_loss": 5.187078952789307,
      "epoch": 4.82,
      "learning_rate": 3.768628678772699e-05,
      "loss": 109.2501,
      "step": 5708,
      "task_loss": 2.57895565032959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9997991965669102,
      "compression/movement_sparsity/importance_threshold": -1.3032433728785153e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9287586431136692,
      "compression/movement_sparsity/model_sparsity": 0.896852926526933,
      "compression_loss": 105.13494873046875,
      "distillation_loss": 5.104189872741699,
      "epoch": 4.83,
      "learning_rate": 3.7683155917345026e-05,
      "loss": 109.1482,
      "step": 5709,
      "task_loss": 2.331618547439575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998020788685317,
      "compression/movement_sparsity/importance_threshold": -1.2845368177706248e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9287861283200698,
      "compression/movement_sparsity/model_sparsity": 0.8968794675319395,
      "compression_loss": 105.1343994140625,
      "distillation_loss": 4.38733434677124,
      "epoch": 4.83,
      "learning_rate": 3.768002504696306e-05,
      "loss": 108.8024,
      "step": 5710,
      "task_loss": 2.4929614067077637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999804933455929,
      "compression/movement_sparsity/importance_threshold": -1.266010131993102e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9287923885080787,
      "compression/movement_sparsity/model_sparsity": 0.8968855126632317,
      "compression_loss": 105.13374328613281,
      "distillation_loss": 3.201449155807495,
      "epoch": 4.83,
      "learning_rate": 3.767689417658109e-05,
      "loss": 108.8942,
      "step": 5711,
      "task_loss": 1.8522369861602783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998077604629874,
      "compression/movement_sparsity/importance_threshold": -1.2476624466116817e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9287495807462659,
      "compression/movement_sparsity/model_sparsity": 0.8968441754797293,
      "compression_loss": 105.13317108154297,
      "distillation_loss": 4.090569496154785,
      "epoch": 4.83,
      "learning_rate": 3.767376330619912e-05,
      "loss": 108.7453,
      "step": 5712,
      "task_loss": 2.556514263153076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998105600235919,
      "compression/movement_sparsity/importance_threshold": -1.2294928926920995e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286743392484836,
      "compression/movement_sparsity/model_sparsity": 0.8967715187588657,
      "compression_loss": 105.13253784179688,
      "distillation_loss": 3.6007018089294434,
      "epoch": 4.83,
      "learning_rate": 3.767063243581716e-05,
      "loss": 108.8393,
      "step": 5713,
      "task_loss": 2.99871563911438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998133322716277,
      "compression/movement_sparsity/importance_threshold": -1.2115006013000904e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286638817534669,
      "compression/movement_sparsity/model_sparsity": 0.8967614205109739,
      "compression_loss": 105.13185119628906,
      "distillation_loss": 5.3461833000183105,
      "epoch": 4.83,
      "learning_rate": 3.766750156543519e-05,
      "loss": 109.444,
      "step": 5714,
      "task_loss": 3.4124836921691895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99981607734098,
      "compression/movement_sparsity/importance_threshold": -1.1936847035022569e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286594459631065,
      "compression/movement_sparsity/model_sparsity": 0.8967571371036583,
      "compression_loss": 105.13123321533203,
      "distillation_loss": 4.4603986740112305,
      "epoch": 4.83,
      "learning_rate": 3.766437069505322e-05,
      "loss": 109.1355,
      "step": 5715,
      "task_loss": 2.530968189239502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999818795365534,
      "compression/movement_sparsity/importance_threshold": -1.1760443303625995e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286256528720264,
      "compression/movement_sparsity/model_sparsity": 0.8967245049092166,
      "compression_loss": 105.13062286376953,
      "distillation_loss": 4.510098457336426,
      "epoch": 4.83,
      "learning_rate": 3.766123982467126e-05,
      "loss": 108.907,
      "step": 5716,
      "task_loss": 3.4613001346588135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998214864791746,
      "compression/movement_sparsity/importance_threshold": -1.1585786129503228e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9286361461395459,
      "compression/movement_sparsity/model_sparsity": 0.8967346377007158,
      "compression_loss": 105.13005065917969,
      "distillation_loss": 3.4357659816741943,
      "epoch": 4.83,
      "learning_rate": 3.7658108954289294e-05,
      "loss": 109.6391,
      "step": 5717,
      "task_loss": 1.7554413080215454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998241508157871,
      "compression/movement_sparsity/importance_threshold": -1.1412866823294274e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288089988735955,
      "compression/movement_sparsity/model_sparsity": 0.8969015524115934,
      "compression_loss": 105.12937927246094,
      "distillation_loss": 4.820646286010742,
      "epoch": 4.83,
      "learning_rate": 3.7654978083907325e-05,
      "loss": 108.3347,
      "step": 5718,
      "task_loss": 2.2108848094940186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998267885092567,
      "compression/movement_sparsity/importance_threshold": -1.124167669567383e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288269447458875,
      "compression/movement_sparsity/model_sparsity": 0.8969188817879642,
      "compression_loss": 105.12871551513672,
      "distillation_loss": 3.70078444480896,
      "epoch": 4.83,
      "learning_rate": 3.765184721352536e-05,
      "loss": 108.3261,
      "step": 5719,
      "task_loss": 2.2062785625457764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998293996934683,
      "compression/movement_sparsity/importance_threshold": -1.1072207057290576e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288945190038799,
      "compression/movement_sparsity/model_sparsity": 0.8969841346623119,
      "compression_loss": 105.12810516357422,
      "distillation_loss": 4.789700031280518,
      "epoch": 4.83,
      "learning_rate": 3.7648716343143396e-05,
      "loss": 109.6619,
      "step": 5720,
      "task_loss": 3.1604018211364746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998319845023073,
      "compression/movement_sparsity/importance_threshold": -1.0904449218801862e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289042372005031,
      "compression/movement_sparsity/model_sparsity": 0.8969935190089844,
      "compression_loss": 105.12744140625,
      "distillation_loss": 2.658677101135254,
      "epoch": 4.84,
      "learning_rate": 3.764558547276143e-05,
      "loss": 108.3436,
      "step": 5721,
      "task_loss": 1.555777907371521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998345430696587,
      "compression/movement_sparsity/importance_threshold": -1.0738394490882389e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288827617745908,
      "compression/movement_sparsity/model_sparsity": 0.8969727813300185,
      "compression_loss": 105.12684631347656,
      "distillation_loss": 4.045790672302246,
      "epoch": 4.84,
      "learning_rate": 3.764245460237946e-05,
      "loss": 109.1471,
      "step": 5722,
      "task_loss": 1.8118047714233398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998370755294077,
      "compression/movement_sparsity/importance_threshold": -1.057403418417216e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288844669305628,
      "compression/movement_sparsity/model_sparsity": 0.8969744279086371,
      "compression_loss": 105.12631225585938,
      "distillation_loss": 3.875297784805298,
      "epoch": 4.84,
      "learning_rate": 3.76393237319975e-05,
      "loss": 108.2197,
      "step": 5723,
      "task_loss": 1.6815381050109863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998395820154394,
      "compression/movement_sparsity/importance_threshold": -1.0411359609354548e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288625503104481,
      "compression/movement_sparsity/model_sparsity": 0.8969532641918467,
      "compression_loss": 105.1256332397461,
      "distillation_loss": 4.167497158050537,
      "epoch": 4.84,
      "learning_rate": 3.763619286161553e-05,
      "loss": 109.6132,
      "step": 5724,
      "task_loss": 2.458045721054077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999842062661639,
      "compression/movement_sparsity/importance_threshold": -1.0250362077078232e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288944474588741,
      "compression/movement_sparsity/model_sparsity": 0.8969840655750971,
      "compression_loss": 105.12498474121094,
      "distillation_loss": 2.9875895977020264,
      "epoch": 4.84,
      "learning_rate": 3.763306199123356e-05,
      "loss": 108.5286,
      "step": 5725,
      "task_loss": 1.7283819913864136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998445176018915,
      "compression/movement_sparsity/importance_threshold": -1.0091032898000563e-06,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289046545463703,
      "compression/movement_sparsity/model_sparsity": 0.8969939220177372,
      "compression_loss": 105.12431335449219,
      "distillation_loss": 3.6251533031463623,
      "epoch": 4.84,
      "learning_rate": 3.76299311208516e-05,
      "loss": 109.3802,
      "step": 5726,
      "task_loss": 1.9456497430801392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998469469700823,
      "compression/movement_sparsity/importance_threshold": -9.933363382787566e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289211098977078,
      "compression/movement_sparsity/model_sparsity": 0.8970098120771337,
      "compression_loss": 105.12369537353516,
      "distillation_loss": 4.362697601318359,
      "epoch": 4.84,
      "learning_rate": 3.762680025046963e-05,
      "loss": 108.9872,
      "step": 5727,
      "task_loss": 2.4194047451019287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998493509000963,
      "compression/movement_sparsity/importance_threshold": -9.777344842096594e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289619501718607,
      "compression/movement_sparsity/model_sparsity": 0.89704924936223,
      "compression_loss": 105.12306213378906,
      "distillation_loss": 3.7601053714752197,
      "epoch": 4.84,
      "learning_rate": 3.762366938008767e-05,
      "loss": 109.1728,
      "step": 5728,
      "task_loss": 2.924100399017334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998517295258187,
      "compression/movement_sparsity/importance_threshold": -9.622968586593672e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289169364390353,
      "compression/movement_sparsity/model_sparsity": 0.8970057819896056,
      "compression_loss": 105.12232971191406,
      "distillation_loss": 4.167534828186035,
      "epoch": 4.84,
      "learning_rate": 3.76205385097057e-05,
      "loss": 109.3483,
      "step": 5729,
      "task_loss": 2.0552477836608887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998540829811348,
      "compression/movement_sparsity/importance_threshold": -9.470225926927478e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289260465031091,
      "compression/movement_sparsity/model_sparsity": 0.8970145790949526,
      "compression_loss": 105.12176513671875,
      "distillation_loss": 5.484816551208496,
      "epoch": 4.84,
      "learning_rate": 3.7617407639323734e-05,
      "loss": 108.7715,
      "step": 5730,
      "task_loss": 2.6157913208007812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998564113999294,
      "compression/movement_sparsity/importance_threshold": -9.319108173772711e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289890299565617,
      "compression/movement_sparsity/model_sparsity": 0.8970753988730195,
      "compression_loss": 105.12110137939453,
      "distillation_loss": 3.8115243911743164,
      "epoch": 4.84,
      "learning_rate": 3.761427676894177e-05,
      "loss": 108.9376,
      "step": 5731,
      "task_loss": 2.3534064292907715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998587149160879,
      "compression/movement_sparsity/importance_threshold": -9.169606637786723e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9290152035045224,
      "compression/movement_sparsity/model_sparsity": 0.8971006732790884,
      "compression_loss": 105.12053680419922,
      "distillation_loss": 5.147052764892578,
      "epoch": 4.84,
      "learning_rate": 3.7611145898559804e-05,
      "loss": 109.7836,
      "step": 5732,
      "task_loss": 3.0555171966552734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998609936634955,
      "compression/movement_sparsity/importance_threshold": -9.021712629618192e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289911643825685,
      "compression/movement_sparsity/model_sparsity": 0.8970774599749266,
      "compression_loss": 105.11990356445312,
      "distillation_loss": 5.145715713500977,
      "epoch": 4.85,
      "learning_rate": 3.7608015028177836e-05,
      "loss": 109.3537,
      "step": 5733,
      "task_loss": 3.4883439540863037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998632477760372,
      "compression/movement_sparsity/importance_threshold": -8.875417459933144e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289245917546575,
      "compression/movement_sparsity/model_sparsity": 0.8970131743215857,
      "compression_loss": 105.11921691894531,
      "distillation_loss": 3.1349685192108154,
      "epoch": 4.85,
      "learning_rate": 3.760488415779587e-05,
      "loss": 108.817,
      "step": 5734,
      "task_loss": 3.4052882194519043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999865477387598,
      "compression/movement_sparsity/importance_threshold": -8.730712439397603e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289369928889988,
      "compression/movement_sparsity/model_sparsity": 0.8970251494388121,
      "compression_loss": 105.11858367919922,
      "distillation_loss": 4.993832111358643,
      "epoch": 4.85,
      "learning_rate": 3.7601753287413906e-05,
      "loss": 109.9054,
      "step": 5735,
      "task_loss": 3.2055773735046387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998676826320634,
      "compression/movement_sparsity/importance_threshold": -8.587588878668923e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289409755609892,
      "compression/movement_sparsity/model_sparsity": 0.8970289952937675,
      "compression_loss": 105.11785125732422,
      "distillation_loss": 4.124655723571777,
      "epoch": 4.85,
      "learning_rate": 3.759862241703194e-05,
      "loss": 109.0483,
      "step": 5736,
      "task_loss": 1.6153019666671753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998698636433183,
      "compression/movement_sparsity/importance_threshold": -8.446038088404453e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928928800985833,
      "compression/movement_sparsity/model_sparsity": 0.8970172389527212,
      "compression_loss": 105.11724853515625,
      "distillation_loss": 2.836388111114502,
      "epoch": 4.85,
      "learning_rate": 3.759549154664997e-05,
      "loss": 108.8119,
      "step": 5737,
      "task_loss": 1.6096569299697876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998720205552478,
      "compression/movement_sparsity/importance_threshold": -8.306051379278895e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928865269020669,
      "compression/movement_sparsity/model_sparsity": 0.8969558895060079,
      "compression_loss": 105.1166000366211,
      "distillation_loss": 4.741563320159912,
      "epoch": 4.85,
      "learning_rate": 3.759236067626801e-05,
      "loss": 109.5492,
      "step": 5738,
      "task_loss": 3.0475151538848877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998741535017373,
      "compression/movement_sparsity/importance_threshold": -8.167620061932251e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288698836735442,
      "compression/movement_sparsity/model_sparsity": 0.8969603456313604,
      "compression_loss": 105.11592864990234,
      "distillation_loss": 5.537072658538818,
      "epoch": 4.85,
      "learning_rate": 3.758922980588604e-05,
      "loss": 109.3664,
      "step": 5739,
      "task_loss": 2.4839680194854736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998762626166716,
      "compression/movement_sparsity/importance_threshold": -8.030735447030549e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288854924089794,
      "compression/movement_sparsity/model_sparsity": 0.8969754181587154,
      "compression_loss": 105.11534118652344,
      "distillation_loss": 2.6435699462890625,
      "epoch": 4.85,
      "learning_rate": 3.758609893550407e-05,
      "loss": 108.7142,
      "step": 5740,
      "task_loss": 2.391247272491455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999878348033936,
      "compression/movement_sparsity/importance_threshold": -7.895388845248485e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288685720151042,
      "compression/movement_sparsity/model_sparsity": 0.896959079032423,
      "compression_loss": 105.11473083496094,
      "distillation_loss": 4.150225639343262,
      "epoch": 4.85,
      "learning_rate": 3.7582968065122104e-05,
      "loss": 109.2325,
      "step": 5741,
      "task_loss": 2.6432905197143555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998804098874158,
      "compression/movement_sparsity/importance_threshold": -7.761571567226067e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289029255420631,
      "compression/movement_sparsity/model_sparsity": 0.896992252410047,
      "compression_loss": 105.11409759521484,
      "distillation_loss": 4.170088291168213,
      "epoch": 4.85,
      "learning_rate": 3.757983719474014e-05,
      "loss": 109.4872,
      "step": 5742,
      "task_loss": 3.0168914794921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998824483109959,
      "compression/movement_sparsity/importance_threshold": -7.629274923637991e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928903223646254,
      "compression/movement_sparsity/model_sparsity": 0.8969925402734419,
      "compression_loss": 105.11344146728516,
      "distillation_loss": 4.674556732177734,
      "epoch": 4.85,
      "learning_rate": 3.7576706324358174e-05,
      "loss": 109.2475,
      "step": 5743,
      "task_loss": 1.7718180418014526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998844634385615,
      "compression/movement_sparsity/importance_threshold": -7.49849022514161e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288376288000891,
      "compression/movement_sparsity/model_sparsity": 0.8969291988120361,
      "compression_loss": 105.11276245117188,
      "distillation_loss": 5.05418586730957,
      "epoch": 4.85,
      "learning_rate": 3.7573575453976206e-05,
      "loss": 108.7254,
      "step": 5744,
      "task_loss": 2.725396156311035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998864554039979,
      "compression/movement_sparsity/importance_threshold": -7.369208782385603e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288555985207164,
      "compression/movement_sparsity/model_sparsity": 0.8969465512174785,
      "compression_loss": 105.11199951171875,
      "distillation_loss": 2.597221851348877,
      "epoch": 4.86,
      "learning_rate": 3.757044458359424e-05,
      "loss": 108.2247,
      "step": 5745,
      "task_loss": 1.8218852281570435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99988842434119,
      "compression/movement_sparsity/importance_threshold": -7.241421906053341e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288097381719889,
      "compression/movement_sparsity/model_sparsity": 0.8969022663128127,
      "compression_loss": 105.11126708984375,
      "distillation_loss": 4.5211639404296875,
      "epoch": 4.86,
      "learning_rate": 3.7567313713212276e-05,
      "loss": 108.642,
      "step": 5746,
      "task_loss": 3.855185031890869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998903703840231,
      "compression/movement_sparsity/importance_threshold": -7.11512090678483e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928779081136997,
      "compression/movement_sparsity/model_sparsity": 0.8968726624412849,
      "compression_loss": 105.11055755615234,
      "distillation_loss": 5.065799713134766,
      "epoch": 4.86,
      "learning_rate": 3.756418284283031e-05,
      "loss": 108.8801,
      "step": 5747,
      "task_loss": 1.449901819229126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998922936663822,
      "compression/movement_sparsity/importance_threshold": -6.990297095246095e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288138520098232,
      "compression/movement_sparsity/model_sparsity": 0.8969062388276619,
      "compression_loss": 105.10991668701172,
      "distillation_loss": 4.081058502197266,
      "epoch": 4.86,
      "learning_rate": 3.756105197244834e-05,
      "loss": 108.9332,
      "step": 5748,
      "task_loss": 3.5841596126556396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998941943221527,
      "compression/movement_sparsity/importance_threshold": -6.866941782103161e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288398586194371,
      "compression/movement_sparsity/model_sparsity": 0.8969313520302297,
      "compression_loss": 105.10922241210938,
      "distillation_loss": 4.641939163208008,
      "epoch": 4.86,
      "learning_rate": 3.755792110206637e-05,
      "loss": 109.0303,
      "step": 5749,
      "task_loss": 3.6546993255615234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998960724852195,
      "compression/movement_sparsity/importance_threshold": -6.745046278013381e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288025478989044,
      "compression/movement_sparsity/model_sparsity": 0.8968953230477286,
      "compression_loss": 105.10852813720703,
      "distillation_loss": 4.371820449829102,
      "epoch": 4.86,
      "learning_rate": 3.755479023168441e-05,
      "loss": 108.9735,
      "step": 5750,
      "task_loss": 2.2587296962738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998979282894678,
      "compression/movement_sparsity/importance_threshold": -6.624601893634105e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928823093239741,
      "compression/movement_sparsity/model_sparsity": 0.8969151625929026,
      "compression_loss": 105.10784149169922,
      "distillation_loss": 3.328397750854492,
      "epoch": 4.86,
      "learning_rate": 3.755165936130244e-05,
      "loss": 109.0704,
      "step": 5751,
      "task_loss": 1.6765533685684204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9998997618687827,
      "compression/movement_sparsity/importance_threshold": -6.50559993963136e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288364483074932,
      "compression/movement_sparsity/model_sparsity": 0.8969280588729924,
      "compression_loss": 105.10711669921875,
      "distillation_loss": 4.736715316772461,
      "epoch": 4.86,
      "learning_rate": 3.7548528490920474e-05,
      "loss": 110.0682,
      "step": 5752,
      "task_loss": 2.4736275672912598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999015733570495,
      "compression/movement_sparsity/importance_threshold": -6.388031726653823e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288444851964798,
      "compression/movement_sparsity/model_sparsity": 0.896935819670118,
      "compression_loss": 105.10639953613281,
      "distillation_loss": 5.609321594238281,
      "epoch": 4.86,
      "learning_rate": 3.754539762053851e-05,
      "loss": 109.2699,
      "step": 5753,
      "task_loss": 2.3937759399414062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999033628881532,
      "compression/movement_sparsity/importance_threshold": -6.271888565376194e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289154936147513,
      "compression/movement_sparsity/model_sparsity": 0.8970043887307745,
      "compression_loss": 105.10568237304688,
      "distillation_loss": 4.090530872344971,
      "epoch": 4.86,
      "learning_rate": 3.7542266750156544e-05,
      "loss": 108.2874,
      "step": 5754,
      "task_loss": 2.1111698150634766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999905130595979,
      "compression/movement_sparsity/importance_threshold": -6.157161766455824e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288864821148932,
      "compression/movement_sparsity/model_sparsity": 0.8969763738651864,
      "compression_loss": 105.10491943359375,
      "distillation_loss": 3.9415082931518555,
      "epoch": 4.86,
      "learning_rate": 3.7539135879774576e-05,
      "loss": 109.2202,
      "step": 5755,
      "task_loss": 3.248878240585327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999906876614412,
      "compression/movement_sparsity/importance_threshold": -6.043842640541391e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288685004700984,
      "compression/movement_sparsity/model_sparsity": 0.8969590099452082,
      "compression_loss": 105.10418701171875,
      "distillation_loss": 3.774620532989502,
      "epoch": 4.87,
      "learning_rate": 3.753600500939261e-05,
      "loss": 108.4395,
      "step": 5756,
      "task_loss": 1.9858653545379639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999086010773374,
      "compression/movement_sparsity/importance_threshold": -5.931922498307596e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9288881634225299,
      "compression/movement_sparsity/model_sparsity": 0.8969779974147334,
      "compression_loss": 105.10344696044922,
      "distillation_loss": 2.875511884689331,
      "epoch": 4.87,
      "learning_rate": 3.7532874139010646e-05,
      "loss": 109.19,
      "step": 5757,
      "task_loss": 1.5887807607650757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999103041186402,
      "compression/movement_sparsity/importance_threshold": -5.821392650411789e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928964883517099,
      "compression/movement_sparsity/model_sparsity": 0.8970520819380354,
      "compression_loss": 105.10272979736328,
      "distillation_loss": 3.923691749572754,
      "epoch": 4.87,
      "learning_rate": 3.752974326862868e-05,
      "loss": 108.8235,
      "step": 5758,
      "task_loss": 3.617396831512451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999119858722058,
      "compression/movement_sparsity/importance_threshold": -5.712244407502648e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289829724794026,
      "compression/movement_sparsity/model_sparsity": 0.8970695494888358,
      "compression_loss": 105.1019515991211,
      "distillation_loss": 3.956963062286377,
      "epoch": 4.87,
      "learning_rate": 3.7526612398246716e-05,
      "loss": 109.7995,
      "step": 5759,
      "task_loss": 2.986818313598633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999913646471919,
      "compression/movement_sparsity/importance_threshold": -5.604469080254873e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289684607673898,
      "compression/movement_sparsity/model_sparsity": 0.8970555362987739,
      "compression_loss": 105.10123443603516,
      "distillation_loss": 4.326057434082031,
      "epoch": 4.87,
      "learning_rate": 3.752348152786475e-05,
      "loss": 109.2446,
      "step": 5760,
      "task_loss": 1.8751739263534546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999152860516652,
      "compression/movement_sparsity/importance_threshold": -5.498057979325816e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9289656228154924,
      "compression/movement_sparsity/model_sparsity": 0.8970527958392547,
      "compression_loss": 105.10054016113281,
      "distillation_loss": 5.797255992889404,
      "epoch": 4.87,
      "learning_rate": 3.752035065748279e-05,
      "loss": 110.5968,
      "step": 5761,
      "task_loss": 3.7239980697631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999169047453296,
      "compression/movement_sparsity/importance_threshold": -5.393002415372827e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9290125682634749,
      "compression/movement_sparsity/model_sparsity": 0.8970981285666778,
      "compression_loss": 105.09979248046875,
      "distillation_loss": 3.190678596496582,
      "epoch": 4.87,
      "learning_rate": 3.751721978710082e-05,
      "loss": 109.0249,
      "step": 5762,
      "task_loss": 1.4066734313964844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999918502686797,
      "compression/movement_sparsity/importance_threshold": -5.289293699061934e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.928994324286992,
      "compression/movement_sparsity/model_sparsity": 0.8970805113269122,
      "compression_loss": 105.09907531738281,
      "distillation_loss": 3.5723254680633545,
      "epoch": 4.87,
      "learning_rate": 3.751408891671885e-05,
      "loss": 108.6209,
      "step": 5763,
      "task_loss": 1.7025810480117798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999200800099528,
      "compression/movement_sparsity/importance_threshold": -5.186923141050487e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9290376328638454,
      "compression/movement_sparsity/model_sparsity": 0.897122332120918,
      "compression_loss": 105.09833526611328,
      "distillation_loss": 3.3516628742218018,
      "epoch": 4.87,
      "learning_rate": 3.751095804633689e-05,
      "loss": 108.7405,
      "step": 5764,
      "task_loss": 1.2719810009002686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999216368486822,
      "compression/movement_sparsity/importance_threshold": -5.085882051987164e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9290725468266833,
      "compression/movement_sparsity/model_sparsity": 0.8971560466817243,
      "compression_loss": 105.09757995605469,
      "distillation_loss": 4.306318283081055,
      "epoch": 4.87,
      "learning_rate": 3.750782717595492e-05,
      "loss": 109.1283,
      "step": 5765,
      "task_loss": 2.9801692962646484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999231733368701,
      "compression/movement_sparsity/importance_threshold": -4.986161742546666e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9291064949319425,
      "compression/movement_sparsity/model_sparsity": 0.8971888285651315,
      "compression_loss": 105.09680938720703,
      "distillation_loss": 4.873434066772461,
      "epoch": 4.87,
      "learning_rate": 3.750469630557295e-05,
      "loss": 109.2113,
      "step": 5766,
      "task_loss": 2.4087841510772705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999246896084018,
      "compression/movement_sparsity/importance_threshold": -4.887753523386343e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9291070792161568,
      "compression/movement_sparsity/model_sparsity": 0.8971893927773854,
      "compression_loss": 105.09603118896484,
      "distillation_loss": 4.207455158233643,
      "epoch": 4.87,
      "learning_rate": 3.7501565435190984e-05,
      "loss": 108.8157,
      "step": 5767,
      "task_loss": 2.1476244926452637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999261857971624,
      "compression/movement_sparsity/importance_threshold": -4.790648705163547e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9291271475902879,
      "compression/movement_sparsity/model_sparsity": 0.8972087717411276,
      "compression_loss": 105.09525299072266,
      "distillation_loss": 4.084499835968018,
      "epoch": 4.88,
      "learning_rate": 3.749843456480902e-05,
      "loss": 108.7705,
      "step": 5768,
      "task_loss": 2.635321617126465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999276620370371,
      "compression/movement_sparsity/importance_threshold": -4.6948385985356306e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929148527622859,
      "compression/movement_sparsity/model_sparsity": 0.8972294173038072,
      "compression_loss": 105.09452819824219,
      "distillation_loss": 4.135584831237793,
      "epoch": 4.88,
      "learning_rate": 3.7495303694427055e-05,
      "loss": 109.277,
      "step": 5769,
      "task_loss": 2.4050984382629395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999291184619109,
      "compression/movement_sparsity/importance_threshold": -4.600314514177292e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9291848247891425,
      "compression/movement_sparsity/model_sparsity": 0.8972644675507657,
      "compression_loss": 105.0937271118164,
      "distillation_loss": 3.8273704051971436,
      "epoch": 4.88,
      "learning_rate": 3.7492172824045086e-05,
      "loss": 108.7908,
      "step": 5770,
      "task_loss": 1.7266227006912231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999305552056691,
      "compression/movement_sparsity/importance_threshold": -4.50706776273721e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292123338438785,
      "compression/movement_sparsity/model_sparsity": 0.8972910315848438,
      "compression_loss": 105.09294891357422,
      "distillation_loss": 3.53554105758667,
      "epoch": 4.88,
      "learning_rate": 3.748904195366312e-05,
      "loss": 108.9616,
      "step": 5771,
      "task_loss": 1.5998797416687012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999319724021967,
      "compression/movement_sparsity/importance_threshold": -4.41508965488141e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292351805490688,
      "compression/movement_sparsity/model_sparsity": 0.8973130934354261,
      "compression_loss": 105.09225463867188,
      "distillation_loss": 3.103426933288574,
      "epoch": 4.88,
      "learning_rate": 3.748591108328116e-05,
      "loss": 108.9259,
      "step": 5772,
      "task_loss": 2.207528829574585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999933370185379,
      "compression/movement_sparsity/importance_threshold": -4.3243715012672435e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292936447429875,
      "compression/movement_sparsity/model_sparsity": 0.8973695492044268,
      "compression_loss": 105.09141540527344,
      "distillation_loss": 3.462790012359619,
      "epoch": 4.88,
      "learning_rate": 3.748278021289919e-05,
      "loss": 108.6414,
      "step": 5773,
      "task_loss": 1.6052347421646118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999347486891009,
      "compression/movement_sparsity/importance_threshold": -4.2349046125520623e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292745422264348,
      "compression/movement_sparsity/model_sparsity": 0.897351102918084,
      "compression_loss": 105.09064483642578,
      "distillation_loss": 4.1480712890625,
      "epoch": 4.88,
      "learning_rate": 3.747964934251722e-05,
      "loss": 108.3456,
      "step": 5774,
      "task_loss": 1.9174202680587769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999361080472479,
      "compression/movement_sparsity/importance_threshold": -4.1466802993932184e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293209749352088,
      "compression/movement_sparsity/model_sparsity": 0.8973959405204679,
      "compression_loss": 105.08987426757812,
      "distillation_loss": 3.3301329612731934,
      "epoch": 4.88,
      "learning_rate": 3.747651847213526e-05,
      "loss": 108.8501,
      "step": 5775,
      "task_loss": 1.5561102628707886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999374483937048,
      "compression/movement_sparsity/importance_threshold": -4.0596898724654107e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292768555149562,
      "compression/movement_sparsity/model_sparsity": 0.8973533367380281,
      "compression_loss": 105.0890884399414,
      "distillation_loss": 3.925814628601074,
      "epoch": 4.88,
      "learning_rate": 3.747338760175329e-05,
      "loss": 109.0479,
      "step": 5776,
      "task_loss": 2.679823160171509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999387698623569,
      "compression/movement_sparsity/importance_threshold": -3.973924642425991e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9292543426864597,
      "compression/movement_sparsity/model_sparsity": 0.897331597294448,
      "compression_loss": 105.0882339477539,
      "distillation_loss": 2.61102294921875,
      "epoch": 4.88,
      "learning_rate": 3.747025673137132e-05,
      "loss": 108.4111,
      "step": 5777,
      "task_loss": 2.1981050968170166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999400725870893,
      "compression/movement_sparsity/importance_threshold": -3.889375919914964e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293216784610994,
      "compression/movement_sparsity/model_sparsity": 0.8973966198780797,
      "compression_loss": 105.08746337890625,
      "distillation_loss": 4.931883811950684,
      "epoch": 4.88,
      "learning_rate": 3.7467125860989354e-05,
      "loss": 109.3806,
      "step": 5778,
      "task_loss": 3.32778000831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999413567017872,
      "compression/movement_sparsity/importance_threshold": -3.8060350156157025e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293367744573263,
      "compression/movement_sparsity/model_sparsity": 0.8974111972803956,
      "compression_loss": 105.08662414550781,
      "distillation_loss": 3.8888087272644043,
      "epoch": 4.88,
      "learning_rate": 3.746399499060739e-05,
      "loss": 108.5191,
      "step": 5779,
      "task_loss": 1.589375615119934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999426223403356,
      "compression/movement_sparsity/importance_threshold": -3.723893240185558e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293358324480832,
      "compression/movement_sparsity/model_sparsity": 0.8974102876320679,
      "compression_loss": 105.08583068847656,
      "distillation_loss": 4.3369622230529785,
      "epoch": 4.89,
      "learning_rate": 3.7460864120225424e-05,
      "loss": 109.0256,
      "step": 5780,
      "task_loss": 2.55423903465271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999438696366199,
      "compression/movement_sparsity/importance_threshold": -3.6429419042732086e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293436070053817,
      "compression/movement_sparsity/model_sparsity": 0.8974177951094059,
      "compression_loss": 105.0850601196289,
      "distillation_loss": 3.21692156791687,
      "epoch": 4.89,
      "learning_rate": 3.7457733249843456e-05,
      "loss": 109.2227,
      "step": 5781,
      "task_loss": 1.853084683418274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999450987245249,
      "compression/movement_sparsity/importance_threshold": -3.5631723185533537e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293468861514815,
      "compression/movement_sparsity/model_sparsity": 0.8974209616067493,
      "compression_loss": 105.08426666259766,
      "distillation_loss": 4.024066925048828,
      "epoch": 4.89,
      "learning_rate": 3.745460237946149e-05,
      "loss": 109.3727,
      "step": 5782,
      "task_loss": 1.6926225423812866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999946309737936,
      "compression/movement_sparsity/importance_threshold": -3.4845757936659977e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293161814198192,
      "compression/movement_sparsity/model_sparsity": 0.8973913116770784,
      "compression_loss": 105.08343505859375,
      "distillation_loss": 3.2184667587280273,
      "epoch": 4.89,
      "learning_rate": 3.7451471509079527e-05,
      "loss": 109.5418,
      "step": 5783,
      "task_loss": 2.059974431991577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999475028107382,
      "compression/movement_sparsity/importance_threshold": -3.407143640294513e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929324015597956,
      "compression/movement_sparsity/model_sparsity": 0.8973988767270954,
      "compression_loss": 105.0826187133789,
      "distillation_loss": 3.726748466491699,
      "epoch": 4.89,
      "learning_rate": 3.744834063869756e-05,
      "loss": 108.4402,
      "step": 5784,
      "task_loss": 2.5159859657287598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999486780768168,
      "compression/movement_sparsity/importance_threshold": -3.3308671690875785e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9293772570064501,
      "compression/movement_sparsity/model_sparsity": 0.897450289129418,
      "compression_loss": 105.08187103271484,
      "distillation_loss": 4.393023490905762,
      "epoch": 4.89,
      "learning_rate": 3.744520976831559e-05,
      "loss": 108.7569,
      "step": 5785,
      "task_loss": 2.6508541107177734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999498356700568,
      "compression/movement_sparsity/importance_threshold": -3.2557376907025454e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9294055530562501,
      "compression/movement_sparsity/model_sparsity": 0.8974776131228586,
      "compression_loss": 105.08106994628906,
      "distillation_loss": 4.559662818908691,
      "epoch": 4.89,
      "learning_rate": 3.744207889793363e-05,
      "loss": 109.6688,
      "step": 5786,
      "task_loss": 3.028951406478882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999509757243433,
      "compression/movement_sparsity/importance_threshold": -3.181746515814113e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9294513180116365,
      "compression/movement_sparsity/model_sparsity": 0.897521805911238,
      "compression_loss": 105.08024597167969,
      "distillation_loss": 5.316503047943115,
      "epoch": 4.89,
      "learning_rate": 3.743894802755166e-05,
      "loss": 108.8929,
      "step": 5787,
      "task_loss": 3.1166834831237793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999520983735616,
      "compression/movement_sparsity/importance_threshold": -3.108884955070959e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9294896899830887,
      "compression/movement_sparsity/model_sparsity": 0.8975588596874248,
      "compression_loss": 105.0794677734375,
      "distillation_loss": 3.7825193405151367,
      "epoch": 4.89,
      "learning_rate": 3.743581715716969e-05,
      "loss": 108.9189,
      "step": 5788,
      "task_loss": 1.889278769493103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999532037515967,
      "compression/movement_sparsity/importance_threshold": -3.0371443191391095e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295297313380099,
      "compression/movement_sparsity/model_sparsity": 0.8975975254986228,
      "compression_loss": 105.07864379882812,
      "distillation_loss": 4.679677963256836,
      "epoch": 4.89,
      "learning_rate": 3.7432686286787724e-05,
      "loss": 108.9259,
      "step": 5789,
      "task_loss": 1.481547474861145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999542919923339,
      "compression/movement_sparsity/importance_threshold": -2.9665159186672424e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295784296386348,
      "compression/movement_sparsity/model_sparsity": 0.8976445508628078,
      "compression_loss": 105.07781982421875,
      "distillation_loss": 3.9746742248535156,
      "epoch": 4.89,
      "learning_rate": 3.742955541640576e-05,
      "loss": 108.9718,
      "step": 5790,
      "task_loss": 3.275855302810669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999553632296582,
      "compression/movement_sparsity/importance_threshold": -2.896991064321383e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929560412221337,
      "compression/movement_sparsity/model_sparsity": 0.8976271523992222,
      "compression_loss": 105.07698822021484,
      "distillation_loss": 4.912905693054199,
      "epoch": 4.89,
      "learning_rate": 3.7426424546023794e-05,
      "loss": 109.0857,
      "step": 5791,
      "task_loss": 2.716425657272339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999564175974547,
      "compression/movement_sparsity/importance_threshold": -2.8285610667762306e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295573954069251,
      "compression/movement_sparsity/model_sparsity": 0.8976242392216662,
      "compression_loss": 105.076171875,
      "distillation_loss": 5.949730396270752,
      "epoch": 4.9,
      "learning_rate": 3.7423293675641826e-05,
      "loss": 109.7628,
      "step": 5792,
      "task_loss": 3.3814642429351807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999574552296088,
      "compression/movement_sparsity/importance_threshold": -2.7612172366717896e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929606224873394,
      "compression/movement_sparsity/model_sparsity": 0.8976713912457448,
      "compression_loss": 105.0753402709961,
      "distillation_loss": 3.7049560546875,
      "epoch": 4.9,
      "learning_rate": 3.7420162805259865e-05,
      "loss": 108.7821,
      "step": 5793,
      "task_loss": 2.518496036529541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999584762600052,
      "compression/movement_sparsity/importance_threshold": -2.694950884682759e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929585297959193,
      "compression/movement_sparsity/model_sparsity": 0.8976511832354255,
      "compression_loss": 105.07455444335938,
      "distillation_loss": 3.294009208679199,
      "epoch": 4.9,
      "learning_rate": 3.7417031934877897e-05,
      "loss": 109.0502,
      "step": 5794,
      "task_loss": 2.564544439315796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999594808225295,
      "compression/movement_sparsity/importance_threshold": -2.629753321466491e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295670301343749,
      "compression/movement_sparsity/model_sparsity": 0.8976335429665881,
      "compression_loss": 105.07373046875,
      "distillation_loss": 5.515574932098389,
      "epoch": 4.9,
      "learning_rate": 3.7413901064495935e-05,
      "loss": 109.9283,
      "step": 5795,
      "task_loss": 2.9896957874298096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999604690510666,
      "compression/movement_sparsity/importance_threshold": -2.565615857671663e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296097425028466,
      "compression/movement_sparsity/model_sparsity": 0.8976747880338042,
      "compression_loss": 105.07294464111328,
      "distillation_loss": 4.799578666687012,
      "epoch": 4.9,
      "learning_rate": 3.741077019411397e-05,
      "loss": 109.6962,
      "step": 5796,
      "task_loss": 2.331934928894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999614410795017,
      "compression/movement_sparsity/importance_threshold": -2.502529803972975e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295723840856434,
      "compression/movement_sparsity/model_sparsity": 0.8976387129931599,
      "compression_loss": 105.07218170166016,
      "distillation_loss": 4.535719871520996,
      "epoch": 4.9,
      "learning_rate": 3.7407639323732e-05,
      "loss": 108.6176,
      "step": 5797,
      "task_loss": 1.8273813724517822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99996239704172,
      "compression/movement_sparsity/importance_threshold": -2.440486471027778e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295353118484635,
      "compression/movement_sparsity/model_sparsity": 0.8976029143013747,
      "compression_loss": 105.07144165039062,
      "distillation_loss": 3.792354106903076,
      "epoch": 4.9,
      "learning_rate": 3.740450845335004e-05,
      "loss": 109.1175,
      "step": 5798,
      "task_loss": 2.248016834259033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999633370716063,
      "compression/movement_sparsity/importance_threshold": -2.3794771694934241e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9294554318494709,
      "compression/movement_sparsity/model_sparsity": 0.897525778426087,
      "compression_loss": 105.07067108154297,
      "distillation_loss": 3.8813838958740234,
      "epoch": 4.9,
      "learning_rate": 3.740137758296807e-05,
      "loss": 109.3079,
      "step": 5799,
      "task_loss": 2.1202025413513184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999642613030463,
      "compression/movement_sparsity/importance_threshold": -2.3194932100272653e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9294664974770369,
      "compression/movement_sparsity/model_sparsity": 0.8975364639153044,
      "compression_loss": 105.06991577148438,
      "distillation_loss": 3.2871451377868652,
      "epoch": 4.9,
      "learning_rate": 3.73982467125861e-05,
      "loss": 108.4848,
      "step": 5800,
      "task_loss": 1.3479297161102295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999651698699247,
      "compression/movement_sparsity/importance_threshold": -2.2605259033040004e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929494066152611,
      "compression/movement_sparsity/model_sparsity": 0.8975630855220614,
      "compression_loss": 105.06916809082031,
      "distillation_loss": 4.683316707611084,
      "epoch": 4.9,
      "learning_rate": 3.739511584220414e-05,
      "loss": 109.4346,
      "step": 5801,
      "task_loss": 3.404693603515625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999660629061268,
      "compression/movement_sparsity/importance_threshold": -2.202566559963634e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295200846863925,
      "compression/movement_sparsity/model_sparsity": 0.8975882102391651,
      "compression_loss": 105.06843566894531,
      "distillation_loss": 2.9457459449768066,
      "epoch": 4.9,
      "learning_rate": 3.739198497182217e-05,
      "loss": 109.6814,
      "step": 5802,
      "task_loss": 2.7115633487701416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999669405455378,
      "compression/movement_sparsity/importance_threshold": -2.1456064906808653e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929537458198638,
      "compression/movement_sparsity/model_sparsity": 0.8976049869178178,
      "compression_loss": 105.06761932373047,
      "distillation_loss": 3.5388832092285156,
      "epoch": 4.9,
      "learning_rate": 3.73888541014402e-05,
      "loss": 108.9372,
      "step": 5803,
      "task_loss": 2.2861733436584473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999678029220427,
      "compression/movement_sparsity/importance_threshold": -2.089637006113046e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295533292657613,
      "compression/movement_sparsity/model_sparsity": 0.8976203127649602,
      "compression_loss": 105.06684875488281,
      "distillation_loss": 4.335796356201172,
      "epoch": 4.91,
      "learning_rate": 3.7385723231058235e-05,
      "loss": 109.4855,
      "step": 5804,
      "task_loss": 3.244521379470825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999686501695267,
      "compression/movement_sparsity/importance_threshold": -2.0346494169175278e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295262971777307,
      "compression/movement_sparsity/model_sparsity": 0.897594209312314,
      "compression_loss": 105.0660171508789,
      "distillation_loss": 6.33378791809082,
      "epoch": 4.91,
      "learning_rate": 3.738259236067627e-05,
      "loss": 109.8484,
      "step": 5805,
      "task_loss": 3.320375680923462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999969482421875,
      "compression/movement_sparsity/importance_threshold": -1.9806350337603362e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295323904273927,
      "compression/movement_sparsity/model_sparsity": 0.897600093240105,
      "compression_loss": 105.06522369384766,
      "distillation_loss": 2.565720558166504,
      "epoch": 4.91,
      "learning_rate": 3.7379461490294305e-05,
      "loss": 108.6511,
      "step": 5806,
      "task_loss": 2.683284044265747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999702998129727,
      "compression/movement_sparsity/importance_threshold": -1.927585167298823e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295784177144671,
      "compression/movement_sparsity/model_sparsity": 0.8976445393482719,
      "compression_loss": 105.0644302368164,
      "distillation_loss": 3.2452988624572754,
      "epoch": 4.91,
      "learning_rate": 3.737633061991234e-05,
      "loss": 107.9956,
      "step": 5807,
      "task_loss": 1.4556864500045776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999711024767048,
      "compression/movement_sparsity/importance_threshold": -1.8754911281903403e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295235426950069,
      "compression/movement_sparsity/model_sparsity": 0.8975915494545454,
      "compression_loss": 105.06359100341797,
      "distillation_loss": 3.9798269271850586,
      "epoch": 4.91,
      "learning_rate": 3.737319974953037e-05,
      "loss": 109.2605,
      "step": 5808,
      "task_loss": 1.9331167936325073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999718905469568,
      "compression/movement_sparsity/importance_threshold": -1.8243442270922394e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295282288928878,
      "compression/movement_sparsity/model_sparsity": 0.8975960746671128,
      "compression_loss": 105.06273651123047,
      "distillation_loss": 5.066416263580322,
      "epoch": 4.91,
      "learning_rate": 3.737006887914841e-05,
      "loss": 109.1585,
      "step": 5809,
      "task_loss": 3.2637100219726562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999726641576134,
      "compression/movement_sparsity/importance_threshold": -1.7741357746792197e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295556783267855,
      "compression/movement_sparsity/model_sparsity": 0.8976225811285118,
      "compression_loss": 105.06195831298828,
      "distillation_loss": 4.415713310241699,
      "epoch": 4.91,
      "learning_rate": 3.736693800876644e-05,
      "loss": 109.3685,
      "step": 5810,
      "task_loss": 2.7484865188598633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999734234425601,
      "compression/movement_sparsity/importance_threshold": -1.7248570815999592e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296163723400521,
      "compression/movement_sparsity/model_sparsity": 0.897681190115706,
      "compression_loss": 105.06116485595703,
      "distillation_loss": 4.238971710205078,
      "epoch": 4.91,
      "learning_rate": 3.736380713838447e-05,
      "loss": 108.9283,
      "step": 5811,
      "task_loss": 2.18684720993042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999741685356818,
      "compression/movement_sparsity/importance_threshold": -1.6764994585204834e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92959535003251,
      "compression/movement_sparsity/model_sparsity": 0.8976608899891002,
      "compression_loss": 105.0603256225586,
      "distillation_loss": 3.319906234741211,
      "epoch": 4.91,
      "learning_rate": 3.736067626800251e-05,
      "loss": 108.5104,
      "step": 5812,
      "task_loss": 1.6091734170913696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999748995708638,
      "compression/movement_sparsity/importance_threshold": -1.6290542160981442e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295729683698576,
      "compression/movement_sparsity/model_sparsity": 0.8976392772054139,
      "compression_loss": 105.05948638916016,
      "distillation_loss": 3.2215921878814697,
      "epoch": 4.91,
      "learning_rate": 3.735754539762054e-05,
      "loss": 108.6719,
      "step": 5813,
      "task_loss": 1.8838703632354736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999756166819911,
      "compression/movement_sparsity/importance_threshold": -1.5825126649902932e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295750908716968,
      "compression/movement_sparsity/model_sparsity": 0.8976413267927853,
      "compression_loss": 105.05870819091797,
      "distillation_loss": 3.8677010536193848,
      "epoch": 4.91,
      "learning_rate": 3.735441452723857e-05,
      "loss": 108.6031,
      "step": 5814,
      "task_loss": 2.5117366313934326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999976320002949,
      "compression/movement_sparsity/importance_threshold": -1.536866115862956e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296190791261054,
      "compression/movement_sparsity/model_sparsity": 0.8976838039153313,
      "compression_loss": 105.05791473388672,
      "distillation_loss": 3.194537878036499,
      "epoch": 4.91,
      "learning_rate": 3.7351283656856605e-05,
      "loss": 108.7446,
      "step": 5815,
      "task_loss": 1.396252989768982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999770096676225,
      "compression/movement_sparsity/importance_threshold": -1.492105879382158e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296694825827022,
      "compression/movement_sparsity/model_sparsity": 0.8977324758581349,
      "compression_loss": 105.05705261230469,
      "distillation_loss": 3.9563002586364746,
      "epoch": 4.92,
      "learning_rate": 3.734815278647464e-05,
      "loss": 108.6688,
      "step": 5816,
      "task_loss": 1.7192150354385376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999776858098969,
      "compression/movement_sparsity/importance_threshold": -1.4482232661879035e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296816452336908,
      "compression/movement_sparsity/model_sparsity": 0.8977442206846453,
      "compression_loss": 105.05619812011719,
      "distillation_loss": 3.342777967453003,
      "epoch": 4.92,
      "learning_rate": 3.7345021916092675e-05,
      "loss": 108.7127,
      "step": 5817,
      "task_loss": 2.0157082080841064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999783485636571,
      "compression/movement_sparsity/importance_threshold": -1.405209586954892e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929680130864401,
      "compression/movement_sparsity/model_sparsity": 0.8977427583385994,
      "compression_loss": 105.05538177490234,
      "distillation_loss": 4.1070990562438965,
      "epoch": 4.92,
      "learning_rate": 3.734189104571071e-05,
      "loss": 108.9351,
      "step": 5818,
      "task_loss": 1.418753743171692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999789980627884,
      "compression/movement_sparsity/importance_threshold": -1.3630561523491486e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296052709399831,
      "compression/movement_sparsity/model_sparsity": 0.8976704700828813,
      "compression_loss": 105.0545883178711,
      "distillation_loss": 4.925287246704102,
      "epoch": 4.92,
      "learning_rate": 3.733876017532874e-05,
      "loss": 109.9352,
      "step": 5819,
      "task_loss": 2.953795909881592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999979634441176,
      "compression/movement_sparsity/importance_threshold": -1.3217542730193516e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295732307015455,
      "compression/movement_sparsity/model_sparsity": 0.8976395305252014,
      "compression_loss": 105.05377197265625,
      "distillation_loss": 4.291629314422607,
      "epoch": 4.92,
      "learning_rate": 3.733562930494678e-05,
      "loss": 109.4138,
      "step": 5820,
      "task_loss": 3.0095012187957764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999802578327048,
      "compression/movement_sparsity/importance_threshold": -1.2812952596402e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295272153386387,
      "compression/movement_sparsity/model_sparsity": 0.8975950959315702,
      "compression_loss": 105.05302429199219,
      "distillation_loss": 4.990915775299072,
      "epoch": 4.92,
      "learning_rate": 3.733249843456481e-05,
      "loss": 109.0726,
      "step": 5821,
      "task_loss": 3.5502090454101562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999808683712603,
      "compression/movement_sparsity/importance_threshold": -1.2416704228430248e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929551862593142,
      "compression/movement_sparsity/model_sparsity": 0.8976188964770575,
      "compression_loss": 105.05221557617188,
      "distillation_loss": 5.077402591705322,
      "epoch": 4.92,
      "learning_rate": 3.732936756418284e-05,
      "loss": 109.4175,
      "step": 5822,
      "task_loss": 3.115377426147461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999814661907274,
      "compression/movement_sparsity/importance_threshold": -1.2028710733198722e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295640729408012,
      "compression/movement_sparsity/model_sparsity": 0.8976306873617111,
      "compression_loss": 105.05145263671875,
      "distillation_loss": 4.541425704956055,
      "epoch": 4.92,
      "learning_rate": 3.732623669380088e-05,
      "loss": 108.6568,
      "step": 5823,
      "task_loss": 3.6989986896514893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999820514249912,
      "compression/movement_sparsity/importance_threshold": -1.1648885217194205e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296008709221255,
      "compression/movement_sparsity/model_sparsity": 0.897666221219173,
      "compression_loss": 105.05066680908203,
      "distillation_loss": 4.666583061218262,
      "epoch": 4.92,
      "learning_rate": 3.732310582341891e-05,
      "loss": 108.8762,
      "step": 5824,
      "task_loss": 3.015657901763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999826242079369,
      "compression/movement_sparsity/importance_threshold": -1.1277140786990214e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295978183352107,
      "compression/movement_sparsity/model_sparsity": 0.8976632734980097,
      "compression_loss": 105.0499267578125,
      "distillation_loss": 5.23804235458374,
      "epoch": 4.92,
      "learning_rate": 3.731997495303694e-05,
      "loss": 109.1425,
      "step": 5825,
      "task_loss": 2.889481782913208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999831846734497,
      "compression/movement_sparsity/importance_threshold": -1.0913390549247004e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295467113527234,
      "compression/movement_sparsity/model_sparsity": 0.8976139221975943,
      "compression_loss": 105.04913330078125,
      "distillation_loss": 5.273022651672363,
      "epoch": 4.92,
      "learning_rate": 3.731684408265498e-05,
      "loss": 108.9349,
      "step": 5826,
      "task_loss": 3.7644948959350586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999837329554148,
      "compression/movement_sparsity/importance_threshold": -1.0557547610538093e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295558094926295,
      "compression/movement_sparsity/model_sparsity": 0.8976227077884056,
      "compression_loss": 105.04840850830078,
      "distillation_loss": 3.329468250274658,
      "epoch": 4.93,
      "learning_rate": 3.731371321227301e-05,
      "loss": 109.1443,
      "step": 5827,
      "task_loss": 1.8754706382751465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999842691877171,
      "compression/movement_sparsity/importance_threshold": -1.0209525077436998e-07,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296424981913423,
      "compression/movement_sparsity/model_sparsity": 0.8977064184636319,
      "compression_loss": 105.04766082763672,
      "distillation_loss": 3.6245779991149902,
      "epoch": 4.93,
      "learning_rate": 3.731058234189105e-05,
      "loss": 109.0762,
      "step": 5828,
      "task_loss": 1.443039894104004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999984793504242,
      "compression/movement_sparsity/importance_threshold": -9.869236056603975e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296031603623115,
      "compression/movement_sparsity/model_sparsity": 0.8976684320100456,
      "compression_loss": 105.04692840576172,
      "distillation_loss": 4.119654655456543,
      "epoch": 4.93,
      "learning_rate": 3.7307451471509083e-05,
      "loss": 109.0485,
      "step": 5829,
      "task_loss": 2.481191873550415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999853060388745,
      "compression/movement_sparsity/importance_threshold": -9.536593654525805e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296031007414733,
      "compression/movement_sparsity/model_sparsity": 0.8976683744373667,
      "compression_loss": 105.04618072509766,
      "distillation_loss": 5.2365193367004395,
      "epoch": 4.93,
      "learning_rate": 3.7304320601127115e-05,
      "loss": 108.9907,
      "step": 5830,
      "task_loss": 3.4590280055999756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999858069254998,
      "compression/movement_sparsity/importance_threshold": -9.211510977949477e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296541004064519,
      "compression/movement_sparsity/model_sparsity": 0.8977176221069599,
      "compression_loss": 105.04542541503906,
      "distillation_loss": 6.700359344482422,
      "epoch": 4.93,
      "learning_rate": 3.7301189730745154e-05,
      "loss": 109.5885,
      "step": 5831,
      "task_loss": 3.3119540214538574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999862962980028,
      "compression/movement_sparsity/importance_threshold": -8.893901133535248e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296359756716455,
      "compression/movement_sparsity/model_sparsity": 0.8977001200125522,
      "compression_loss": 105.04462432861328,
      "distillation_loss": 3.254922389984131,
      "epoch": 4.93,
      "learning_rate": 3.7298058860363186e-05,
      "loss": 108.5004,
      "step": 5832,
      "task_loss": 2.543977975845337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999986774290269,
      "compression/movement_sparsity/importance_threshold": -8.583677227683162e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295852741108578,
      "compression/movement_sparsity/model_sparsity": 0.8976511602063538,
      "compression_loss": 105.04389190673828,
      "distillation_loss": 2.9491121768951416,
      "epoch": 4.93,
      "learning_rate": 3.729492798998122e-05,
      "loss": 108.8693,
      "step": 5833,
      "task_loss": 1.3216373920440674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999872410361835,
      "compression/movement_sparsity/importance_threshold": -8.280752366966737e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295728491281812,
      "compression/movement_sparsity/model_sparsity": 0.8976391620600559,
      "compression_loss": 105.04313659667969,
      "distillation_loss": 4.098935127258301,
      "epoch": 4.93,
      "learning_rate": 3.729179711959925e-05,
      "loss": 108.558,
      "step": 5834,
      "task_loss": 1.8437068462371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999876966696312,
      "compression/movement_sparsity/importance_threshold": -7.985039658306436e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295820665097637,
      "compression/movement_sparsity/model_sparsity": 0.8976480627962251,
      "compression_loss": 105.04236602783203,
      "distillation_loss": 3.3687472343444824,
      "epoch": 4.93,
      "learning_rate": 3.728866624921729e-05,
      "loss": 109.1985,
      "step": 5835,
      "task_loss": 1.9737662076950073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999881413244974,
      "compression/movement_sparsity/importance_threshold": -7.69645220801557e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295999766095527,
      "compression/movement_sparsity/model_sparsity": 0.8976653576289885,
      "compression_loss": 105.04154205322266,
      "distillation_loss": 3.747542381286621,
      "epoch": 4.93,
      "learning_rate": 3.728553537883532e-05,
      "loss": 108.6235,
      "step": 5836,
      "task_loss": 2.3853402137756348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999885751346672,
      "compression/movement_sparsity/importance_threshold": -7.414903122841127e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295208239847859,
      "compression/movement_sparsity/model_sparsity": 0.8975889241403844,
      "compression_loss": 105.040771484375,
      "distillation_loss": 3.137768030166626,
      "epoch": 4.93,
      "learning_rate": 3.728240450845335e-05,
      "loss": 108.6107,
      "step": 5837,
      "task_loss": 1.3879072666168213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999889982340258,
      "compression/movement_sparsity/importance_threshold": -7.140305509356626e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295384121320488,
      "compression/movement_sparsity/model_sparsity": 0.8976059080806813,
      "compression_loss": 105.03995513916016,
      "distillation_loss": 4.013400554656982,
      "epoch": 4.93,
      "learning_rate": 3.727927363807139e-05,
      "loss": 108.3305,
      "step": 5838,
      "task_loss": 2.2190613746643066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999894107564582,
      "compression/movement_sparsity/importance_threshold": -6.872572474135585e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295386506154015,
      "compression/movement_sparsity/model_sparsity": 0.8976061383713971,
      "compression_loss": 105.03913879394531,
      "distillation_loss": 4.416202545166016,
      "epoch": 4.94,
      "learning_rate": 3.727614276768942e-05,
      "loss": 109.1782,
      "step": 5839,
      "task_loss": 1.944057583808899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999898128358496,
      "compression/movement_sparsity/importance_threshold": -6.611617123838259e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296116026729977,
      "compression/movement_sparsity/model_sparsity": 0.8976765843013882,
      "compression_loss": 105.0383071899414,
      "distillation_loss": 5.046707630157471,
      "epoch": 4.94,
      "learning_rate": 3.727301189730745e-05,
      "loss": 108.973,
      "step": 5840,
      "task_loss": 2.308835983276367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999902046060852,
      "compression/movement_sparsity/importance_threshold": -6.357352565038166e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296147625774213,
      "compression/movement_sparsity/model_sparsity": 0.8976796356533737,
      "compression_loss": 105.03749084472656,
      "distillation_loss": 3.8488473892211914,
      "epoch": 4.94,
      "learning_rate": 3.7269881026925485e-05,
      "loss": 107.8432,
      "step": 5841,
      "task_loss": 1.9789059162139893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999905862010502,
      "compression/movement_sparsity/importance_threshold": -6.109691904222087e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295614853964242,
      "compression/movement_sparsity/model_sparsity": 0.8976281887074438,
      "compression_loss": 105.03675079345703,
      "distillation_loss": 2.8331284523010254,
      "epoch": 4.94,
      "learning_rate": 3.7266750156543524e-05,
      "loss": 108.5889,
      "step": 5842,
      "task_loss": 1.4484412670135498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999909577546297,
      "compression/movement_sparsity/importance_threshold": -5.868548248137012e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295891613895071,
      "compression/movement_sparsity/model_sparsity": 0.8976549139450228,
      "compression_loss": 105.03593444824219,
      "distillation_loss": 4.286626815795898,
      "epoch": 4.94,
      "learning_rate": 3.7263619286161555e-05,
      "loss": 108.7465,
      "step": 5843,
      "task_loss": 2.4161601066589355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999913194007086,
      "compression/movement_sparsity/importance_threshold": -5.633834703443197e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9295782388519526,
      "compression/movement_sparsity/model_sparsity": 0.8976443666302351,
      "compression_loss": 105.03511810302734,
      "distillation_loss": 5.048055171966553,
      "epoch": 4.94,
      "learning_rate": 3.726048841577959e-05,
      "loss": 108.8136,
      "step": 5844,
      "task_loss": 3.8491601943969727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999916712731723,
      "compression/movement_sparsity/importance_threshold": -5.4054643766274224e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296191148986084,
      "compression/movement_sparsity/model_sparsity": 0.8976838384589387,
      "compression_loss": 105.03425598144531,
      "distillation_loss": 4.136790752410889,
      "epoch": 4.94,
      "learning_rate": 3.725735754539762e-05,
      "loss": 108.7362,
      "step": 5845,
      "task_loss": 1.6181446313858032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999920135059059,
      "compression/movement_sparsity/importance_threshold": -5.183350374263207e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929644537224008,
      "compression/movement_sparsity/model_sparsity": 0.8977083874492527,
      "compression_loss": 105.03343200683594,
      "distillation_loss": 3.3991150856018066,
      "epoch": 4.94,
      "learning_rate": 3.725422667501566e-05,
      "loss": 108.7294,
      "step": 5846,
      "task_loss": 2.2250685691833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999923462327946,
      "compression/movement_sparsity/importance_threshold": -4.967405803010805e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296138324923456,
      "compression/movement_sparsity/model_sparsity": 0.8976787375195817,
      "compression_loss": 105.03260040283203,
      "distillation_loss": 3.5926742553710938,
      "epoch": 4.94,
      "learning_rate": 3.725109580463369e-05,
      "loss": 108.4421,
      "step": 5847,
      "task_loss": 1.5684707164764404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999926695877234,
      "compression/movement_sparsity/importance_threshold": -4.75754376953047e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296773525333418,
      "compression/movement_sparsity/model_sparsity": 0.8977400754517593,
      "compression_loss": 105.03175354003906,
      "distillation_loss": 2.9994311332702637,
      "epoch": 4.94,
      "learning_rate": 3.724796493425172e-05,
      "loss": 108.3515,
      "step": 5848,
      "task_loss": 1.2715611457824707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999929837045775,
      "compression/movement_sparsity/importance_threshold": -4.553677380395721e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296350336624022,
      "compression/movement_sparsity/model_sparsity": 0.8976992103642245,
      "compression_loss": 105.03096008300781,
      "distillation_loss": 3.948836326599121,
      "epoch": 4.94,
      "learning_rate": 3.724483406386976e-05,
      "loss": 108.9885,
      "step": 5849,
      "task_loss": 1.8018351793289185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999993288717242,
      "compression/movement_sparsity/importance_threshold": -4.355719742093339e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296439529397938,
      "compression/movement_sparsity/model_sparsity": 0.8977078232369988,
      "compression_loss": 105.03012084960938,
      "distillation_loss": 4.354881286621094,
      "epoch": 4.94,
      "learning_rate": 3.724170319348779e-05,
      "loss": 109.3283,
      "step": 5850,
      "task_loss": 2.270348310470581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999935847596021,
      "compression/movement_sparsity/importance_threshold": -4.163583961370315e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296455507782571,
      "compression/movement_sparsity/model_sparsity": 0.8977093661847952,
      "compression_loss": 105.02934265136719,
      "distillation_loss": 3.1824419498443604,
      "epoch": 4.95,
      "learning_rate": 3.723857232310582e-05,
      "loss": 108.9413,
      "step": 5851,
      "task_loss": 2.55712890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999938719655429,
      "compression/movement_sparsity/importance_threshold": -3.977183144800167e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296470293750438,
      "compression/movement_sparsity/model_sparsity": 0.8977107939872337,
      "compression_loss": 105.02853393554688,
      "distillation_loss": 4.624808311462402,
      "epoch": 4.95,
      "learning_rate": 3.7235441452723855e-05,
      "loss": 109.2483,
      "step": 5852,
      "task_loss": 2.04655385017395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999941504689496,
      "compression/movement_sparsity/importance_threshold": -3.796430398956413e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296435117455913,
      "compression/movement_sparsity/model_sparsity": 0.8977073971991744,
      "compression_loss": 105.02774047851562,
      "distillation_loss": 3.562480926513672,
      "epoch": 4.95,
      "learning_rate": 3.7232310582341894e-05,
      "loss": 108.142,
      "step": 5853,
      "task_loss": 1.2160377502441406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999944204037072,
      "compression/movement_sparsity/importance_threshold": -3.621238830412571e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296703768952749,
      "compression/movement_sparsity/model_sparsity": 0.8977333394483195,
      "compression_loss": 105.02702331542969,
      "distillation_loss": 5.873029708862305,
      "epoch": 4.95,
      "learning_rate": 3.7229179711959925e-05,
      "loss": 109.7053,
      "step": 5854,
      "task_loss": 3.0365538597106934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999946819037011,
      "compression/movement_sparsity/importance_threshold": -3.451521545828895e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9296888951276134,
      "compression/movement_sparsity/model_sparsity": 0.8977512215224084,
      "compression_loss": 105.02629089355469,
      "distillation_loss": 4.0027360916137695,
      "epoch": 4.95,
      "learning_rate": 3.722604884157796e-05,
      "loss": 108.3919,
      "step": 5855,
      "task_loss": 2.040935754776001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999949351028162,
      "compression/movement_sparsity/importance_threshold": -3.2871916517789035e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9297779686598533,
      "compression/movement_sparsity/model_sparsity": 0.8978372351047936,
      "compression_loss": 105.02550506591797,
      "distillation_loss": 5.2696027755737305,
      "epoch": 4.95,
      "learning_rate": 3.722291797119599e-05,
      "loss": 108.7274,
      "step": 5856,
      "task_loss": 2.622962236404419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999951801349377,
      "compression/movement_sparsity/importance_threshold": -3.1281622550095867e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298083037423189,
      "compression/movement_sparsity/model_sparsity": 0.8978665280838549,
      "compression_loss": 105.0247573852539,
      "distillation_loss": 3.088512420654297,
      "epoch": 4.95,
      "learning_rate": 3.721978710081403e-05,
      "loss": 109.1465,
      "step": 5857,
      "task_loss": 1.5845016241073608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999954171339508,
      "compression/movement_sparsity/importance_threshold": -2.974346461834254e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9297543588079343,
      "compression/movement_sparsity/model_sparsity": 0.8978144363239204,
      "compression_loss": 105.02397155761719,
      "distillation_loss": 3.061530590057373,
      "epoch": 4.95,
      "learning_rate": 3.721665623043206e-05,
      "loss": 107.788,
      "step": 5858,
      "task_loss": 1.8449136018753052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999956462337406,
      "compression/movement_sparsity/importance_threshold": -2.8256573790866324e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9297679404348715,
      "compression/movement_sparsity/model_sparsity": 0.8978275513801904,
      "compression_loss": 105.02317810058594,
      "distillation_loss": 4.876717567443848,
      "epoch": 4.95,
      "learning_rate": 3.721352536005009e-05,
      "loss": 109.1539,
      "step": 5859,
      "task_loss": 2.2667832374572754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999958675681923,
      "compression/movement_sparsity/importance_threshold": -2.6820081133402396e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9297284952883321,
      "compression/movement_sparsity/model_sparsity": 0.8977894612957821,
      "compression_loss": 105.0223617553711,
      "distillation_loss": 5.415078163146973,
      "epoch": 4.95,
      "learning_rate": 3.721039448966813e-05,
      "loss": 108.5213,
      "step": 5860,
      "task_loss": 2.887016773223877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999960812711909,
      "compression/movement_sparsity/importance_threshold": -2.5433117710818576e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.92979281424856,
      "compression/movement_sparsity/model_sparsity": 0.8978515707018578,
      "compression_loss": 105.02149963378906,
      "distillation_loss": 5.2202324867248535,
      "epoch": 4.95,
      "learning_rate": 3.720726361928616e-05,
      "loss": 109.4125,
      "step": 5861,
      "task_loss": 3.3400514125823975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999962874766216,
      "compression/movement_sparsity/importance_threshold": -2.4094814590584768e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929752629803627,
      "compression/movement_sparsity/model_sparsity": 0.8978127667162302,
      "compression_loss": 105.02072143554688,
      "distillation_loss": 4.337552547454834,
      "epoch": 4.95,
      "learning_rate": 3.72041327489042e-05,
      "loss": 108.948,
      "step": 5862,
      "task_loss": 2.1340208053588867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999964863183696,
      "compression/movement_sparsity/importance_threshold": -2.2804302838436152e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298198105640876,
      "compression/movement_sparsity/model_sparsity": 0.8978776396108966,
      "compression_loss": 105.01993560791016,
      "distillation_loss": 3.694293975830078,
      "epoch": 4.96,
      "learning_rate": 3.720100187852223e-05,
      "loss": 108.8433,
      "step": 5863,
      "task_loss": 2.263529062271118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99999667793032,
      "compression/movement_sparsity/importance_threshold": -2.156071352010791e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298116782817599,
      "compression/movement_sparsity/model_sparsity": 0.8978697866974847,
      "compression_loss": 105.01907348632812,
      "distillation_loss": 5.115645885467529,
      "epoch": 4.96,
      "learning_rate": 3.719787100814027e-05,
      "loss": 108.8686,
      "step": 5864,
      "task_loss": 1.9654172658920288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999996862446358,
      "compression/movement_sparsity/importance_threshold": -2.0363177701335222e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298210149050188,
      "compression/movement_sparsity/model_sparsity": 0.8978788025790119,
      "compression_loss": 105.01824188232422,
      "distillation_loss": 3.4674150943756104,
      "epoch": 4.96,
      "learning_rate": 3.71947401377583e-05,
      "loss": 108.7556,
      "step": 5865,
      "task_loss": 2.8198800086975098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999970400003686,
      "compression/movement_sparsity/importance_threshold": -1.921082644872063e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298292664290227,
      "compression/movement_sparsity/model_sparsity": 0.8978867706377818,
      "compression_loss": 105.01741027832031,
      "distillation_loss": 5.767710208892822,
      "epoch": 4.96,
      "learning_rate": 3.7191609267376334e-05,
      "loss": 110.4747,
      "step": 5866,
      "task_loss": 2.665541648864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999972107262372,
      "compression/movement_sparsity/importance_threshold": -1.8102790827131954e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9298978065445938,
      "compression/movement_sparsity/model_sparsity": 0.8979529561895288,
      "compression_loss": 105.01654052734375,
      "distillation_loss": 4.096896648406982,
      "epoch": 4.96,
      "learning_rate": 3.7188478396994366e-05,
      "loss": 108.9746,
      "step": 5867,
      "task_loss": 2.604422092437744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999973747578486,
      "compression/movement_sparsity/importance_threshold": -1.7038201904039096e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9299330782324606,
      "compression/movement_sparsity/model_sparsity": 0.897987016186409,
      "compression_loss": 105.01566314697266,
      "distillation_loss": 3.9631705284118652,
      "epoch": 4.96,
      "learning_rate": 3.7185347526612404e-05,
      "loss": 109.6184,
      "step": 5868,
      "task_loss": 2.363389730453491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999975322290882,
      "compression/movement_sparsity/importance_threshold": -1.601619074517724e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.929982086561444,
      "compression/movement_sparsity/model_sparsity": 0.8980343409285245,
      "compression_loss": 105.01478576660156,
      "distillation_loss": 4.925991058349609,
      "epoch": 4.96,
      "learning_rate": 3.7182216656230436e-05,
      "loss": 108.9358,
      "step": 5869,
      "task_loss": 3.003563165664673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999976832738409,
      "compression/movement_sparsity/importance_threshold": -1.5035888417148924e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930090870742786,
      "compression/movement_sparsity/model_sparsity": 0.8981393880385782,
      "compression_loss": 105.01395416259766,
      "distillation_loss": 4.540091514587402,
      "epoch": 4.96,
      "learning_rate": 3.717908578584847e-05,
      "loss": 108.8415,
      "step": 5870,
      "task_loss": 2.739344596862793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999978280259921,
      "compression/movement_sparsity/importance_threshold": -1.4096425983954608e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930128658430024,
      "compression/movement_sparsity/model_sparsity": 0.898175877602511,
      "compression_loss": 105.01310729980469,
      "distillation_loss": 3.9631290435791016,
      "epoch": 4.96,
      "learning_rate": 3.71759549154665e-05,
      "loss": 108.6039,
      "step": 5871,
      "task_loss": 2.1863090991973877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999979666194269,
      "compression/movement_sparsity/importance_threshold": -1.3196934513064196e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9301542596179382,
      "compression/movement_sparsity/model_sparsity": 0.8982005993108619,
      "compression_loss": 105.01225280761719,
      "distillation_loss": 5.819742202758789,
      "epoch": 4.96,
      "learning_rate": 3.717282404508454e-05,
      "loss": 109.5251,
      "step": 5872,
      "task_loss": 2.7736802101135254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999980991880303,
      "compression/movement_sparsity/importance_threshold": -1.2336545070212868e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9301571333423385,
      "compression/movement_sparsity/model_sparsity": 0.8982033743139884,
      "compression_loss": 105.01140594482422,
      "distillation_loss": 3.3389406204223633,
      "epoch": 4.96,
      "learning_rate": 3.716969317470257e-05,
      "loss": 108.4314,
      "step": 5873,
      "task_loss": 1.611488699913025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999982258656874,
      "compression/movement_sparsity/importance_threshold": -1.1514388722870528e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930207644116444,
      "compression/movement_sparsity/model_sparsity": 0.8982521498876141,
      "compression_loss": 105.01058959960938,
      "distillation_loss": 3.3973934650421143,
      "epoch": 4.96,
      "learning_rate": 3.71665623043206e-05,
      "loss": 108.4638,
      "step": 5874,
      "task_loss": 2.188612222671509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999983467862836,
      "compression/movement_sparsity/importance_threshold": -1.0729596534170271e-08,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302423792167672,
      "compression/movement_sparsity/model_sparsity": 0.8982856917303836,
      "compression_loss": 105.00977325439453,
      "distillation_loss": 4.852319240570068,
      "epoch": 4.97,
      "learning_rate": 3.716343143393864e-05,
      "loss": 108.7519,
      "step": 5875,
      "task_loss": 3.25911808013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999984620837039,
      "compression/movement_sparsity/importance_threshold": -9.981299572449365e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302333883943698,
      "compression/movement_sparsity/model_sparsity": 0.8982770097703945,
      "compression_loss": 105.00887298583984,
      "distillation_loss": 3.726454734802246,
      "epoch": 4.97,
      "learning_rate": 3.716030056355667e-05,
      "loss": 108.3286,
      "step": 5876,
      "task_loss": 1.6425044536590576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999985718918334,
      "compression/movement_sparsity/importance_threshold": -9.268628903442988e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302012169900883,
      "compression/movement_sparsity/model_sparsity": 0.8982459435528208,
      "compression_loss": 105.00801849365234,
      "distillation_loss": 3.367762804031372,
      "epoch": 4.97,
      "learning_rate": 3.7157169693174704e-05,
      "loss": 108.4263,
      "step": 5877,
      "task_loss": 1.4342310428619385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999986763445573,
      "compression/movement_sparsity/importance_threshold": -8.590715592886322e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930189042414932,
      "compression/movement_sparsity/model_sparsity": 0.8982341872117746,
      "compression_loss": 105.00724029541016,
      "distillation_loss": 3.842991352081299,
      "epoch": 4.97,
      "learning_rate": 3.7154038822792736e-05,
      "loss": 109.03,
      "step": 5878,
      "task_loss": 1.8248943090438843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999987755757607,
      "compression/movement_sparsity/importance_threshold": -7.946690706514548e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930243404695184,
      "compression/movement_sparsity/model_sparsity": 0.8982866819804619,
      "compression_loss": 105.00643157958984,
      "distillation_loss": 4.234536170959473,
      "epoch": 4.97,
      "learning_rate": 3.7150907952410774e-05,
      "loss": 109.3784,
      "step": 5879,
      "task_loss": 3.9255595207214355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999988697193287,
      "compression/movement_sparsity/importance_threshold": -7.335685310062845e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930236524450458,
      "compression/movement_sparsity/model_sparsity": 0.8982800380933085,
      "compression_loss": 105.0056381225586,
      "distillation_loss": 3.182211399078369,
      "epoch": 4.97,
      "learning_rate": 3.7147777082028806e-05,
      "loss": 108.853,
      "step": 5880,
      "task_loss": 1.2207002639770508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999989589091466,
      "compression/movement_sparsity/importance_threshold": -6.756830470133757e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302182447014723,
      "compression/movement_sparsity/model_sparsity": 0.8982623863099355,
      "compression_loss": 105.00486755371094,
      "distillation_loss": 4.596044540405273,
      "epoch": 4.97,
      "learning_rate": 3.714464621164684e-05,
      "loss": 108.5877,
      "step": 5881,
      "task_loss": 2.9559078216552734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999990432790993,
      "compression/movement_sparsity/importance_threshold": -6.209257254197187e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302880726271479,
      "compression/movement_sparsity/model_sparsity": 0.8983298154315483,
      "compression_loss": 105.00404357910156,
      "distillation_loss": 3.2453160285949707,
      "epoch": 4.97,
      "learning_rate": 3.714151534126487e-05,
      "loss": 108.537,
      "step": 5882,
      "task_loss": 1.8550745248794556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999991229630721,
      "compression/movement_sparsity/importance_threshold": -5.692096725386231e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9302877029779512,
      "compression/movement_sparsity/model_sparsity": 0.8983294584809387,
      "compression_loss": 105.00318145751953,
      "distillation_loss": 4.434046745300293,
      "epoch": 4.97,
      "learning_rate": 3.713838447088291e-05,
      "loss": 109.4242,
      "step": 5883,
      "task_loss": 3.094370126724243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999991980949503,
      "compression/movement_sparsity/importance_threshold": -5.204479951170793e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303363416577378,
      "compression/movement_sparsity/model_sparsity": 0.8983764262724446,
      "compression_loss": 105.00244903564453,
      "distillation_loss": 3.451528310775757,
      "epoch": 4.97,
      "learning_rate": 3.713525360050094e-05,
      "loss": 108.6369,
      "step": 5884,
      "task_loss": 2.1146397590637207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999992688086187,
      "compression/movement_sparsity/importance_threshold": -4.745537999020777e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303663428635097,
      "compression/movement_sparsity/model_sparsity": 0.8984053968445036,
      "compression_loss": 105.00171661376953,
      "distillation_loss": 5.24539041519165,
      "epoch": 4.97,
      "learning_rate": 3.713212273011897e-05,
      "loss": 108.9414,
      "step": 5885,
      "task_loss": 2.549071788787842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999993352379626,
      "compression/movement_sparsity/importance_threshold": -4.31440193293664e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303665217260242,
      "compression/movement_sparsity/model_sparsity": 0.8984055695625406,
      "compression_loss": 105.00091552734375,
      "distillation_loss": 5.120429992675781,
      "epoch": 4.97,
      "learning_rate": 3.712899185973701e-05,
      "loss": 108.9327,
      "step": 5886,
      "task_loss": 2.5347039699554443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999993975168672,
      "compression/movement_sparsity/importance_threshold": -3.910202818653563e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304096633645308,
      "compression/movement_sparsity/model_sparsity": 0.8984472291530452,
      "compression_loss": 105.00008392333984,
      "distillation_loss": 3.2169055938720703,
      "epoch": 4.98,
      "learning_rate": 3.712586098935504e-05,
      "loss": 108.2346,
      "step": 5887,
      "task_loss": 2.6340842247009277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999994557792176,
      "compression/movement_sparsity/importance_threshold": -3.53207172364145e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304491681319084,
      "compression/movement_sparsity/model_sparsity": 0.8984853768101325,
      "compression_loss": 104.9992446899414,
      "distillation_loss": 3.6245455741882324,
      "epoch": 4.98,
      "learning_rate": 3.7122730118973074e-05,
      "loss": 108.8884,
      "step": 5888,
      "task_loss": 2.3445160388946533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999995101588989,
      "compression/movement_sparsity/importance_threshold": -3.1791397136354815e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304400819161699,
      "compression/movement_sparsity/model_sparsity": 0.8984766027338571,
      "compression_loss": 104.99844360351562,
      "distillation_loss": 4.6158857345581055,
      "epoch": 4.98,
      "learning_rate": 3.7119599248591105e-05,
      "loss": 108.79,
      "step": 5889,
      "task_loss": 2.1928961277008057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999995607897962,
      "compression/movement_sparsity/importance_threshold": -2.850537854370838e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304706077853176,
      "compression/movement_sparsity/model_sparsity": 0.8985060799454911,
      "compression_loss": 104.99752044677734,
      "distillation_loss": 4.579881191253662,
      "epoch": 4.98,
      "learning_rate": 3.7116468378209144e-05,
      "loss": 109.5875,
      "step": 5890,
      "task_loss": 2.7166640758514404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999996078057948,
      "compression/movement_sparsity/importance_threshold": -2.5453972124500623e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304795628352122,
      "compression/movement_sparsity/model_sparsity": 0.8985147273618728,
      "compression_loss": 104.99668884277344,
      "distillation_loss": 1.7118351459503174,
      "epoch": 4.98,
      "learning_rate": 3.7113337507827176e-05,
      "loss": 107.8428,
      "step": 5891,
      "task_loss": 0.6658555269241333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999996513407796,
      "compression/movement_sparsity/importance_threshold": -2.2628488536083347e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303511276256063,
      "compression/movement_sparsity/model_sparsity": 0.8983907042968298,
      "compression_loss": 104.99574279785156,
      "distillation_loss": 2.422452449798584,
      "epoch": 4.98,
      "learning_rate": 3.711020663744521e-05,
      "loss": 108.7053,
      "step": 5892,
      "task_loss": 1.428648591041565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999999691528636,
      "compression/movement_sparsity/importance_threshold": -2.0020238435808357e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304045955932855,
      "compression/movement_sparsity/model_sparsity": 0.8984423354753325,
      "compression_loss": 104.9948501586914,
      "distillation_loss": 3.9350972175598145,
      "epoch": 4.98,
      "learning_rate": 3.7107075767063246e-05,
      "loss": 109.0328,
      "step": 5893,
      "task_loss": 2.228180408477783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999999728503249,
      "compression/movement_sparsity/importance_threshold": -1.7620532481027462e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304284439285573,
      "compression/movement_sparsity/model_sparsity": 0.8984653645469216,
      "compression_loss": 104.99398803710938,
      "distillation_loss": 3.5972797870635986,
      "epoch": 4.98,
      "learning_rate": 3.710394489668128e-05,
      "loss": 108.4251,
      "step": 5894,
      "task_loss": 1.651883840560913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999997623985037,
      "compression/movement_sparsity/importance_threshold": -1.5420681337766085e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304166390025977,
      "compression/movement_sparsity/model_sparsity": 0.898453965156485,
      "compression_loss": 104.99309539794922,
      "distillation_loss": 4.016494274139404,
      "epoch": 4.98,
      "learning_rate": 3.7100814026299316e-05,
      "loss": 109.0504,
      "step": 5895,
      "task_loss": 2.750636100769043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999997933482855,
      "compression/movement_sparsity/importance_threshold": -1.341199566337603e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303668794510533,
      "compression/movement_sparsity/model_sparsity": 0.8984059149986144,
      "compression_loss": 104.99220275878906,
      "distillation_loss": 5.310848236083984,
      "epoch": 4.98,
      "learning_rate": 3.709768315591735e-05,
      "loss": 108.557,
      "step": 5896,
      "task_loss": 2.40729022026062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999998214864791,
      "compression/movement_sparsity/importance_threshold": -1.1585786132556342e-09,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304357176708151,
      "compression/movement_sparsity/model_sparsity": 0.8984723884137563,
      "compression_loss": 104.99131774902344,
      "distillation_loss": 5.400449752807617,
      "epoch": 4.98,
      "learning_rate": 3.709455228553538e-05,
      "loss": 108.9949,
      "step": 5897,
      "task_loss": 2.3834540843963623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999998469469701,
      "compression/movement_sparsity/importance_threshold": -9.933363385311589e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930482090758751,
      "compression/movement_sparsity/model_sparsity": 0.8985171684434613,
      "compression_loss": 104.990478515625,
      "distillation_loss": 2.696636915206909,
      "epoch": 4.99,
      "learning_rate": 3.709142141515342e-05,
      "loss": 108.2066,
      "step": 5898,
      "task_loss": 1.4422996044158936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999998698636433,
      "compression/movement_sparsity/importance_threshold": -8.446038087667196e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9305017298628473,
      "compression/movement_sparsity/model_sparsity": 0.8985361328839149,
      "compression_loss": 104.98971557617188,
      "distillation_loss": 2.885970115661621,
      "epoch": 4.99,
      "learning_rate": 3.708829054477145e-05,
      "loss": 108.3009,
      "step": 5899,
      "task_loss": 3.1885762214660645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999998903703841,
      "compression/movement_sparsity/importance_threshold": -7.115120905648586e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304469979333987,
      "compression/movement_sparsity/model_sparsity": 0.898483281164618,
      "compression_loss": 104.98881530761719,
      "distillation_loss": 3.5655529499053955,
      "epoch": 4.99,
      "learning_rate": 3.708515967438948e-05,
      "loss": 108.4088,
      "step": 5900,
      "task_loss": 2.8052148818969727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999086010773,
      "compression/movement_sparsity/importance_threshold": -5.931922496607567e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930427144194285,
      "compression/movement_sparsity/model_sparsity": 0.89846410946252,
      "compression_loss": 104.98799896240234,
      "distillation_loss": 2.5799503326416016,
      "epoch": 4.99,
      "learning_rate": 3.708202880400752e-05,
      "loss": 108.0319,
      "step": 5901,
      "task_loss": 1.7395423650741577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999246896084,
      "compression/movement_sparsity/importance_threshold": -4.88775352656956e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303764545576649,
      "compression/movement_sparsity/model_sparsity": 0.8984151611708574,
      "compression_loss": 104.98712921142578,
      "distillation_loss": 3.89786434173584,
      "epoch": 4.99,
      "learning_rate": 3.707889793362555e-05,
      "loss": 108.6453,
      "step": 5902,
      "task_loss": 2.501769781112671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999387698624,
      "compression/movement_sparsity/importance_threshold": -3.9739246442127563e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.930336401278576,
      "compression/movement_sparsity/model_sparsity": 0.8983764838451236,
      "compression_loss": 104.98628997802734,
      "distillation_loss": 5.991863250732422,
      "epoch": 4.99,
      "learning_rate": 3.7075767063243584e-05,
      "loss": 108.9484,
      "step": 5903,
      "task_loss": 2.943528652191162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999509757244,
      "compression/movement_sparsity/importance_threshold": -3.181746515562578e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303121952182752,
      "compression/movement_sparsity/model_sparsity": 0.8983531093374606,
      "compression_loss": 104.9854507446289,
      "distillation_loss": 4.563507080078125,
      "epoch": 4.99,
      "learning_rate": 3.7072636192861616e-05,
      "loss": 108.6827,
      "step": 5904,
      "task_loss": 2.827897548675537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999614410795,
      "compression/movement_sparsity/importance_threshold": -2.502529806644449e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303490528204377,
      "compression/movement_sparsity/model_sparsity": 0.8983887007676016,
      "compression_loss": 104.9845962524414,
      "distillation_loss": 4.131813049316406,
      "epoch": 4.99,
      "learning_rate": 3.7069505322479655e-05,
      "loss": 108.3062,
      "step": 5905,
      "task_loss": 2.0629215240478516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.999999970299813,
      "compression/movement_sparsity/importance_threshold": -1.9275851661365584e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303410278556188,
      "compression/movement_sparsity/model_sparsity": 0.8983809514850118,
      "compression_loss": 104.9837875366211,
      "distillation_loss": 4.133953094482422,
      "epoch": 4.99,
      "learning_rate": 3.7066374452097686e-05,
      "loss": 108.9738,
      "step": 5906,
      "task_loss": 2.20127010345459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.99999997768581,
      "compression/movement_sparsity/importance_threshold": -1.4482232600643297e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303589618037431,
      "compression/movement_sparsity/model_sparsity": 0.8983982693468469,
      "compression_loss": 104.9829330444336,
      "distillation_loss": 6.626056671142578,
      "epoch": 4.99,
      "learning_rate": 3.706324358171572e-05,
      "loss": 109.5947,
      "step": 5907,
      "task_loss": 3.99991774559021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999837329554,
      "compression/movement_sparsity/importance_threshold": -1.0557547631268038e-10,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303832036365468,
      "compression/movement_sparsity/model_sparsity": 0.8984216783981172,
      "compression_loss": 104.98204040527344,
      "distillation_loss": 5.680552005767822,
      "epoch": 4.99,
      "learning_rate": 3.706011271133375e-05,
      "loss": 109.4342,
      "step": 5908,
      "task_loss": 3.048506021499634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999885751346,
      "compression/movement_sparsity/importance_threshold": -7.414903153285524e-11,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9303594149221133,
      "compression/movement_sparsity/model_sparsity": 0.898398706899207,
      "compression_loss": 104.98112487792969,
      "distillation_loss": 3.593851089477539,
      "epoch": 4.99,
      "learning_rate": 3.705698184095179e-05,
      "loss": 108.6613,
      "step": 5909,
      "task_loss": 2.221275806427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999923462328,
      "compression/movement_sparsity/importance_threshold": -4.967405826949989e-11,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304084232510966,
      "compression/movement_sparsity/model_sparsity": 0.8984460316413225,
      "compression_loss": 104.980224609375,
      "distillation_loss": 4.287415027618408,
      "epoch": 5.0,
      "learning_rate": 3.705385097056982e-05,
      "loss": 108.3476,
      "step": 5910,
      "task_loss": 2.8877999782562256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999951801349,
      "compression/movement_sparsity/importance_threshold": -3.128162225779496e-11,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9304496212502785,
      "compression/movement_sparsity/model_sparsity": 0.8984858143624928,
      "compression_loss": 104.9793701171875,
      "distillation_loss": 3.685818672180176,
      "epoch": 5.0,
      "learning_rate": 3.705072010018785e-05,
      "loss": 108.7305,
      "step": 5911,
      "task_loss": 2.8629908561706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999972107262,
      "compression/movement_sparsity/importance_threshold": -1.8102790967644555e-11,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9305547685604916,
      "compression/movement_sparsity/model_sparsity": 0.898587349539129,
      "compression_loss": 104.978515625,
      "distillation_loss": 4.127431869506836,
      "epoch": 5.0,
      "learning_rate": 3.704758922980589e-05,
      "loss": 109.2301,
      "step": 5912,
      "task_loss": 1.9811686277389526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999985718918,
      "compression/movement_sparsity/importance_threshold": -9.268629266867556e-12,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9305747176929464,
      "compression/movement_sparsity/model_sparsity": 0.8986066133575132,
      "compression_loss": 104.97766876220703,
      "distillation_loss": 3.798346996307373,
      "epoch": 5.0,
      "learning_rate": 3.704445835942392e-05,
      "loss": 108.8374,
      "step": 5913,
      "task_loss": 2.233083724975586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999993975168,
      "compression/movement_sparsity/importance_threshold": -3.910202890644587e-12,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9305806678525966,
      "compression/movement_sparsity/model_sparsity": 0.8986123591108747,
      "compression_loss": 104.9768295288086,
      "distillation_loss": 4.093029975891113,
      "epoch": 5.0,
      "learning_rate": 3.7041327489041954e-05,
      "loss": 108.5995,
      "step": 5914,
      "task_loss": 1.9554533958435059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 0.9999999998214865,
      "compression/movement_sparsity/importance_threshold": -1.15857844151801e-12,
      "compression/movement_sparsity/linear_layer_sparsity": 0.9305855090646569,
      "compression/movement_sparsity/model_sparsity": 0.8986170340124073,
      "compression_loss": 104.97590637207031,
      "distillation_loss": 3.8832297325134277,
      "epoch": 5.0,
      "learning_rate": 3.7038196618659986e-05,
      "loss": 108.1315,
      "step": 5915,
      "task_loss": 2.5057430267333984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 9.000826835632324,
      "epoch": 5.0,
      "learning_rate": 3.7035065748278025e-05,
      "loss": 90.0422,
      "step": 5916,
      "task_loss": 3.850513219833374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 5.997817516326904,
      "epoch": 5.0,
      "learning_rate": 3.7031934877896056e-05,
      "loss": 6.9637,
      "step": 5917,
      "task_loss": 3.4759128093719482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 6.3032073974609375,
      "epoch": 5.0,
      "learning_rate": 3.702880400751409e-05,
      "loss": 5.9677,
      "step": 5918,
      "task_loss": 3.2788095474243164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 5.429514408111572,
      "epoch": 5.0,
      "learning_rate": 3.702567313713212e-05,
      "loss": 4.8695,
      "step": 5919,
      "task_loss": 1.5329869985580444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 4.706071376800537,
      "epoch": 5.0,
      "learning_rate": 3.702254226675016e-05,
      "loss": 4.2367,
      "step": 5920,
      "task_loss": 2.9755706787109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 4.352665424346924,
      "epoch": 5.01,
      "learning_rate": 3.701941139636819e-05,
      "loss": 4.5389,
      "step": 5921,
      "task_loss": 1.8469088077545166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 4.477771282196045,
      "epoch": 5.01,
      "learning_rate": 3.701628052598622e-05,
      "loss": 3.4231,
      "step": 5922,
      "task_loss": 2.3364388942718506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.9568328857421875,
      "epoch": 5.01,
      "learning_rate": 3.701314965560426e-05,
      "loss": 3.3357,
      "step": 5923,
      "task_loss": 1.9797382354736328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 4.140225410461426,
      "epoch": 5.01,
      "learning_rate": 3.701001878522229e-05,
      "loss": 3.5332,
      "step": 5924,
      "task_loss": 2.8653242588043213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 3.0301475524902344,
      "epoch": 5.01,
      "learning_rate": 3.7006887914840324e-05,
      "loss": 3.0495,
      "step": 5925,
      "task_loss": 1.6632204055786133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7874016761779785,
      "epoch": 5.01,
      "learning_rate": 3.7003757044458356e-05,
      "loss": 2.8889,
      "step": 5926,
      "task_loss": 0.9640318751335144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.948028087615967,
      "epoch": 5.01,
      "learning_rate": 3.7000626174076394e-05,
      "loss": 2.7324,
      "step": 5927,
      "task_loss": 2.2383995056152344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0992584228515625,
      "epoch": 5.01,
      "learning_rate": 3.6997495303694426e-05,
      "loss": 2.4645,
      "step": 5928,
      "task_loss": 1.2853058576583862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 3.0800678730010986,
      "epoch": 5.01,
      "learning_rate": 3.6994364433312465e-05,
      "loss": 2.266,
      "step": 5929,
      "task_loss": 1.8980129957199097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.3871052265167236,
      "epoch": 5.01,
      "learning_rate": 3.6991233562930497e-05,
      "loss": 2.6891,
      "step": 5930,
      "task_loss": 1.5989551544189453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.231372117996216,
      "epoch": 5.01,
      "learning_rate": 3.6988102692548535e-05,
      "loss": 2.6882,
      "step": 5931,
      "task_loss": 2.4627528190612793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.4644775390625,
      "epoch": 5.01,
      "learning_rate": 3.698497182216657e-05,
      "loss": 2.5585,
      "step": 5932,
      "task_loss": 0.9926791787147522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9256411790847778,
      "epoch": 5.02,
      "learning_rate": 3.69818409517846e-05,
      "loss": 2.2289,
      "step": 5933,
      "task_loss": 0.7596468329429626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 3.1811389923095703,
      "epoch": 5.02,
      "learning_rate": 3.697871008140264e-05,
      "loss": 2.5144,
      "step": 5934,
      "task_loss": 2.554513454437256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.8120813369750977,
      "epoch": 5.02,
      "learning_rate": 3.697557921102067e-05,
      "loss": 2.1219,
      "step": 5935,
      "task_loss": 0.9783168435096741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.399418830871582,
      "epoch": 5.02,
      "learning_rate": 3.69724483406387e-05,
      "loss": 1.9448,
      "step": 5936,
      "task_loss": 0.9865663051605225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.3714680671691895,
      "epoch": 5.02,
      "learning_rate": 3.696931747025673e-05,
      "loss": 1.9862,
      "step": 5937,
      "task_loss": 1.6002672910690308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.4161133766174316,
      "epoch": 5.02,
      "learning_rate": 3.696618659987477e-05,
      "loss": 2.4183,
      "step": 5938,
      "task_loss": 1.8111305236816406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.949773907661438,
      "epoch": 5.02,
      "learning_rate": 3.69630557294928e-05,
      "loss": 2.1504,
      "step": 5939,
      "task_loss": 2.6163156032562256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.1158225536346436,
      "epoch": 5.02,
      "learning_rate": 3.6959924859110835e-05,
      "loss": 2.259,
      "step": 5940,
      "task_loss": 0.9267263412475586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.5204405784606934,
      "epoch": 5.02,
      "learning_rate": 3.6956793988728867e-05,
      "loss": 2.4099,
      "step": 5941,
      "task_loss": 1.7076491117477417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.609302520751953,
      "epoch": 5.02,
      "learning_rate": 3.6953663118346905e-05,
      "loss": 2.2476,
      "step": 5942,
      "task_loss": 1.96578049659729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9356658458709717,
      "epoch": 5.02,
      "learning_rate": 3.695053224796494e-05,
      "loss": 2.045,
      "step": 5943,
      "task_loss": 0.9752883911132812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9122169017791748,
      "epoch": 5.02,
      "learning_rate": 3.694740137758297e-05,
      "loss": 2.3798,
      "step": 5944,
      "task_loss": 1.2333855628967285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.4048056602478027,
      "epoch": 5.03,
      "learning_rate": 3.6944270507201e-05,
      "loss": 2.5255,
      "step": 5945,
      "task_loss": 1.2122989892959595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.123961091041565,
      "epoch": 5.03,
      "learning_rate": 3.694113963681904e-05,
      "loss": 1.497,
      "step": 5946,
      "task_loss": 0.5156141519546509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7284070253372192,
      "epoch": 5.03,
      "learning_rate": 3.693800876643707e-05,
      "loss": 2.0039,
      "step": 5947,
      "task_loss": 0.5543457865715027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.440006732940674,
      "epoch": 5.03,
      "learning_rate": 3.69348778960551e-05,
      "loss": 1.8492,
      "step": 5948,
      "task_loss": 1.9144911766052246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.417327880859375,
      "epoch": 5.03,
      "learning_rate": 3.693174702567314e-05,
      "loss": 2.2107,
      "step": 5949,
      "task_loss": 0.9075900912284851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 3.22514009475708,
      "epoch": 5.03,
      "learning_rate": 3.692861615529117e-05,
      "loss": 1.9141,
      "step": 5950,
      "task_loss": 2.153141975402832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7346683740615845,
      "epoch": 5.03,
      "learning_rate": 3.6925485284909205e-05,
      "loss": 2.0249,
      "step": 5951,
      "task_loss": 1.7719463109970093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.2246463298797607,
      "epoch": 5.03,
      "learning_rate": 3.6922354414527236e-05,
      "loss": 1.7283,
      "step": 5952,
      "task_loss": 1.9073352813720703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8003265857696533,
      "epoch": 5.03,
      "learning_rate": 3.6919223544145275e-05,
      "loss": 1.6944,
      "step": 5953,
      "task_loss": 1.5720432996749878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.1229920387268066,
      "epoch": 5.03,
      "learning_rate": 3.691609267376331e-05,
      "loss": 1.7314,
      "step": 5954,
      "task_loss": 1.081828236579895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.222240924835205,
      "epoch": 5.03,
      "learning_rate": 3.691296180338134e-05,
      "loss": 1.8864,
      "step": 5955,
      "task_loss": 1.7379320859909058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.202996253967285,
      "epoch": 5.03,
      "learning_rate": 3.690983093299937e-05,
      "loss": 2.1104,
      "step": 5956,
      "task_loss": 1.7596657276153564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.306777000427246,
      "epoch": 5.04,
      "learning_rate": 3.690670006261741e-05,
      "loss": 1.7663,
      "step": 5957,
      "task_loss": 0.9345565438270569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.605772614479065,
      "epoch": 5.04,
      "learning_rate": 3.690356919223544e-05,
      "loss": 2.1022,
      "step": 5958,
      "task_loss": 2.3774261474609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.173579692840576,
      "epoch": 5.04,
      "learning_rate": 3.690043832185347e-05,
      "loss": 2.6815,
      "step": 5959,
      "task_loss": 2.218050003051758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.746980905532837,
      "epoch": 5.04,
      "learning_rate": 3.689730745147151e-05,
      "loss": 1.6944,
      "step": 5960,
      "task_loss": 1.2658509016036987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5376797914505005,
      "epoch": 5.04,
      "learning_rate": 3.689417658108954e-05,
      "loss": 1.9987,
      "step": 5961,
      "task_loss": 0.4516722559928894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6917290687561035,
      "epoch": 5.04,
      "learning_rate": 3.689104571070758e-05,
      "loss": 2.0703,
      "step": 5962,
      "task_loss": 0.6651500463485718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7132363319396973,
      "epoch": 5.04,
      "learning_rate": 3.688791484032561e-05,
      "loss": 2.1628,
      "step": 5963,
      "task_loss": 1.764732003211975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9585083723068237,
      "epoch": 5.04,
      "learning_rate": 3.6884783969943645e-05,
      "loss": 1.5841,
      "step": 5964,
      "task_loss": 1.1662193536758423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.213394045829773,
      "epoch": 5.04,
      "learning_rate": 3.6881653099561683e-05,
      "loss": 1.5147,
      "step": 5965,
      "task_loss": 1.3309000730514526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7660572528839111,
      "epoch": 5.04,
      "learning_rate": 3.6878522229179715e-05,
      "loss": 2.1006,
      "step": 5966,
      "task_loss": 0.8854557275772095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7952508926391602,
      "epoch": 5.04,
      "learning_rate": 3.687539135879775e-05,
      "loss": 1.7339,
      "step": 5967,
      "task_loss": 1.0924453735351562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.467158317565918,
      "epoch": 5.04,
      "learning_rate": 3.6872260488415786e-05,
      "loss": 1.9528,
      "step": 5968,
      "task_loss": 1.750985860824585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.5437986850738525,
      "epoch": 5.05,
      "learning_rate": 3.686912961803382e-05,
      "loss": 1.7642,
      "step": 5969,
      "task_loss": 2.318575620651245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8282569646835327,
      "epoch": 5.05,
      "learning_rate": 3.686599874765185e-05,
      "loss": 1.7379,
      "step": 5970,
      "task_loss": 1.550215482711792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8546302318572998,
      "epoch": 5.05,
      "learning_rate": 3.686286787726989e-05,
      "loss": 1.653,
      "step": 5971,
      "task_loss": 1.4718409776687622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.1863625049591064,
      "epoch": 5.05,
      "learning_rate": 3.685973700688792e-05,
      "loss": 1.9743,
      "step": 5972,
      "task_loss": 1.917562484741211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4061282873153687,
      "epoch": 5.05,
      "learning_rate": 3.685660613650595e-05,
      "loss": 1.4838,
      "step": 5973,
      "task_loss": 0.7856062054634094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8904027938842773,
      "epoch": 5.05,
      "learning_rate": 3.685347526612398e-05,
      "loss": 2.1134,
      "step": 5974,
      "task_loss": 1.411091685295105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.1201744079589844,
      "epoch": 5.05,
      "learning_rate": 3.685034439574202e-05,
      "loss": 1.7033,
      "step": 5975,
      "task_loss": 0.8142039179801941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9026157855987549,
      "epoch": 5.05,
      "learning_rate": 3.6847213525360053e-05,
      "loss": 1.5803,
      "step": 5976,
      "task_loss": 2.0806117057800293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.2868051528930664,
      "epoch": 5.05,
      "learning_rate": 3.6844082654978085e-05,
      "loss": 1.839,
      "step": 5977,
      "task_loss": 2.077691078186035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3912049531936646,
      "epoch": 5.05,
      "learning_rate": 3.684095178459612e-05,
      "loss": 1.7276,
      "step": 5978,
      "task_loss": 0.7529770731925964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6635133028030396,
      "epoch": 5.05,
      "learning_rate": 3.6837820914214156e-05,
      "loss": 1.6024,
      "step": 5979,
      "task_loss": 0.9368799924850464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1554813385009766,
      "epoch": 5.05,
      "learning_rate": 3.683469004383219e-05,
      "loss": 1.2934,
      "step": 5980,
      "task_loss": 0.8032420873641968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.3139145374298096,
      "epoch": 5.06,
      "learning_rate": 3.683155917345022e-05,
      "loss": 1.7192,
      "step": 5981,
      "task_loss": 1.5404441356658936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.061272382736206,
      "epoch": 5.06,
      "learning_rate": 3.682842830306825e-05,
      "loss": 1.8044,
      "step": 5982,
      "task_loss": 1.0391591787338257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2766306400299072,
      "epoch": 5.06,
      "learning_rate": 3.682529743268629e-05,
      "loss": 1.2582,
      "step": 5983,
      "task_loss": 0.45615658164024353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9375619888305664,
      "epoch": 5.06,
      "learning_rate": 3.682216656230432e-05,
      "loss": 1.9791,
      "step": 5984,
      "task_loss": 1.0698951482772827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9789780378341675,
      "epoch": 5.06,
      "learning_rate": 3.681903569192235e-05,
      "loss": 1.4356,
      "step": 5985,
      "task_loss": 1.067476749420166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6734176874160767,
      "epoch": 5.06,
      "learning_rate": 3.681590482154039e-05,
      "loss": 1.37,
      "step": 5986,
      "task_loss": 1.337386131286621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.28910493850708,
      "epoch": 5.06,
      "learning_rate": 3.681277395115842e-05,
      "loss": 1.8298,
      "step": 5987,
      "task_loss": 2.060173988342285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2183783054351807,
      "epoch": 5.06,
      "learning_rate": 3.6809643080776455e-05,
      "loss": 1.4865,
      "step": 5988,
      "task_loss": 1.1408032178878784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.578479290008545,
      "epoch": 5.06,
      "learning_rate": 3.680651221039449e-05,
      "loss": 1.6176,
      "step": 5989,
      "task_loss": 1.6124451160430908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0004606246948242,
      "epoch": 5.06,
      "learning_rate": 3.6803381340012525e-05,
      "loss": 1.5837,
      "step": 5990,
      "task_loss": 0.6709921360015869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4867041110992432,
      "epoch": 5.06,
      "learning_rate": 3.680025046963056e-05,
      "loss": 1.8379,
      "step": 5991,
      "task_loss": 2.1278719902038574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9536556601524353,
      "epoch": 5.07,
      "learning_rate": 3.679711959924859e-05,
      "loss": 1.4091,
      "step": 5992,
      "task_loss": 0.340570867061615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.814920425415039,
      "epoch": 5.07,
      "learning_rate": 3.679398872886662e-05,
      "loss": 1.7588,
      "step": 5993,
      "task_loss": 1.7739384174346924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9559295177459717,
      "epoch": 5.07,
      "learning_rate": 3.679085785848466e-05,
      "loss": 1.4324,
      "step": 5994,
      "task_loss": 1.4366692304611206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6477056741714478,
      "epoch": 5.07,
      "learning_rate": 3.678772698810269e-05,
      "loss": 1.6622,
      "step": 5995,
      "task_loss": 1.6348475217819214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5722053050994873,
      "epoch": 5.07,
      "learning_rate": 3.678459611772073e-05,
      "loss": 1.734,
      "step": 5996,
      "task_loss": 1.2362687587738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7015202045440674,
      "epoch": 5.07,
      "learning_rate": 3.678146524733876e-05,
      "loss": 1.4745,
      "step": 5997,
      "task_loss": 1.5282188653945923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7679411172866821,
      "epoch": 5.07,
      "learning_rate": 3.67783343769568e-05,
      "loss": 1.5284,
      "step": 5998,
      "task_loss": 0.8445683717727661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.754122257232666,
      "epoch": 5.07,
      "learning_rate": 3.677520350657483e-05,
      "loss": 1.4825,
      "step": 5999,
      "task_loss": 1.0538872480392456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9628117084503174,
      "epoch": 5.07,
      "learning_rate": 3.6772072636192864e-05,
      "loss": 1.8028,
      "step": 6000,
      "task_loss": 1.0165584087371826
    },
    {
      "epoch": 5.07,
      "eval_accuracy": 0.8178613861386138,
      "eval_loss": 1.0960134267807007,
      "eval_runtime": 207.7018,
      "eval_samples_per_second": 121.569,
      "eval_steps_per_second": 0.953,
      "step": 6000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6523845195770264,
      "epoch": 5.07,
      "learning_rate": 3.67689417658109e-05,
      "loss": 1.4472,
      "step": 6001,
      "task_loss": 1.808275580406189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.838679552078247,
      "epoch": 5.07,
      "learning_rate": 3.6765810895428934e-05,
      "loss": 2.1218,
      "step": 6002,
      "task_loss": 1.855918526649475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.214550018310547,
      "epoch": 5.07,
      "learning_rate": 3.6762680025046966e-05,
      "loss": 1.499,
      "step": 6003,
      "task_loss": 1.545353651046753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9415740966796875,
      "epoch": 5.08,
      "learning_rate": 3.6759549154665e-05,
      "loss": 1.6119,
      "step": 6004,
      "task_loss": 1.5009706020355225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0637869834899902,
      "epoch": 5.08,
      "learning_rate": 3.6756418284283036e-05,
      "loss": 1.3529,
      "step": 6005,
      "task_loss": 1.0170619487762451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5663542747497559,
      "epoch": 5.08,
      "learning_rate": 3.675328741390107e-05,
      "loss": 1.3602,
      "step": 6006,
      "task_loss": 1.2244681119918823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.200021505355835,
      "epoch": 5.08,
      "learning_rate": 3.67501565435191e-05,
      "loss": 1.2983,
      "step": 6007,
      "task_loss": 1.0255045890808105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6236199140548706,
      "epoch": 5.08,
      "learning_rate": 3.674702567313714e-05,
      "loss": 1.6156,
      "step": 6008,
      "task_loss": 1.3306267261505127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0778517723083496,
      "epoch": 5.08,
      "learning_rate": 3.674389480275517e-05,
      "loss": 1.5484,
      "step": 6009,
      "task_loss": 1.3374556303024292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0541187524795532,
      "epoch": 5.08,
      "learning_rate": 3.67407639323732e-05,
      "loss": 1.5415,
      "step": 6010,
      "task_loss": 0.6332448124885559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0979843139648438,
      "epoch": 5.08,
      "learning_rate": 3.6737633061991233e-05,
      "loss": 1.7573,
      "step": 6011,
      "task_loss": 1.933428406715393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7017626762390137,
      "epoch": 5.08,
      "learning_rate": 3.673450219160927e-05,
      "loss": 1.6169,
      "step": 6012,
      "task_loss": 1.3782187700271606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.6085729598999023,
      "epoch": 5.08,
      "learning_rate": 3.6731371321227304e-05,
      "loss": 1.7749,
      "step": 6013,
      "task_loss": 2.632516860961914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.057474374771118,
      "epoch": 5.08,
      "learning_rate": 3.6728240450845336e-05,
      "loss": 1.5496,
      "step": 6014,
      "task_loss": 1.130401611328125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.78172767162323,
      "epoch": 5.08,
      "learning_rate": 3.672510958046337e-05,
      "loss": 1.8263,
      "step": 6015,
      "task_loss": 0.8669301271438599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2942357063293457,
      "epoch": 5.09,
      "learning_rate": 3.6721978710081406e-05,
      "loss": 1.5423,
      "step": 6016,
      "task_loss": 1.8826055526733398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.2126517295837402,
      "epoch": 5.09,
      "learning_rate": 3.671884783969944e-05,
      "loss": 1.9687,
      "step": 6017,
      "task_loss": 1.4537452459335327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.379738211631775,
      "epoch": 5.09,
      "learning_rate": 3.671571696931747e-05,
      "loss": 1.5038,
      "step": 6018,
      "task_loss": 1.226047396659851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7885830402374268,
      "epoch": 5.09,
      "learning_rate": 3.671258609893551e-05,
      "loss": 1.3329,
      "step": 6019,
      "task_loss": 0.49756959080696106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3430421352386475,
      "epoch": 5.09,
      "learning_rate": 3.670945522855354e-05,
      "loss": 1.5537,
      "step": 6020,
      "task_loss": 0.7341465950012207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0137717723846436,
      "epoch": 5.09,
      "learning_rate": 3.670632435817157e-05,
      "loss": 1.6651,
      "step": 6021,
      "task_loss": 2.3463075160980225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9903634786605835,
      "epoch": 5.09,
      "learning_rate": 3.6703193487789603e-05,
      "loss": 1.777,
      "step": 6022,
      "task_loss": 1.1965830326080322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6544281244277954,
      "epoch": 5.09,
      "learning_rate": 3.670006261740764e-05,
      "loss": 1.5786,
      "step": 6023,
      "task_loss": 1.7827749252319336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1703182458877563,
      "epoch": 5.09,
      "learning_rate": 3.6696931747025674e-05,
      "loss": 1.3544,
      "step": 6024,
      "task_loss": 0.5278299450874329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0364441871643066,
      "epoch": 5.09,
      "learning_rate": 3.6693800876643706e-05,
      "loss": 1.3531,
      "step": 6025,
      "task_loss": 2.153074264526367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0061378479003906,
      "epoch": 5.09,
      "learning_rate": 3.669067000626174e-05,
      "loss": 1.6563,
      "step": 6026,
      "task_loss": 1.102484941482544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8499491214752197,
      "epoch": 5.09,
      "learning_rate": 3.6687539135879776e-05,
      "loss": 1.479,
      "step": 6027,
      "task_loss": 1.3090089559555054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5169695615768433,
      "epoch": 5.1,
      "learning_rate": 3.668440826549781e-05,
      "loss": 1.5775,
      "step": 6028,
      "task_loss": 1.8864103555679321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6625351905822754,
      "epoch": 5.1,
      "learning_rate": 3.668127739511584e-05,
      "loss": 1.7378,
      "step": 6029,
      "task_loss": 0.9808271527290344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1402636766433716,
      "epoch": 5.1,
      "learning_rate": 3.667814652473388e-05,
      "loss": 1.4421,
      "step": 6030,
      "task_loss": 1.6643121242523193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9662770628929138,
      "epoch": 5.1,
      "learning_rate": 3.667501565435191e-05,
      "loss": 1.1957,
      "step": 6031,
      "task_loss": 0.8123306632041931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9677282571792603,
      "epoch": 5.1,
      "learning_rate": 3.667188478396995e-05,
      "loss": 1.4333,
      "step": 6032,
      "task_loss": 1.3732589483261108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9190096855163574,
      "epoch": 5.1,
      "learning_rate": 3.666875391358798e-05,
      "loss": 1.6426,
      "step": 6033,
      "task_loss": 0.8639971613883972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9879666566848755,
      "epoch": 5.1,
      "learning_rate": 3.666562304320602e-05,
      "loss": 1.0838,
      "step": 6034,
      "task_loss": 0.8072118163108826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8992698788642883,
      "epoch": 5.1,
      "learning_rate": 3.666249217282405e-05,
      "loss": 1.4834,
      "step": 6035,
      "task_loss": 0.3369576930999756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2346242666244507,
      "epoch": 5.1,
      "learning_rate": 3.665936130244208e-05,
      "loss": 1.3303,
      "step": 6036,
      "task_loss": 1.1526074409484863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.700272560119629,
      "epoch": 5.1,
      "learning_rate": 3.6656230432060114e-05,
      "loss": 1.3917,
      "step": 6037,
      "task_loss": 0.8953315615653992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.238112211227417,
      "epoch": 5.1,
      "learning_rate": 3.665309956167815e-05,
      "loss": 1.3462,
      "step": 6038,
      "task_loss": 1.3071163892745972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9652623534202576,
      "epoch": 5.1,
      "learning_rate": 3.6649968691296184e-05,
      "loss": 1.3393,
      "step": 6039,
      "task_loss": 1.3994866609573364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.234447956085205,
      "epoch": 5.11,
      "learning_rate": 3.6646837820914216e-05,
      "loss": 1.0473,
      "step": 6040,
      "task_loss": 1.4961812496185303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4927879571914673,
      "epoch": 5.11,
      "learning_rate": 3.664370695053225e-05,
      "loss": 1.5,
      "step": 6041,
      "task_loss": 0.7423383593559265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.2933192253112793,
      "epoch": 5.11,
      "learning_rate": 3.6640576080150286e-05,
      "loss": 1.8012,
      "step": 6042,
      "task_loss": 1.65071702003479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8601855039596558,
      "epoch": 5.11,
      "learning_rate": 3.663744520976832e-05,
      "loss": 1.6141,
      "step": 6043,
      "task_loss": 0.5284629464149475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8594944477081299,
      "epoch": 5.11,
      "learning_rate": 3.663431433938635e-05,
      "loss": 1.8594,
      "step": 6044,
      "task_loss": 1.6446025371551514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6238431930541992,
      "epoch": 5.11,
      "learning_rate": 3.663118346900439e-05,
      "loss": 1.5368,
      "step": 6045,
      "task_loss": 0.9025294184684753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0207973718643188,
      "epoch": 5.11,
      "learning_rate": 3.662805259862242e-05,
      "loss": 1.4353,
      "step": 6046,
      "task_loss": 1.7087682485580444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3068840503692627,
      "epoch": 5.11,
      "learning_rate": 3.662492172824045e-05,
      "loss": 1.5365,
      "step": 6047,
      "task_loss": 0.8572789430618286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.44142484664917,
      "epoch": 5.11,
      "learning_rate": 3.6621790857858484e-05,
      "loss": 1.4812,
      "step": 6048,
      "task_loss": 0.9783939719200134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4646228551864624,
      "epoch": 5.11,
      "learning_rate": 3.661865998747652e-05,
      "loss": 1.4726,
      "step": 6049,
      "task_loss": 1.3746429681777954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5482678413391113,
      "epoch": 5.11,
      "learning_rate": 3.6615529117094554e-05,
      "loss": 1.4632,
      "step": 6050,
      "task_loss": 1.2443714141845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.821457862854004,
      "epoch": 5.11,
      "learning_rate": 3.6612398246712586e-05,
      "loss": 1.6107,
      "step": 6051,
      "task_loss": 1.4731169939041138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.14410400390625,
      "epoch": 5.12,
      "learning_rate": 3.660926737633062e-05,
      "loss": 1.3619,
      "step": 6052,
      "task_loss": 1.25746750831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.029381275177002,
      "epoch": 5.12,
      "learning_rate": 3.6606136505948656e-05,
      "loss": 1.2983,
      "step": 6053,
      "task_loss": 1.4755830764770508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9186090230941772,
      "epoch": 5.12,
      "learning_rate": 3.660300563556669e-05,
      "loss": 1.3888,
      "step": 6054,
      "task_loss": 1.8502864837646484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.962740421295166,
      "epoch": 5.12,
      "learning_rate": 3.659987476518472e-05,
      "loss": 1.5138,
      "step": 6055,
      "task_loss": 1.620478868484497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9987142086029053,
      "epoch": 5.12,
      "learning_rate": 3.659674389480276e-05,
      "loss": 1.3749,
      "step": 6056,
      "task_loss": 0.7368186712265015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.570122718811035,
      "epoch": 5.12,
      "learning_rate": 3.659361302442079e-05,
      "loss": 1.6741,
      "step": 6057,
      "task_loss": 1.9157252311706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1776857376098633,
      "epoch": 5.12,
      "learning_rate": 3.659048215403882e-05,
      "loss": 1.3756,
      "step": 6058,
      "task_loss": 1.2139581441879272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3253580331802368,
      "epoch": 5.12,
      "learning_rate": 3.6587351283656854e-05,
      "loss": 1.3592,
      "step": 6059,
      "task_loss": 1.5181820392608643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.517677664756775,
      "epoch": 5.12,
      "learning_rate": 3.658422041327489e-05,
      "loss": 1.5278,
      "step": 6060,
      "task_loss": 0.5217088460922241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2481828927993774,
      "epoch": 5.12,
      "learning_rate": 3.6581089542892924e-05,
      "loss": 1.5011,
      "step": 6061,
      "task_loss": 1.7071433067321777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1698055267333984,
      "epoch": 5.12,
      "learning_rate": 3.6577958672510956e-05,
      "loss": 0.9664,
      "step": 6062,
      "task_loss": 0.6245997548103333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0523216724395752,
      "epoch": 5.13,
      "learning_rate": 3.6574827802128995e-05,
      "loss": 1.1251,
      "step": 6063,
      "task_loss": 0.4606989026069641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2589434385299683,
      "epoch": 5.13,
      "learning_rate": 3.6571696931747026e-05,
      "loss": 1.4038,
      "step": 6064,
      "task_loss": 0.6535540223121643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.092182159423828,
      "epoch": 5.13,
      "learning_rate": 3.6568566061365065e-05,
      "loss": 1.2733,
      "step": 6065,
      "task_loss": 1.222464919090271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.502394199371338,
      "epoch": 5.13,
      "learning_rate": 3.65654351909831e-05,
      "loss": 1.5295,
      "step": 6066,
      "task_loss": 1.335970401763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4826412200927734,
      "epoch": 5.13,
      "learning_rate": 3.656230432060113e-05,
      "loss": 1.6997,
      "step": 6067,
      "task_loss": 1.4730424880981445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.640082061290741,
      "epoch": 5.13,
      "learning_rate": 3.655917345021917e-05,
      "loss": 1.2961,
      "step": 6068,
      "task_loss": 0.873726487159729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4122364521026611,
      "epoch": 5.13,
      "learning_rate": 3.65560425798372e-05,
      "loss": 1.4451,
      "step": 6069,
      "task_loss": 0.9408376216888428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.295285701751709,
      "epoch": 5.13,
      "learning_rate": 3.655291170945523e-05,
      "loss": 1.7018,
      "step": 6070,
      "task_loss": 1.5292812585830688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6588457822799683,
      "epoch": 5.13,
      "learning_rate": 3.654978083907327e-05,
      "loss": 1.6356,
      "step": 6071,
      "task_loss": 2.3951594829559326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.46422278881073,
      "epoch": 5.13,
      "learning_rate": 3.65466499686913e-05,
      "loss": 1.6475,
      "step": 6072,
      "task_loss": 1.712710976600647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.087580919265747,
      "epoch": 5.13,
      "learning_rate": 3.654351909830933e-05,
      "loss": 1.1927,
      "step": 6073,
      "task_loss": 0.18028557300567627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5609101057052612,
      "epoch": 5.13,
      "learning_rate": 3.6540388227927364e-05,
      "loss": 1.4121,
      "step": 6074,
      "task_loss": 0.674487829208374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7105937004089355,
      "epoch": 5.14,
      "learning_rate": 3.65372573575454e-05,
      "loss": 1.6557,
      "step": 6075,
      "task_loss": 1.3429621458053589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3105881214141846,
      "epoch": 5.14,
      "learning_rate": 3.6534126487163435e-05,
      "loss": 1.4829,
      "step": 6076,
      "task_loss": 1.4961820840835571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9168694019317627,
      "epoch": 5.14,
      "learning_rate": 3.6530995616781467e-05,
      "loss": 1.2917,
      "step": 6077,
      "task_loss": 2.2581276893615723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.701941728591919,
      "epoch": 5.14,
      "learning_rate": 3.65278647463995e-05,
      "loss": 1.7306,
      "step": 6078,
      "task_loss": 1.4787929058074951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.123155951499939,
      "epoch": 5.14,
      "learning_rate": 3.652473387601754e-05,
      "loss": 1.2781,
      "step": 6079,
      "task_loss": 1.224151611328125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9255150556564331,
      "epoch": 5.14,
      "learning_rate": 3.652160300563557e-05,
      "loss": 1.1759,
      "step": 6080,
      "task_loss": 0.8801817297935486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8573801517486572,
      "epoch": 5.14,
      "learning_rate": 3.65184721352536e-05,
      "loss": 1.3476,
      "step": 6081,
      "task_loss": 0.21912872791290283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3999049663543701,
      "epoch": 5.14,
      "learning_rate": 3.651534126487164e-05,
      "loss": 1.5657,
      "step": 6082,
      "task_loss": 0.7489321231842041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4704902172088623,
      "epoch": 5.14,
      "learning_rate": 3.651221039448967e-05,
      "loss": 1.4971,
      "step": 6083,
      "task_loss": 1.1352827548980713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3071929216384888,
      "epoch": 5.14,
      "learning_rate": 3.65090795241077e-05,
      "loss": 1.2924,
      "step": 6084,
      "task_loss": 0.7165845036506653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.633870244026184,
      "epoch": 5.14,
      "learning_rate": 3.6505948653725734e-05,
      "loss": 1.6418,
      "step": 6085,
      "task_loss": 1.5376369953155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.1209726333618164,
      "epoch": 5.14,
      "learning_rate": 3.650281778334377e-05,
      "loss": 1.7705,
      "step": 6086,
      "task_loss": 1.0720608234405518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.118126392364502,
      "epoch": 5.15,
      "learning_rate": 3.6499686912961805e-05,
      "loss": 1.5132,
      "step": 6087,
      "task_loss": 1.0939449071884155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3653086423873901,
      "epoch": 5.15,
      "learning_rate": 3.6496556042579837e-05,
      "loss": 1.5177,
      "step": 6088,
      "task_loss": 0.5802086591720581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7642743587493896,
      "epoch": 5.15,
      "learning_rate": 3.649342517219787e-05,
      "loss": 1.1883,
      "step": 6089,
      "task_loss": 1.3531285524368286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0984039306640625,
      "epoch": 5.15,
      "learning_rate": 3.649029430181591e-05,
      "loss": 1.5588,
      "step": 6090,
      "task_loss": 1.7439521551132202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4954197406768799,
      "epoch": 5.15,
      "learning_rate": 3.648716343143394e-05,
      "loss": 1.2412,
      "step": 6091,
      "task_loss": 1.1622594594955444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.10504412651062,
      "epoch": 5.15,
      "learning_rate": 3.648403256105197e-05,
      "loss": 1.4554,
      "step": 6092,
      "task_loss": 1.384721279144287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4515087604522705,
      "epoch": 5.15,
      "learning_rate": 3.648090169067001e-05,
      "loss": 1.4268,
      "step": 6093,
      "task_loss": 1.4543139934539795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.143892765045166,
      "epoch": 5.15,
      "learning_rate": 3.647777082028804e-05,
      "loss": 1.2424,
      "step": 6094,
      "task_loss": 0.7920064330101013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5636687278747559,
      "epoch": 5.15,
      "learning_rate": 3.647463994990607e-05,
      "loss": 1.3081,
      "step": 6095,
      "task_loss": 1.1872886419296265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3452047109603882,
      "epoch": 5.15,
      "learning_rate": 3.6471509079524104e-05,
      "loss": 1.6726,
      "step": 6096,
      "task_loss": 1.7042359113693237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.365617275238037,
      "epoch": 5.15,
      "learning_rate": 3.646837820914214e-05,
      "loss": 1.2937,
      "step": 6097,
      "task_loss": 1.023611068725586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1313706636428833,
      "epoch": 5.15,
      "learning_rate": 3.6465247338760175e-05,
      "loss": 1.3105,
      "step": 6098,
      "task_loss": 1.8356813192367554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8160462379455566,
      "epoch": 5.16,
      "learning_rate": 3.646211646837821e-05,
      "loss": 1.4275,
      "step": 6099,
      "task_loss": 1.5652230978012085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.457406759262085,
      "epoch": 5.16,
      "learning_rate": 3.6458985597996245e-05,
      "loss": 1.6588,
      "step": 6100,
      "task_loss": 0.5557131171226501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6661267280578613,
      "epoch": 5.16,
      "learning_rate": 3.6455854727614284e-05,
      "loss": 1.5028,
      "step": 6101,
      "task_loss": 3.6507017612457275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6910134553909302,
      "epoch": 5.16,
      "learning_rate": 3.6452723857232315e-05,
      "loss": 1.1237,
      "step": 6102,
      "task_loss": 0.19734066724777222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.771165370941162,
      "epoch": 5.16,
      "learning_rate": 3.644959298685035e-05,
      "loss": 1.3202,
      "step": 6103,
      "task_loss": 0.7856285572052002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.580336570739746,
      "epoch": 5.16,
      "learning_rate": 3.644646211646838e-05,
      "loss": 1.2018,
      "step": 6104,
      "task_loss": 0.8775936365127563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1935255527496338,
      "epoch": 5.16,
      "learning_rate": 3.644333124608642e-05,
      "loss": 1.2751,
      "step": 6105,
      "task_loss": 0.5245146155357361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6143630743026733,
      "epoch": 5.16,
      "learning_rate": 3.644020037570445e-05,
      "loss": 1.1912,
      "step": 6106,
      "task_loss": 1.21666419506073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7414246201515198,
      "epoch": 5.16,
      "learning_rate": 3.643706950532248e-05,
      "loss": 1.3746,
      "step": 6107,
      "task_loss": 1.0092713832855225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7172352075576782,
      "epoch": 5.16,
      "learning_rate": 3.643393863494052e-05,
      "loss": 1.1246,
      "step": 6108,
      "task_loss": 0.6863077282905579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9939789772033691,
      "epoch": 5.16,
      "learning_rate": 3.643080776455855e-05,
      "loss": 1.1449,
      "step": 6109,
      "task_loss": 1.1528769731521606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0707781314849854,
      "epoch": 5.16,
      "learning_rate": 3.642767689417658e-05,
      "loss": 1.5155,
      "step": 6110,
      "task_loss": 1.2563642263412476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.156301498413086,
      "epoch": 5.17,
      "learning_rate": 3.6424546023794615e-05,
      "loss": 1.6419,
      "step": 6111,
      "task_loss": 1.617692470550537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.679142951965332,
      "epoch": 5.17,
      "learning_rate": 3.6421415153412653e-05,
      "loss": 1.4122,
      "step": 6112,
      "task_loss": 1.101264238357544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.34159517288208,
      "epoch": 5.17,
      "learning_rate": 3.6418284283030685e-05,
      "loss": 1.3815,
      "step": 6113,
      "task_loss": 1.0210744142532349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2611744403839111,
      "epoch": 5.17,
      "learning_rate": 3.641515341264872e-05,
      "loss": 1.549,
      "step": 6114,
      "task_loss": 0.9049245715141296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3253756761550903,
      "epoch": 5.17,
      "learning_rate": 3.641202254226675e-05,
      "loss": 1.5636,
      "step": 6115,
      "task_loss": 1.0267633199691772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0691472291946411,
      "epoch": 5.17,
      "learning_rate": 3.640889167188479e-05,
      "loss": 1.3828,
      "step": 6116,
      "task_loss": 0.6659682393074036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9444923400878906,
      "epoch": 5.17,
      "learning_rate": 3.640576080150282e-05,
      "loss": 1.1508,
      "step": 6117,
      "task_loss": 0.22833162546157837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9052455425262451,
      "epoch": 5.17,
      "learning_rate": 3.640262993112085e-05,
      "loss": 1.5262,
      "step": 6118,
      "task_loss": 1.7748912572860718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.3852038383483887,
      "epoch": 5.17,
      "learning_rate": 3.639949906073889e-05,
      "loss": 1.4357,
      "step": 6119,
      "task_loss": 1.3489131927490234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.828330397605896,
      "epoch": 5.17,
      "learning_rate": 3.639636819035692e-05,
      "loss": 1.1421,
      "step": 6120,
      "task_loss": 0.6403317451477051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.872029423713684,
      "epoch": 5.17,
      "learning_rate": 3.639323731997495e-05,
      "loss": 1.5739,
      "step": 6121,
      "task_loss": 1.9415736198425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7881554961204529,
      "epoch": 5.17,
      "learning_rate": 3.6390106449592985e-05,
      "loss": 1.2446,
      "step": 6122,
      "task_loss": 0.6851750016212463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2687032222747803,
      "epoch": 5.18,
      "learning_rate": 3.638697557921102e-05,
      "loss": 1.3473,
      "step": 6123,
      "task_loss": 1.1219964027404785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7864205241203308,
      "epoch": 5.18,
      "learning_rate": 3.6383844708829055e-05,
      "loss": 1.1139,
      "step": 6124,
      "task_loss": 1.0692418813705444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.466882586479187,
      "epoch": 5.18,
      "learning_rate": 3.638071383844709e-05,
      "loss": 1.3676,
      "step": 6125,
      "task_loss": 0.9591256380081177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.3839774131774902,
      "epoch": 5.18,
      "learning_rate": 3.637758296806512e-05,
      "loss": 1.4479,
      "step": 6126,
      "task_loss": 1.3639037609100342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6754485368728638,
      "epoch": 5.18,
      "learning_rate": 3.637445209768316e-05,
      "loss": 1.5076,
      "step": 6127,
      "task_loss": 0.5004161596298218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7314077615737915,
      "epoch": 5.18,
      "learning_rate": 3.637132122730119e-05,
      "loss": 1.8356,
      "step": 6128,
      "task_loss": 0.8442422151565552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8581748008728027,
      "epoch": 5.18,
      "learning_rate": 3.636819035691922e-05,
      "loss": 1.3479,
      "step": 6129,
      "task_loss": 0.5146194100379944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2280867099761963,
      "epoch": 5.18,
      "learning_rate": 3.636505948653726e-05,
      "loss": 1.2499,
      "step": 6130,
      "task_loss": 1.0800772905349731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9497032761573792,
      "epoch": 5.18,
      "learning_rate": 3.636192861615529e-05,
      "loss": 1.3204,
      "step": 6131,
      "task_loss": 1.0427738428115845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2686192989349365,
      "epoch": 5.18,
      "learning_rate": 3.635879774577333e-05,
      "loss": 1.164,
      "step": 6132,
      "task_loss": 1.0744878053665161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0135504007339478,
      "epoch": 5.18,
      "learning_rate": 3.635566687539136e-05,
      "loss": 1.0919,
      "step": 6133,
      "task_loss": 0.5231415033340454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0223939418792725,
      "epoch": 5.19,
      "learning_rate": 3.635253600500939e-05,
      "loss": 1.3904,
      "step": 6134,
      "task_loss": 1.8189412355422974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2494484186172485,
      "epoch": 5.19,
      "learning_rate": 3.634940513462743e-05,
      "loss": 1.2841,
      "step": 6135,
      "task_loss": 0.5491918325424194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.098093032836914,
      "epoch": 5.19,
      "learning_rate": 3.6346274264245464e-05,
      "loss": 1.0822,
      "step": 6136,
      "task_loss": 1.1762385368347168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.858355164527893,
      "epoch": 5.19,
      "learning_rate": 3.6343143393863495e-05,
      "loss": 1.4037,
      "step": 6137,
      "task_loss": 2.118990898132324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7735649347305298,
      "epoch": 5.19,
      "learning_rate": 3.6340012523481534e-05,
      "loss": 1.3351,
      "step": 6138,
      "task_loss": 1.5209455490112305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.850955605506897,
      "epoch": 5.19,
      "learning_rate": 3.6336881653099566e-05,
      "loss": 1.4592,
      "step": 6139,
      "task_loss": 0.640375554561615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.386589765548706,
      "epoch": 5.19,
      "learning_rate": 3.63337507827176e-05,
      "loss": 1.2074,
      "step": 6140,
      "task_loss": 0.6136994361877441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7672364711761475,
      "epoch": 5.19,
      "learning_rate": 3.633061991233563e-05,
      "loss": 1.1906,
      "step": 6141,
      "task_loss": 1.8067741394042969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7080194354057312,
      "epoch": 5.19,
      "learning_rate": 3.632748904195367e-05,
      "loss": 1.5208,
      "step": 6142,
      "task_loss": 0.43782708048820496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0584958791732788,
      "epoch": 5.19,
      "learning_rate": 3.63243581715717e-05,
      "loss": 1.1251,
      "step": 6143,
      "task_loss": 0.6611096262931824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4944480657577515,
      "epoch": 5.19,
      "learning_rate": 3.632122730118973e-05,
      "loss": 1.2877,
      "step": 6144,
      "task_loss": 0.8358311653137207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7758561372756958,
      "epoch": 5.19,
      "learning_rate": 3.631809643080777e-05,
      "loss": 1.4819,
      "step": 6145,
      "task_loss": 1.4481488466262817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6393752098083496,
      "epoch": 5.2,
      "learning_rate": 3.63149655604258e-05,
      "loss": 1.2756,
      "step": 6146,
      "task_loss": 1.2702738046646118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3999230861663818,
      "epoch": 5.2,
      "learning_rate": 3.6311834690043834e-05,
      "loss": 1.1689,
      "step": 6147,
      "task_loss": 0.9565707445144653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8039963841438293,
      "epoch": 5.2,
      "learning_rate": 3.6308703819661865e-05,
      "loss": 1.1445,
      "step": 6148,
      "task_loss": 1.36081862449646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1678038835525513,
      "epoch": 5.2,
      "learning_rate": 3.6305572949279904e-05,
      "loss": 1.2504,
      "step": 6149,
      "task_loss": 0.4888961911201477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1501085758209229,
      "epoch": 5.2,
      "learning_rate": 3.6302442078897936e-05,
      "loss": 1.0488,
      "step": 6150,
      "task_loss": 1.2206778526306152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8758236169815063,
      "epoch": 5.2,
      "learning_rate": 3.629931120851597e-05,
      "loss": 1.1267,
      "step": 6151,
      "task_loss": 1.0384737253189087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9882737398147583,
      "epoch": 5.2,
      "learning_rate": 3.6296180338134e-05,
      "loss": 1.2901,
      "step": 6152,
      "task_loss": 0.36473548412323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7602756023406982,
      "epoch": 5.2,
      "learning_rate": 3.629304946775204e-05,
      "loss": 1.1889,
      "step": 6153,
      "task_loss": 2.3698301315307617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8622870445251465,
      "epoch": 5.2,
      "learning_rate": 3.628991859737007e-05,
      "loss": 1.4203,
      "step": 6154,
      "task_loss": 1.0741602182388306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9766383171081543,
      "epoch": 5.2,
      "learning_rate": 3.62867877269881e-05,
      "loss": 1.3054,
      "step": 6155,
      "task_loss": 1.9052064418792725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5276590585708618,
      "epoch": 5.2,
      "learning_rate": 3.628365685660614e-05,
      "loss": 1.3961,
      "step": 6156,
      "task_loss": 1.5221526622772217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8133926391601562,
      "epoch": 5.2,
      "learning_rate": 3.628052598622417e-05,
      "loss": 1.3844,
      "step": 6157,
      "task_loss": 1.5077011585235596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.326931118965149,
      "epoch": 5.21,
      "learning_rate": 3.6277395115842203e-05,
      "loss": 1.2565,
      "step": 6158,
      "task_loss": 1.3363896608352661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1007499694824219,
      "epoch": 5.21,
      "learning_rate": 3.6274264245460235e-05,
      "loss": 1.18,
      "step": 6159,
      "task_loss": 1.4532089233398438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0409033298492432,
      "epoch": 5.21,
      "learning_rate": 3.6271133375078274e-05,
      "loss": 1.2359,
      "step": 6160,
      "task_loss": 0.9478939771652222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5100560188293457,
      "epoch": 5.21,
      "learning_rate": 3.6268002504696306e-05,
      "loss": 1.8266,
      "step": 6161,
      "task_loss": 1.0317871570587158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.405659556388855,
      "epoch": 5.21,
      "learning_rate": 3.626487163431434e-05,
      "loss": 1.2703,
      "step": 6162,
      "task_loss": 1.5752323865890503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5741112232208252,
      "epoch": 5.21,
      "learning_rate": 3.626174076393237e-05,
      "loss": 1.3322,
      "step": 6163,
      "task_loss": 1.156861424446106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0359060764312744,
      "epoch": 5.21,
      "learning_rate": 3.625860989355041e-05,
      "loss": 1.019,
      "step": 6164,
      "task_loss": 1.1130077838897705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3286919593811035,
      "epoch": 5.21,
      "learning_rate": 3.625547902316844e-05,
      "loss": 1.3137,
      "step": 6165,
      "task_loss": 1.2317736148834229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1322071552276611,
      "epoch": 5.21,
      "learning_rate": 3.625234815278648e-05,
      "loss": 0.9877,
      "step": 6166,
      "task_loss": 0.9415155053138733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3308329582214355,
      "epoch": 5.21,
      "learning_rate": 3.624921728240451e-05,
      "loss": 1.7299,
      "step": 6167,
      "task_loss": 0.8722330331802368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5354074239730835,
      "epoch": 5.21,
      "learning_rate": 3.624608641202255e-05,
      "loss": 1.1808,
      "step": 6168,
      "task_loss": 1.3692717552185059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1281094551086426,
      "epoch": 5.21,
      "learning_rate": 3.624295554164058e-05,
      "loss": 1.3149,
      "step": 6169,
      "task_loss": 0.6713020205497742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8326303958892822,
      "epoch": 5.22,
      "learning_rate": 3.623982467125861e-05,
      "loss": 1.0737,
      "step": 6170,
      "task_loss": 0.8451918959617615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3216361999511719,
      "epoch": 5.22,
      "learning_rate": 3.623669380087665e-05,
      "loss": 1.4845,
      "step": 6171,
      "task_loss": 1.2981711626052856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0450704097747803,
      "epoch": 5.22,
      "learning_rate": 3.623356293049468e-05,
      "loss": 1.1097,
      "step": 6172,
      "task_loss": 0.9734954237937927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2120904922485352,
      "epoch": 5.22,
      "learning_rate": 3.6230432060112714e-05,
      "loss": 1.4359,
      "step": 6173,
      "task_loss": 0.8063766360282898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8598896265029907,
      "epoch": 5.22,
      "learning_rate": 3.6227301189730746e-05,
      "loss": 1.2058,
      "step": 6174,
      "task_loss": 0.8407964706420898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6155974864959717,
      "epoch": 5.22,
      "learning_rate": 3.6224170319348784e-05,
      "loss": 1.1441,
      "step": 6175,
      "task_loss": 0.9151532649993896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.141890525817871,
      "epoch": 5.22,
      "learning_rate": 3.6221039448966816e-05,
      "loss": 1.2833,
      "step": 6176,
      "task_loss": 0.7445327043533325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0537046194076538,
      "epoch": 5.22,
      "learning_rate": 3.621790857858485e-05,
      "loss": 1.3738,
      "step": 6177,
      "task_loss": 1.4287636280059814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.106567621231079,
      "epoch": 5.22,
      "learning_rate": 3.621477770820288e-05,
      "loss": 0.8955,
      "step": 6178,
      "task_loss": 0.7679278254508972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0007920265197754,
      "epoch": 5.22,
      "learning_rate": 3.621164683782092e-05,
      "loss": 1.3328,
      "step": 6179,
      "task_loss": 1.1425368785858154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9006073474884033,
      "epoch": 5.22,
      "learning_rate": 3.620851596743895e-05,
      "loss": 0.9469,
      "step": 6180,
      "task_loss": 0.34007006883621216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3671388626098633,
      "epoch": 5.22,
      "learning_rate": 3.620538509705698e-05,
      "loss": 1.2467,
      "step": 6181,
      "task_loss": 1.2151801586151123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1344201564788818,
      "epoch": 5.23,
      "learning_rate": 3.620225422667502e-05,
      "loss": 1.1177,
      "step": 6182,
      "task_loss": 1.3448373079299927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3712456226348877,
      "epoch": 5.23,
      "learning_rate": 3.619912335629305e-05,
      "loss": 1.2516,
      "step": 6183,
      "task_loss": 2.25657320022583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.352975845336914,
      "epoch": 5.23,
      "learning_rate": 3.6195992485911084e-05,
      "loss": 1.396,
      "step": 6184,
      "task_loss": 0.9102721810340881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9172277450561523,
      "epoch": 5.23,
      "learning_rate": 3.6192861615529116e-05,
      "loss": 1.2921,
      "step": 6185,
      "task_loss": 1.6864967346191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9732224941253662,
      "epoch": 5.23,
      "learning_rate": 3.6189730745147154e-05,
      "loss": 1.1938,
      "step": 6186,
      "task_loss": 0.8411593437194824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5920690298080444,
      "epoch": 5.23,
      "learning_rate": 3.6186599874765186e-05,
      "loss": 1.8995,
      "step": 6187,
      "task_loss": 0.9648462533950806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.611713171005249,
      "epoch": 5.23,
      "learning_rate": 3.618346900438322e-05,
      "loss": 1.2203,
      "step": 6188,
      "task_loss": 1.072453260421753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1223783493041992,
      "epoch": 5.23,
      "learning_rate": 3.618033813400125e-05,
      "loss": 1.2553,
      "step": 6189,
      "task_loss": 1.2973381280899048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5223734378814697,
      "epoch": 5.23,
      "learning_rate": 3.617720726361929e-05,
      "loss": 1.2773,
      "step": 6190,
      "task_loss": 0.9167593121528625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9306957125663757,
      "epoch": 5.23,
      "learning_rate": 3.617407639323732e-05,
      "loss": 1.2337,
      "step": 6191,
      "task_loss": 1.3778960704803467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1775541305541992,
      "epoch": 5.23,
      "learning_rate": 3.617094552285535e-05,
      "loss": 1.4347,
      "step": 6192,
      "task_loss": 0.3971376419067383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.549649953842163,
      "epoch": 5.23,
      "learning_rate": 3.616781465247339e-05,
      "loss": 1.1527,
      "step": 6193,
      "task_loss": 1.1758184432983398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2982876300811768,
      "epoch": 5.24,
      "learning_rate": 3.616468378209142e-05,
      "loss": 1.7341,
      "step": 6194,
      "task_loss": 0.9413337707519531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8556355237960815,
      "epoch": 5.24,
      "learning_rate": 3.6161552911709454e-05,
      "loss": 1.3709,
      "step": 6195,
      "task_loss": 1.6363489627838135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2900898456573486,
      "epoch": 5.24,
      "learning_rate": 3.6158422041327486e-05,
      "loss": 1.0099,
      "step": 6196,
      "task_loss": 1.6437559127807617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1785508394241333,
      "epoch": 5.24,
      "learning_rate": 3.6155291170945524e-05,
      "loss": 1.2567,
      "step": 6197,
      "task_loss": 0.9648005962371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5606000423431396,
      "epoch": 5.24,
      "learning_rate": 3.6152160300563556e-05,
      "loss": 1.1303,
      "step": 6198,
      "task_loss": 0.8449077010154724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8706614375114441,
      "epoch": 5.24,
      "learning_rate": 3.6149029430181595e-05,
      "loss": 1.2058,
      "step": 6199,
      "task_loss": 0.5568203926086426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9356739521026611,
      "epoch": 5.24,
      "learning_rate": 3.6145898559799626e-05,
      "loss": 1.2413,
      "step": 6200,
      "task_loss": 0.9641901254653931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7556639313697815,
      "epoch": 5.24,
      "learning_rate": 3.614276768941766e-05,
      "loss": 1.6428,
      "step": 6201,
      "task_loss": 0.21536152064800262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2612335681915283,
      "epoch": 5.24,
      "learning_rate": 3.61396368190357e-05,
      "loss": 1.2452,
      "step": 6202,
      "task_loss": 1.8081003427505493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0268927812576294,
      "epoch": 5.24,
      "learning_rate": 3.613650594865373e-05,
      "loss": 1.0507,
      "step": 6203,
      "task_loss": 0.9136358499526978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7713882923126221,
      "epoch": 5.24,
      "learning_rate": 3.613337507827177e-05,
      "loss": 1.2237,
      "step": 6204,
      "task_loss": 0.505316436290741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.525716245174408,
      "epoch": 5.24,
      "learning_rate": 3.61302442078898e-05,
      "loss": 1.1287,
      "step": 6205,
      "task_loss": 0.12472329288721085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.245796799659729,
      "epoch": 5.25,
      "learning_rate": 3.612711333750783e-05,
      "loss": 1.2819,
      "step": 6206,
      "task_loss": 1.44695246219635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.390151023864746,
      "epoch": 5.25,
      "learning_rate": 3.612398246712586e-05,
      "loss": 1.5801,
      "step": 6207,
      "task_loss": 1.7847180366516113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9552649855613708,
      "epoch": 5.25,
      "learning_rate": 3.61208515967439e-05,
      "loss": 1.2043,
      "step": 6208,
      "task_loss": 1.207979440689087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.539603590965271,
      "epoch": 5.25,
      "learning_rate": 3.611772072636193e-05,
      "loss": 1.5071,
      "step": 6209,
      "task_loss": 0.7965636849403381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.191713809967041,
      "epoch": 5.25,
      "learning_rate": 3.6114589855979965e-05,
      "loss": 1.2003,
      "step": 6210,
      "task_loss": 1.4402698278427124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1984834671020508,
      "epoch": 5.25,
      "learning_rate": 3.6111458985597996e-05,
      "loss": 1.2898,
      "step": 6211,
      "task_loss": 0.6795680522918701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.4219377040863037,
      "epoch": 5.25,
      "learning_rate": 3.6108328115216035e-05,
      "loss": 1.5149,
      "step": 6212,
      "task_loss": 1.4195173978805542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2217317819595337,
      "epoch": 5.25,
      "learning_rate": 3.610519724483407e-05,
      "loss": 1.1041,
      "step": 6213,
      "task_loss": 0.5472096800804138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4428704977035522,
      "epoch": 5.25,
      "learning_rate": 3.61020663744521e-05,
      "loss": 1.0039,
      "step": 6214,
      "task_loss": 1.793933391571045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0193586349487305,
      "epoch": 5.25,
      "learning_rate": 3.609893550407013e-05,
      "loss": 1.4585,
      "step": 6215,
      "task_loss": 1.9177181720733643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0318212509155273,
      "epoch": 5.25,
      "learning_rate": 3.609580463368817e-05,
      "loss": 1.4637,
      "step": 6216,
      "task_loss": 1.4566283226013184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3394819498062134,
      "epoch": 5.26,
      "learning_rate": 3.60926737633062e-05,
      "loss": 1.1165,
      "step": 6217,
      "task_loss": 0.9192404747009277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9425513744354248,
      "epoch": 5.26,
      "learning_rate": 3.608954289292423e-05,
      "loss": 1.1225,
      "step": 6218,
      "task_loss": 0.5411958694458008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9517233371734619,
      "epoch": 5.26,
      "learning_rate": 3.608641202254227e-05,
      "loss": 1.0776,
      "step": 6219,
      "task_loss": 0.6669647097587585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2584975957870483,
      "epoch": 5.26,
      "learning_rate": 3.60832811521603e-05,
      "loss": 1.4045,
      "step": 6220,
      "task_loss": 1.6150532960891724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6709139347076416,
      "epoch": 5.26,
      "learning_rate": 3.6080150281778334e-05,
      "loss": 1.3562,
      "step": 6221,
      "task_loss": 0.5958110690116882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.613500952720642,
      "epoch": 5.26,
      "learning_rate": 3.6077019411396366e-05,
      "loss": 1.4133,
      "step": 6222,
      "task_loss": 0.8025984168052673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9763256311416626,
      "epoch": 5.26,
      "learning_rate": 3.6073888541014405e-05,
      "loss": 1.0701,
      "step": 6223,
      "task_loss": 0.4776271879673004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9193191528320312,
      "epoch": 5.26,
      "learning_rate": 3.6070757670632437e-05,
      "loss": 1.4081,
      "step": 6224,
      "task_loss": 0.6744579672813416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3776895999908447,
      "epoch": 5.26,
      "learning_rate": 3.606762680025047e-05,
      "loss": 1.1994,
      "step": 6225,
      "task_loss": 1.5977023839950562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2887613773345947,
      "epoch": 5.26,
      "learning_rate": 3.60644959298685e-05,
      "loss": 1.0312,
      "step": 6226,
      "task_loss": 0.4873543381690979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7067044377326965,
      "epoch": 5.26,
      "learning_rate": 3.606136505948654e-05,
      "loss": 1.1992,
      "step": 6227,
      "task_loss": 0.5076286792755127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.779624581336975,
      "epoch": 5.26,
      "learning_rate": 3.605823418910457e-05,
      "loss": 1.2636,
      "step": 6228,
      "task_loss": 2.627349853515625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.945124626159668,
      "epoch": 5.27,
      "learning_rate": 3.60551033187226e-05,
      "loss": 1.0519,
      "step": 6229,
      "task_loss": 0.29511189460754395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9006686210632324,
      "epoch": 5.27,
      "learning_rate": 3.605197244834064e-05,
      "loss": 1.7011,
      "step": 6230,
      "task_loss": 1.250108003616333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3282780647277832,
      "epoch": 5.27,
      "learning_rate": 3.604884157795867e-05,
      "loss": 1.2749,
      "step": 6231,
      "task_loss": 1.2262325286865234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49828970432281494,
      "epoch": 5.27,
      "learning_rate": 3.6045710707576704e-05,
      "loss": 1.2552,
      "step": 6232,
      "task_loss": 0.34046992659568787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9939165711402893,
      "epoch": 5.27,
      "learning_rate": 3.604257983719474e-05,
      "loss": 1.0476,
      "step": 6233,
      "task_loss": 1.9087615013122559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1989895105361938,
      "epoch": 5.27,
      "learning_rate": 3.6039448966812775e-05,
      "loss": 1.3507,
      "step": 6234,
      "task_loss": 1.420727014541626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0952825546264648,
      "epoch": 5.27,
      "learning_rate": 3.603631809643081e-05,
      "loss": 1.2517,
      "step": 6235,
      "task_loss": 0.924236536026001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3956170082092285,
      "epoch": 5.27,
      "learning_rate": 3.6033187226048845e-05,
      "loss": 1.2136,
      "step": 6236,
      "task_loss": 0.8001537322998047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3870691061019897,
      "epoch": 5.27,
      "learning_rate": 3.603005635566688e-05,
      "loss": 1.2432,
      "step": 6237,
      "task_loss": 0.9522228240966797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.262291431427002,
      "epoch": 5.27,
      "learning_rate": 3.6026925485284915e-05,
      "loss": 0.9847,
      "step": 6238,
      "task_loss": 1.0076707601547241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2623631954193115,
      "epoch": 5.27,
      "learning_rate": 3.602379461490295e-05,
      "loss": 0.8977,
      "step": 6239,
      "task_loss": 0.833356499671936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4916409254074097,
      "epoch": 5.27,
      "learning_rate": 3.602066374452098e-05,
      "loss": 1.0619,
      "step": 6240,
      "task_loss": 1.7494628429412842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1034795045852661,
      "epoch": 5.28,
      "learning_rate": 3.601753287413902e-05,
      "loss": 1.0261,
      "step": 6241,
      "task_loss": 2.4069488048553467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5387364625930786,
      "epoch": 5.28,
      "learning_rate": 3.601440200375705e-05,
      "loss": 1.2394,
      "step": 6242,
      "task_loss": 1.878438949584961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4658160209655762,
      "epoch": 5.28,
      "learning_rate": 3.601127113337508e-05,
      "loss": 1.124,
      "step": 6243,
      "task_loss": 2.680520534515381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7502906322479248,
      "epoch": 5.28,
      "learning_rate": 3.600814026299311e-05,
      "loss": 1.19,
      "step": 6244,
      "task_loss": 0.8298736810684204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9995706081390381,
      "epoch": 5.28,
      "learning_rate": 3.600500939261115e-05,
      "loss": 1.1607,
      "step": 6245,
      "task_loss": 1.811976671218872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0733139514923096,
      "epoch": 5.28,
      "learning_rate": 3.600187852222918e-05,
      "loss": 1.2795,
      "step": 6246,
      "task_loss": 1.2633274793624878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.919567883014679,
      "epoch": 5.28,
      "learning_rate": 3.5998747651847215e-05,
      "loss": 0.9386,
      "step": 6247,
      "task_loss": 0.7086263298988342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6525590419769287,
      "epoch": 5.28,
      "learning_rate": 3.599561678146525e-05,
      "loss": 1.0796,
      "step": 6248,
      "task_loss": 0.8634302020072937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.03059983253479,
      "epoch": 5.28,
      "learning_rate": 3.5992485911083285e-05,
      "loss": 0.9951,
      "step": 6249,
      "task_loss": 1.7619150876998901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5451719760894775,
      "epoch": 5.28,
      "learning_rate": 3.598935504070132e-05,
      "loss": 1.2567,
      "step": 6250,
      "task_loss": 1.5727558135986328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.131095051765442,
      "epoch": 5.28,
      "learning_rate": 3.598622417031935e-05,
      "loss": 1.3278,
      "step": 6251,
      "task_loss": 1.2390565872192383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.691896915435791,
      "epoch": 5.28,
      "learning_rate": 3.598309329993739e-05,
      "loss": 1.5055,
      "step": 6252,
      "task_loss": 1.719545602798462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.983845591545105,
      "epoch": 5.29,
      "learning_rate": 3.597996242955542e-05,
      "loss": 0.8996,
      "step": 6253,
      "task_loss": 0.5710669755935669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6599743962287903,
      "epoch": 5.29,
      "learning_rate": 3.597683155917345e-05,
      "loss": 1.0419,
      "step": 6254,
      "task_loss": 0.12073215842247009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6826252937316895,
      "epoch": 5.29,
      "learning_rate": 3.597370068879148e-05,
      "loss": 1.3066,
      "step": 6255,
      "task_loss": 1.2276685237884521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1574227809906006,
      "epoch": 5.29,
      "learning_rate": 3.597056981840952e-05,
      "loss": 1.1045,
      "step": 6256,
      "task_loss": 1.1261646747589111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0992143154144287,
      "epoch": 5.29,
      "learning_rate": 3.596743894802755e-05,
      "loss": 1.1046,
      "step": 6257,
      "task_loss": 0.516495943069458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.451198935508728,
      "epoch": 5.29,
      "learning_rate": 3.5964308077645585e-05,
      "loss": 1.5348,
      "step": 6258,
      "task_loss": 1.7652535438537598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.01911461353302,
      "epoch": 5.29,
      "learning_rate": 3.596117720726362e-05,
      "loss": 1.6055,
      "step": 6259,
      "task_loss": 0.7690885066986084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.043402075767517,
      "epoch": 5.29,
      "learning_rate": 3.5958046336881655e-05,
      "loss": 1.265,
      "step": 6260,
      "task_loss": 1.1561319828033447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.389328956604004,
      "epoch": 5.29,
      "learning_rate": 3.595491546649969e-05,
      "loss": 1.1467,
      "step": 6261,
      "task_loss": 1.0841835737228394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6979016065597534,
      "epoch": 5.29,
      "learning_rate": 3.595178459611772e-05,
      "loss": 1.1823,
      "step": 6262,
      "task_loss": 1.0601513385772705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0005974769592285,
      "epoch": 5.29,
      "learning_rate": 3.594865372573575e-05,
      "loss": 1.1059,
      "step": 6263,
      "task_loss": 0.27517393231391907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1660971641540527,
      "epoch": 5.29,
      "learning_rate": 3.594552285535379e-05,
      "loss": 1.0664,
      "step": 6264,
      "task_loss": 1.0236659049987793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8910622596740723,
      "epoch": 5.3,
      "learning_rate": 3.594239198497182e-05,
      "loss": 1.2196,
      "step": 6265,
      "task_loss": 0.7757294774055481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9431942105293274,
      "epoch": 5.3,
      "learning_rate": 3.593926111458986e-05,
      "loss": 1.1225,
      "step": 6266,
      "task_loss": 0.9701443314552307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7034191489219666,
      "epoch": 5.3,
      "learning_rate": 3.593613024420789e-05,
      "loss": 1.1329,
      "step": 6267,
      "task_loss": 0.5820156335830688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.607806921005249,
      "epoch": 5.3,
      "learning_rate": 3.593299937382592e-05,
      "loss": 1.1514,
      "step": 6268,
      "task_loss": 0.9594535827636719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8514241576194763,
      "epoch": 5.3,
      "learning_rate": 3.592986850344396e-05,
      "loss": 1.1042,
      "step": 6269,
      "task_loss": 0.8006724119186401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5595362186431885,
      "epoch": 5.3,
      "learning_rate": 3.592673763306199e-05,
      "loss": 1.4088,
      "step": 6270,
      "task_loss": 0.5105048418045044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7528355121612549,
      "epoch": 5.3,
      "learning_rate": 3.592360676268003e-05,
      "loss": 1.1431,
      "step": 6271,
      "task_loss": 0.5234667658805847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6754131317138672,
      "epoch": 5.3,
      "learning_rate": 3.5920475892298064e-05,
      "loss": 1.299,
      "step": 6272,
      "task_loss": 1.3239189386367798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8233328461647034,
      "epoch": 5.3,
      "learning_rate": 3.5917345021916096e-05,
      "loss": 1.1261,
      "step": 6273,
      "task_loss": 1.0144625902175903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0327129364013672,
      "epoch": 5.3,
      "learning_rate": 3.591421415153413e-05,
      "loss": 0.9113,
      "step": 6274,
      "task_loss": 1.0259311199188232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3241872787475586,
      "epoch": 5.3,
      "learning_rate": 3.5911083281152166e-05,
      "loss": 1.2151,
      "step": 6275,
      "task_loss": 0.34086257219314575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6495931148529053,
      "epoch": 5.3,
      "learning_rate": 3.59079524107702e-05,
      "loss": 1.1068,
      "step": 6276,
      "task_loss": 1.1500986814498901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.516337275505066,
      "epoch": 5.31,
      "learning_rate": 3.590482154038823e-05,
      "loss": 1.1458,
      "step": 6277,
      "task_loss": 1.2977194786071777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9136282205581665,
      "epoch": 5.31,
      "learning_rate": 3.590169067000627e-05,
      "loss": 1.1392,
      "step": 6278,
      "task_loss": 0.5148177742958069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8950405120849609,
      "epoch": 5.31,
      "learning_rate": 3.58985597996243e-05,
      "loss": 1.189,
      "step": 6279,
      "task_loss": 0.5856208801269531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3142120838165283,
      "epoch": 5.31,
      "learning_rate": 3.589542892924233e-05,
      "loss": 1.2594,
      "step": 6280,
      "task_loss": 1.6574043035507202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1934990882873535,
      "epoch": 5.31,
      "learning_rate": 3.589229805886036e-05,
      "loss": 1.065,
      "step": 6281,
      "task_loss": 1.315049648284912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4491824209690094,
      "epoch": 5.31,
      "learning_rate": 3.58891671884784e-05,
      "loss": 1.1674,
      "step": 6282,
      "task_loss": 0.3966837227344513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1138911247253418,
      "epoch": 5.31,
      "learning_rate": 3.5886036318096434e-05,
      "loss": 1.1012,
      "step": 6283,
      "task_loss": 0.7716041803359985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8432117104530334,
      "epoch": 5.31,
      "learning_rate": 3.5882905447714465e-05,
      "loss": 1.2124,
      "step": 6284,
      "task_loss": 1.0378227233886719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9759465456008911,
      "epoch": 5.31,
      "learning_rate": 3.58797745773325e-05,
      "loss": 1.1672,
      "step": 6285,
      "task_loss": 2.0205843448638916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8995105624198914,
      "epoch": 5.31,
      "learning_rate": 3.5876643706950536e-05,
      "loss": 1.2336,
      "step": 6286,
      "task_loss": 0.7382641434669495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3993706703186035,
      "epoch": 5.31,
      "learning_rate": 3.587351283656857e-05,
      "loss": 1.2666,
      "step": 6287,
      "task_loss": 1.065693974494934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6898131370544434,
      "epoch": 5.32,
      "learning_rate": 3.58703819661866e-05,
      "loss": 1.4274,
      "step": 6288,
      "task_loss": 1.394351601600647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7496863603591919,
      "epoch": 5.32,
      "learning_rate": 3.586725109580464e-05,
      "loss": 1.0168,
      "step": 6289,
      "task_loss": 0.7797940373420715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1748729944229126,
      "epoch": 5.32,
      "learning_rate": 3.586412022542267e-05,
      "loss": 1.5156,
      "step": 6290,
      "task_loss": 1.2034296989440918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4179853200912476,
      "epoch": 5.32,
      "learning_rate": 3.58609893550407e-05,
      "loss": 1.253,
      "step": 6291,
      "task_loss": 1.2203385829925537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1170263290405273,
      "epoch": 5.32,
      "learning_rate": 3.585785848465873e-05,
      "loss": 1.0557,
      "step": 6292,
      "task_loss": 1.8319255113601685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0441277027130127,
      "epoch": 5.32,
      "learning_rate": 3.585472761427677e-05,
      "loss": 0.9215,
      "step": 6293,
      "task_loss": 1.3326600790023804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0859233140945435,
      "epoch": 5.32,
      "learning_rate": 3.5851596743894804e-05,
      "loss": 1.4722,
      "step": 6294,
      "task_loss": 0.40048739314079285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3667182922363281,
      "epoch": 5.32,
      "learning_rate": 3.5848465873512835e-05,
      "loss": 1.2951,
      "step": 6295,
      "task_loss": 0.8666419386863708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2466959953308105,
      "epoch": 5.32,
      "learning_rate": 3.584533500313087e-05,
      "loss": 1.3288,
      "step": 6296,
      "task_loss": 2.1017820835113525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1239523887634277,
      "epoch": 5.32,
      "learning_rate": 3.5842204132748906e-05,
      "loss": 1.3147,
      "step": 6297,
      "task_loss": 1.0198177099227905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2820825576782227,
      "epoch": 5.32,
      "learning_rate": 3.583907326236694e-05,
      "loss": 1.5593,
      "step": 6298,
      "task_loss": 0.68439781665802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.302155017852783,
      "epoch": 5.32,
      "learning_rate": 3.583594239198497e-05,
      "loss": 1.6169,
      "step": 6299,
      "task_loss": 1.9808474779129028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.569717288017273,
      "epoch": 5.33,
      "learning_rate": 3.583281152160301e-05,
      "loss": 1.192,
      "step": 6300,
      "task_loss": 1.3193671703338623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0674583911895752,
      "epoch": 5.33,
      "learning_rate": 3.582968065122104e-05,
      "loss": 1.1247,
      "step": 6301,
      "task_loss": 2.083862543106079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1681983470916748,
      "epoch": 5.33,
      "learning_rate": 3.582654978083908e-05,
      "loss": 1.3053,
      "step": 6302,
      "task_loss": 0.9377240538597107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7429990768432617,
      "epoch": 5.33,
      "learning_rate": 3.582341891045711e-05,
      "loss": 1.0943,
      "step": 6303,
      "task_loss": 1.5056195259094238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2799397706985474,
      "epoch": 5.33,
      "learning_rate": 3.582028804007514e-05,
      "loss": 1.2975,
      "step": 6304,
      "task_loss": 1.3007200956344604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4593722820281982,
      "epoch": 5.33,
      "learning_rate": 3.581715716969318e-05,
      "loss": 1.3099,
      "step": 6305,
      "task_loss": 2.1906564235687256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4877761602401733,
      "epoch": 5.33,
      "learning_rate": 3.581402629931121e-05,
      "loss": 1.1171,
      "step": 6306,
      "task_loss": 1.3435848951339722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9973902702331543,
      "epoch": 5.33,
      "learning_rate": 3.5810895428929244e-05,
      "loss": 1.2002,
      "step": 6307,
      "task_loss": 0.5877852439880371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.983462929725647,
      "epoch": 5.33,
      "learning_rate": 3.580776455854728e-05,
      "loss": 1.1606,
      "step": 6308,
      "task_loss": 0.90736985206604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5594786405563354,
      "epoch": 5.33,
      "learning_rate": 3.5804633688165314e-05,
      "loss": 1.0041,
      "step": 6309,
      "task_loss": 1.230464220046997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.544875979423523,
      "epoch": 5.33,
      "learning_rate": 3.5801502817783346e-05,
      "loss": 1.1159,
      "step": 6310,
      "task_loss": 0.07882226258516312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7256287336349487,
      "epoch": 5.33,
      "learning_rate": 3.579837194740138e-05,
      "loss": 1.4004,
      "step": 6311,
      "task_loss": 0.8579704761505127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1282432079315186,
      "epoch": 5.34,
      "learning_rate": 3.5795241077019416e-05,
      "loss": 0.8974,
      "step": 6312,
      "task_loss": 0.6022537350654602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9551079273223877,
      "epoch": 5.34,
      "learning_rate": 3.579211020663745e-05,
      "loss": 1.2989,
      "step": 6313,
      "task_loss": 1.8056633472442627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4981790781021118,
      "epoch": 5.34,
      "learning_rate": 3.578897933625548e-05,
      "loss": 0.9995,
      "step": 6314,
      "task_loss": 0.7812796831130981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0608830451965332,
      "epoch": 5.34,
      "learning_rate": 3.578584846587352e-05,
      "loss": 1.0272,
      "step": 6315,
      "task_loss": 1.5571300983428955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.223242163658142,
      "epoch": 5.34,
      "learning_rate": 3.578271759549155e-05,
      "loss": 0.8772,
      "step": 6316,
      "task_loss": 0.4586220979690552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.6829257011413574,
      "epoch": 5.34,
      "learning_rate": 3.577958672510958e-05,
      "loss": 1.6339,
      "step": 6317,
      "task_loss": 2.0465681552886963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6966932415962219,
      "epoch": 5.34,
      "learning_rate": 3.5776455854727614e-05,
      "loss": 1.149,
      "step": 6318,
      "task_loss": 1.202324390411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2541537284851074,
      "epoch": 5.34,
      "learning_rate": 3.577332498434565e-05,
      "loss": 1.2464,
      "step": 6319,
      "task_loss": 1.6774958372116089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7508423328399658,
      "epoch": 5.34,
      "learning_rate": 3.5770194113963684e-05,
      "loss": 0.7625,
      "step": 6320,
      "task_loss": 1.2577707767486572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4945155382156372,
      "epoch": 5.34,
      "learning_rate": 3.5767063243581716e-05,
      "loss": 1.1809,
      "step": 6321,
      "task_loss": 1.0388693809509277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0273234844207764,
      "epoch": 5.34,
      "learning_rate": 3.576393237319975e-05,
      "loss": 1.0099,
      "step": 6322,
      "task_loss": 0.9408475756645203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6688100099563599,
      "epoch": 5.34,
      "learning_rate": 3.5760801502817786e-05,
      "loss": 1.2255,
      "step": 6323,
      "task_loss": 1.1637934446334839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7642556428909302,
      "epoch": 5.35,
      "learning_rate": 3.575767063243582e-05,
      "loss": 0.9268,
      "step": 6324,
      "task_loss": 0.742929220199585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7998132705688477,
      "epoch": 5.35,
      "learning_rate": 3.575453976205385e-05,
      "loss": 1.1431,
      "step": 6325,
      "task_loss": 1.5905362367630005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0970619916915894,
      "epoch": 5.35,
      "learning_rate": 3.575140889167189e-05,
      "loss": 0.9937,
      "step": 6326,
      "task_loss": 0.6389658451080322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.500705361366272,
      "epoch": 5.35,
      "learning_rate": 3.574827802128992e-05,
      "loss": 1.1243,
      "step": 6327,
      "task_loss": 1.5148837566375732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9230647087097168,
      "epoch": 5.35,
      "learning_rate": 3.574514715090795e-05,
      "loss": 1.4079,
      "step": 6328,
      "task_loss": 1.416494607925415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2466554641723633,
      "epoch": 5.35,
      "learning_rate": 3.5742016280525984e-05,
      "loss": 1.2219,
      "step": 6329,
      "task_loss": 1.6794705390930176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2301051616668701,
      "epoch": 5.35,
      "learning_rate": 3.573888541014402e-05,
      "loss": 1.1792,
      "step": 6330,
      "task_loss": 1.4451097249984741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2690112590789795,
      "epoch": 5.35,
      "learning_rate": 3.5735754539762054e-05,
      "loss": 1.3094,
      "step": 6331,
      "task_loss": 1.3645142316818237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.07229483127594,
      "epoch": 5.35,
      "learning_rate": 3.5732623669380086e-05,
      "loss": 0.9248,
      "step": 6332,
      "task_loss": 1.2890040874481201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.034593939781189,
      "epoch": 5.35,
      "learning_rate": 3.5729492798998124e-05,
      "loss": 0.855,
      "step": 6333,
      "task_loss": 0.7116720676422119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6890979409217834,
      "epoch": 5.35,
      "learning_rate": 3.5726361928616156e-05,
      "loss": 0.9103,
      "step": 6334,
      "task_loss": 0.43140602111816406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5750360488891602,
      "epoch": 5.35,
      "learning_rate": 3.572323105823419e-05,
      "loss": 1.098,
      "step": 6335,
      "task_loss": 1.0778305530548096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3475818634033203,
      "epoch": 5.36,
      "learning_rate": 3.5720100187852226e-05,
      "loss": 1.1821,
      "step": 6336,
      "task_loss": 0.974353015422821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.771288275718689,
      "epoch": 5.36,
      "learning_rate": 3.571696931747026e-05,
      "loss": 1.3666,
      "step": 6337,
      "task_loss": 1.535383939743042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7002061605453491,
      "epoch": 5.36,
      "learning_rate": 3.57138384470883e-05,
      "loss": 1.1179,
      "step": 6338,
      "task_loss": 0.5249250531196594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1172676086425781,
      "epoch": 5.36,
      "learning_rate": 3.571070757670633e-05,
      "loss": 1.0367,
      "step": 6339,
      "task_loss": 1.5754286050796509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2037923336029053,
      "epoch": 5.36,
      "learning_rate": 3.570757670632436e-05,
      "loss": 1.0825,
      "step": 6340,
      "task_loss": 0.6013635993003845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9423974752426147,
      "epoch": 5.36,
      "learning_rate": 3.57044458359424e-05,
      "loss": 0.8051,
      "step": 6341,
      "task_loss": 1.152550458908081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9960110187530518,
      "epoch": 5.36,
      "learning_rate": 3.570131496556043e-05,
      "loss": 1.1765,
      "step": 6342,
      "task_loss": 0.6412350535392761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7078251838684082,
      "epoch": 5.36,
      "learning_rate": 3.569818409517846e-05,
      "loss": 1.29,
      "step": 6343,
      "task_loss": 0.5662834048271179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6569747924804688,
      "epoch": 5.36,
      "learning_rate": 3.5695053224796494e-05,
      "loss": 1.2253,
      "step": 6344,
      "task_loss": 1.451343297958374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0257487297058105,
      "epoch": 5.36,
      "learning_rate": 3.569192235441453e-05,
      "loss": 1.2365,
      "step": 6345,
      "task_loss": 0.5275859236717224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7797366380691528,
      "epoch": 5.36,
      "learning_rate": 3.5688791484032565e-05,
      "loss": 0.8036,
      "step": 6346,
      "task_loss": 0.8363023400306702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3881083726882935,
      "epoch": 5.36,
      "learning_rate": 3.5685660613650596e-05,
      "loss": 1.3853,
      "step": 6347,
      "task_loss": 1.6423602104187012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.246205449104309,
      "epoch": 5.37,
      "learning_rate": 3.568252974326863e-05,
      "loss": 1.0554,
      "step": 6348,
      "task_loss": 1.3366527557373047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9609673619270325,
      "epoch": 5.37,
      "learning_rate": 3.567939887288667e-05,
      "loss": 1.0369,
      "step": 6349,
      "task_loss": 1.138465166091919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.052157163619995,
      "epoch": 5.37,
      "learning_rate": 3.56762680025047e-05,
      "loss": 1.7519,
      "step": 6350,
      "task_loss": 1.9160293340682983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9949177503585815,
      "epoch": 5.37,
      "learning_rate": 3.567313713212273e-05,
      "loss": 0.9273,
      "step": 6351,
      "task_loss": 0.9635921716690063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.503780484199524,
      "epoch": 5.37,
      "learning_rate": 3.567000626174077e-05,
      "loss": 1.0295,
      "step": 6352,
      "task_loss": 1.3605378866195679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3764536380767822,
      "epoch": 5.37,
      "learning_rate": 3.56668753913588e-05,
      "loss": 0.8984,
      "step": 6353,
      "task_loss": 1.7645039558410645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8513151407241821,
      "epoch": 5.37,
      "learning_rate": 3.566374452097683e-05,
      "loss": 1.1512,
      "step": 6354,
      "task_loss": 0.9969727993011475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4360969066619873,
      "epoch": 5.37,
      "learning_rate": 3.5660613650594864e-05,
      "loss": 1.5363,
      "step": 6355,
      "task_loss": 1.790378451347351
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.181695818901062,
      "epoch": 5.37,
      "learning_rate": 3.56574827802129e-05,
      "loss": 1.0548,
      "step": 6356,
      "task_loss": 0.8222810626029968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.156247615814209,
      "epoch": 5.37,
      "learning_rate": 3.5654351909830935e-05,
      "loss": 1.2353,
      "step": 6357,
      "task_loss": 0.6886773705482483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2429468631744385,
      "epoch": 5.37,
      "learning_rate": 3.5651221039448966e-05,
      "loss": 1.2727,
      "step": 6358,
      "task_loss": 1.0146561861038208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4982025623321533,
      "epoch": 5.38,
      "learning_rate": 3.5648090169067e-05,
      "loss": 1.305,
      "step": 6359,
      "task_loss": 1.711761474609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0249230861663818,
      "epoch": 5.38,
      "learning_rate": 3.564495929868504e-05,
      "loss": 1.1283,
      "step": 6360,
      "task_loss": 2.098328113555908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5623283386230469,
      "epoch": 5.38,
      "learning_rate": 3.564182842830307e-05,
      "loss": 1.2086,
      "step": 6361,
      "task_loss": 1.0880765914916992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.193929672241211,
      "epoch": 5.38,
      "learning_rate": 3.56386975579211e-05,
      "loss": 1.1459,
      "step": 6362,
      "task_loss": 1.1182104349136353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8567476868629456,
      "epoch": 5.38,
      "learning_rate": 3.563556668753914e-05,
      "loss": 1.0078,
      "step": 6363,
      "task_loss": 0.784233808517456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9374117851257324,
      "epoch": 5.38,
      "learning_rate": 3.563243581715717e-05,
      "loss": 1.3421,
      "step": 6364,
      "task_loss": 0.764230489730835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6206719875335693,
      "epoch": 5.38,
      "learning_rate": 3.56293049467752e-05,
      "loss": 0.9732,
      "step": 6365,
      "task_loss": 0.462668776512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2882137298583984,
      "epoch": 5.38,
      "learning_rate": 3.5626174076393234e-05,
      "loss": 1.1524,
      "step": 6366,
      "task_loss": 1.1057997941970825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.961618959903717,
      "epoch": 5.38,
      "learning_rate": 3.562304320601127e-05,
      "loss": 1.3049,
      "step": 6367,
      "task_loss": 1.2743057012557983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8405143022537231,
      "epoch": 5.38,
      "learning_rate": 3.5619912335629304e-05,
      "loss": 1.2529,
      "step": 6368,
      "task_loss": 0.2548726499080658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0309228897094727,
      "epoch": 5.38,
      "learning_rate": 3.561678146524734e-05,
      "loss": 1.1484,
      "step": 6369,
      "task_loss": 0.8863463401794434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7609108686447144,
      "epoch": 5.38,
      "learning_rate": 3.5613650594865375e-05,
      "loss": 1.0004,
      "step": 6370,
      "task_loss": 0.4051814377307892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6196961402893066,
      "epoch": 5.39,
      "learning_rate": 3.5610519724483407e-05,
      "loss": 1.3514,
      "step": 6371,
      "task_loss": 1.7118240594863892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6942396759986877,
      "epoch": 5.39,
      "learning_rate": 3.5607388854101445e-05,
      "loss": 0.9908,
      "step": 6372,
      "task_loss": 0.45530927181243896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6215879917144775,
      "epoch": 5.39,
      "learning_rate": 3.560425798371948e-05,
      "loss": 1.1249,
      "step": 6373,
      "task_loss": 0.7154276371002197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3944449424743652,
      "epoch": 5.39,
      "learning_rate": 3.560112711333751e-05,
      "loss": 1.575,
      "step": 6374,
      "task_loss": 1.3891637325286865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9033657312393188,
      "epoch": 5.39,
      "learning_rate": 3.559799624295555e-05,
      "loss": 1.0874,
      "step": 6375,
      "task_loss": 0.4665800631046295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0801172256469727,
      "epoch": 5.39,
      "learning_rate": 3.559486537257358e-05,
      "loss": 1.0858,
      "step": 6376,
      "task_loss": 0.9120462536811829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.862079381942749,
      "epoch": 5.39,
      "learning_rate": 3.559173450219161e-05,
      "loss": 1.0358,
      "step": 6377,
      "task_loss": 0.6100090742111206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7412952780723572,
      "epoch": 5.39,
      "learning_rate": 3.558860363180965e-05,
      "loss": 1.0374,
      "step": 6378,
      "task_loss": 0.7172748446464539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7286319732666016,
      "epoch": 5.39,
      "learning_rate": 3.558547276142768e-05,
      "loss": 1.3149,
      "step": 6379,
      "task_loss": 1.7833409309387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2088083028793335,
      "epoch": 5.39,
      "learning_rate": 3.558234189104571e-05,
      "loss": 1.2655,
      "step": 6380,
      "task_loss": 1.489200234413147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2064722776412964,
      "epoch": 5.39,
      "learning_rate": 3.5579211020663745e-05,
      "loss": 1.0708,
      "step": 6381,
      "task_loss": 1.0547040700912476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.455769658088684,
      "epoch": 5.39,
      "learning_rate": 3.557608015028178e-05,
      "loss": 1.2345,
      "step": 6382,
      "task_loss": 0.7194487452507019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3606934547424316,
      "epoch": 5.4,
      "learning_rate": 3.5572949279899815e-05,
      "loss": 1.0516,
      "step": 6383,
      "task_loss": 1.1281007528305054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0855116844177246,
      "epoch": 5.4,
      "learning_rate": 3.556981840951785e-05,
      "loss": 1.2387,
      "step": 6384,
      "task_loss": 1.7949036359786987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8361400961875916,
      "epoch": 5.4,
      "learning_rate": 3.556668753913588e-05,
      "loss": 1.0641,
      "step": 6385,
      "task_loss": 1.1838756799697876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0090287923812866,
      "epoch": 5.4,
      "learning_rate": 3.556355666875392e-05,
      "loss": 1.1008,
      "step": 6386,
      "task_loss": 1.0565695762634277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2167842388153076,
      "epoch": 5.4,
      "learning_rate": 3.556042579837195e-05,
      "loss": 1.4077,
      "step": 6387,
      "task_loss": 0.8098171949386597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2641569375991821,
      "epoch": 5.4,
      "learning_rate": 3.555729492798998e-05,
      "loss": 1.048,
      "step": 6388,
      "task_loss": 0.684532105922699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48422402143478394,
      "epoch": 5.4,
      "learning_rate": 3.555416405760802e-05,
      "loss": 0.8169,
      "step": 6389,
      "task_loss": 0.03458156809210777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0898631811141968,
      "epoch": 5.4,
      "learning_rate": 3.555103318722605e-05,
      "loss": 1.249,
      "step": 6390,
      "task_loss": 1.5383977890014648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5663740634918213,
      "epoch": 5.4,
      "learning_rate": 3.554790231684408e-05,
      "loss": 1.1384,
      "step": 6391,
      "task_loss": 1.6336698532104492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3373264074325562,
      "epoch": 5.4,
      "learning_rate": 3.5544771446462115e-05,
      "loss": 1.1336,
      "step": 6392,
      "task_loss": 1.1092519760131836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9765065908432007,
      "epoch": 5.4,
      "learning_rate": 3.554164057608015e-05,
      "loss": 1.2489,
      "step": 6393,
      "task_loss": 0.5267802476882935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3448505401611328,
      "epoch": 5.4,
      "learning_rate": 3.5538509705698185e-05,
      "loss": 1.4271,
      "step": 6394,
      "task_loss": 0.9652625918388367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9564717411994934,
      "epoch": 5.41,
      "learning_rate": 3.553537883531622e-05,
      "loss": 0.9623,
      "step": 6395,
      "task_loss": 0.8883202075958252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.029958724975586,
      "epoch": 5.41,
      "learning_rate": 3.553224796493425e-05,
      "loss": 1.0507,
      "step": 6396,
      "task_loss": 0.8890610933303833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.024905800819397,
      "epoch": 5.41,
      "learning_rate": 3.552911709455229e-05,
      "loss": 1.2492,
      "step": 6397,
      "task_loss": 1.311061978340149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2415674924850464,
      "epoch": 5.41,
      "learning_rate": 3.552598622417032e-05,
      "loss": 1.2157,
      "step": 6398,
      "task_loss": 0.5983930230140686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4239780902862549,
      "epoch": 5.41,
      "learning_rate": 3.552285535378835e-05,
      "loss": 1.1966,
      "step": 6399,
      "task_loss": 1.8789446353912354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.14497709274292,
      "epoch": 5.41,
      "learning_rate": 3.551972448340639e-05,
      "loss": 1.1273,
      "step": 6400,
      "task_loss": 1.1997102499008179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6814292073249817,
      "epoch": 5.41,
      "learning_rate": 3.551659361302442e-05,
      "loss": 0.8111,
      "step": 6401,
      "task_loss": 1.1293572187423706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3477864265441895,
      "epoch": 5.41,
      "learning_rate": 3.551346274264245e-05,
      "loss": 1.2736,
      "step": 6402,
      "task_loss": 1.0622754096984863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0369722843170166,
      "epoch": 5.41,
      "learning_rate": 3.551033187226049e-05,
      "loss": 1.0143,
      "step": 6403,
      "task_loss": 1.410489559173584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9915076494216919,
      "epoch": 5.41,
      "learning_rate": 3.550720100187852e-05,
      "loss": 1.1132,
      "step": 6404,
      "task_loss": 0.8849968314170837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6930464506149292,
      "epoch": 5.41,
      "learning_rate": 3.550407013149656e-05,
      "loss": 0.9041,
      "step": 6405,
      "task_loss": 0.8408554792404175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.805408239364624,
      "epoch": 5.41,
      "learning_rate": 3.5500939261114593e-05,
      "loss": 0.9924,
      "step": 6406,
      "task_loss": 1.2217357158660889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.043248176574707,
      "epoch": 5.42,
      "learning_rate": 3.5497808390732625e-05,
      "loss": 0.8891,
      "step": 6407,
      "task_loss": 0.760205090045929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6690831184387207,
      "epoch": 5.42,
      "learning_rate": 3.5494677520350664e-05,
      "loss": 0.6997,
      "step": 6408,
      "task_loss": 0.6362285614013672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.378875494003296,
      "epoch": 5.42,
      "learning_rate": 3.5491546649968696e-05,
      "loss": 1.1929,
      "step": 6409,
      "task_loss": 0.9241880774497986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0608899593353271,
      "epoch": 5.42,
      "learning_rate": 3.548841577958673e-05,
      "loss": 0.9236,
      "step": 6410,
      "task_loss": 1.4076604843139648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.894716739654541,
      "epoch": 5.42,
      "learning_rate": 3.548528490920476e-05,
      "loss": 1.1169,
      "step": 6411,
      "task_loss": 2.19657826423645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7610044479370117,
      "epoch": 5.42,
      "learning_rate": 3.54821540388228e-05,
      "loss": 1.5881,
      "step": 6412,
      "task_loss": 1.3982621431350708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8727271556854248,
      "epoch": 5.42,
      "learning_rate": 3.547902316844083e-05,
      "loss": 0.7673,
      "step": 6413,
      "task_loss": 1.2706485986709595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0862258672714233,
      "epoch": 5.42,
      "learning_rate": 3.547589229805886e-05,
      "loss": 1.173,
      "step": 6414,
      "task_loss": 1.9012936353683472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0984699726104736,
      "epoch": 5.42,
      "learning_rate": 3.54727614276769e-05,
      "loss": 1.0339,
      "step": 6415,
      "task_loss": 0.5531238317489624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9166451692581177,
      "epoch": 5.42,
      "learning_rate": 3.546963055729493e-05,
      "loss": 0.9783,
      "step": 6416,
      "task_loss": 1.6301275491714478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4365322589874268,
      "epoch": 5.42,
      "learning_rate": 3.546649968691296e-05,
      "loss": 1.368,
      "step": 6417,
      "task_loss": 2.148007392883301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2964650392532349,
      "epoch": 5.42,
      "learning_rate": 3.5463368816530995e-05,
      "loss": 1.0093,
      "step": 6418,
      "task_loss": 0.8783218264579773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2808705568313599,
      "epoch": 5.43,
      "learning_rate": 3.5460237946149034e-05,
      "loss": 1.1724,
      "step": 6419,
      "task_loss": 1.403984785079956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0268559455871582,
      "epoch": 5.43,
      "learning_rate": 3.5457107075767065e-05,
      "loss": 1.1939,
      "step": 6420,
      "task_loss": 0.5887287855148315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6717723608016968,
      "epoch": 5.43,
      "learning_rate": 3.54539762053851e-05,
      "loss": 0.7753,
      "step": 6421,
      "task_loss": 0.8569459915161133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7973546385765076,
      "epoch": 5.43,
      "learning_rate": 3.545084533500313e-05,
      "loss": 1.1117,
      "step": 6422,
      "task_loss": 0.4460127055644989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9489736557006836,
      "epoch": 5.43,
      "learning_rate": 3.544771446462117e-05,
      "loss": 1.0671,
      "step": 6423,
      "task_loss": 0.7028795480728149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5548537969589233,
      "epoch": 5.43,
      "learning_rate": 3.54445835942392e-05,
      "loss": 1.025,
      "step": 6424,
      "task_loss": 0.37687283754348755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7320155501365662,
      "epoch": 5.43,
      "learning_rate": 3.544145272385723e-05,
      "loss": 0.8699,
      "step": 6425,
      "task_loss": 0.21868453919887543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2764171361923218,
      "epoch": 5.43,
      "learning_rate": 3.543832185347527e-05,
      "loss": 1.056,
      "step": 6426,
      "task_loss": 1.0537376403808594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.382278323173523,
      "epoch": 5.43,
      "learning_rate": 3.54351909830933e-05,
      "loss": 1.0163,
      "step": 6427,
      "task_loss": 1.5680608749389648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9561434388160706,
      "epoch": 5.43,
      "learning_rate": 3.543206011271133e-05,
      "loss": 0.8619,
      "step": 6428,
      "task_loss": 0.91252601146698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8495367765426636,
      "epoch": 5.43,
      "learning_rate": 3.5428929242329365e-05,
      "loss": 0.9401,
      "step": 6429,
      "task_loss": 0.4400724470615387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8920392990112305,
      "epoch": 5.44,
      "learning_rate": 3.5425798371947404e-05,
      "loss": 0.8833,
      "step": 6430,
      "task_loss": 0.1780775785446167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.16690993309021,
      "epoch": 5.44,
      "learning_rate": 3.5422667501565435e-05,
      "loss": 1.2268,
      "step": 6431,
      "task_loss": 0.5418632626533508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6882870197296143,
      "epoch": 5.44,
      "learning_rate": 3.541953663118347e-05,
      "loss": 0.9025,
      "step": 6432,
      "task_loss": 0.4388028681278229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205920219421387,
      "epoch": 5.44,
      "learning_rate": 3.54164057608015e-05,
      "loss": 1.1449,
      "step": 6433,
      "task_loss": 1.246321201324463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0943174362182617,
      "epoch": 5.44,
      "learning_rate": 3.541327489041954e-05,
      "loss": 1.1633,
      "step": 6434,
      "task_loss": 1.2947598695755005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1731948852539062,
      "epoch": 5.44,
      "learning_rate": 3.541014402003757e-05,
      "loss": 0.9418,
      "step": 6435,
      "task_loss": 0.850745677947998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1761341094970703,
      "epoch": 5.44,
      "learning_rate": 3.540701314965561e-05,
      "loss": 0.826,
      "step": 6436,
      "task_loss": 0.4950915277004242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0872869491577148,
      "epoch": 5.44,
      "learning_rate": 3.540388227927364e-05,
      "loss": 1.2235,
      "step": 6437,
      "task_loss": 1.366835117340088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8429986238479614,
      "epoch": 5.44,
      "learning_rate": 3.540075140889167e-05,
      "loss": 0.7758,
      "step": 6438,
      "task_loss": 0.5511539578437805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49486634135246277,
      "epoch": 5.44,
      "learning_rate": 3.539762053850971e-05,
      "loss": 0.7729,
      "step": 6439,
      "task_loss": 0.9223983883857727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1231046915054321,
      "epoch": 5.44,
      "learning_rate": 3.539448966812774e-05,
      "loss": 0.9615,
      "step": 6440,
      "task_loss": 1.4532215595245361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1274126768112183,
      "epoch": 5.44,
      "learning_rate": 3.539135879774578e-05,
      "loss": 1.03,
      "step": 6441,
      "task_loss": 1.2757904529571533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0556986331939697,
      "epoch": 5.45,
      "learning_rate": 3.538822792736381e-05,
      "loss": 1.2491,
      "step": 6442,
      "task_loss": 1.6777384281158447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9318726658821106,
      "epoch": 5.45,
      "learning_rate": 3.5385097056981844e-05,
      "loss": 0.8945,
      "step": 6443,
      "task_loss": 0.8508906960487366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7701947689056396,
      "epoch": 5.45,
      "learning_rate": 3.5381966186599876e-05,
      "loss": 1.0406,
      "step": 6444,
      "task_loss": 1.7601364850997925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4998117685317993,
      "epoch": 5.45,
      "learning_rate": 3.5378835316217914e-05,
      "loss": 1.5004,
      "step": 6445,
      "task_loss": 0.7875202894210815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4848902225494385,
      "epoch": 5.45,
      "learning_rate": 3.5375704445835946e-05,
      "loss": 1.4052,
      "step": 6446,
      "task_loss": 1.9354093074798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0804474353790283,
      "epoch": 5.45,
      "learning_rate": 3.537257357545398e-05,
      "loss": 0.8909,
      "step": 6447,
      "task_loss": 0.6980280876159668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8370321989059448,
      "epoch": 5.45,
      "learning_rate": 3.536944270507201e-05,
      "loss": 1.071,
      "step": 6448,
      "task_loss": 1.1746385097503662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5208892822265625,
      "epoch": 5.45,
      "learning_rate": 3.536631183469005e-05,
      "loss": 1.1156,
      "step": 6449,
      "task_loss": 1.6435749530792236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.302030563354492,
      "epoch": 5.45,
      "learning_rate": 3.536318096430808e-05,
      "loss": 1.2344,
      "step": 6450,
      "task_loss": 0.99325031042099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0033084154129028,
      "epoch": 5.45,
      "learning_rate": 3.536005009392611e-05,
      "loss": 0.9529,
      "step": 6451,
      "task_loss": 1.1598353385925293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5826972723007202,
      "epoch": 5.45,
      "learning_rate": 3.535691922354415e-05,
      "loss": 1.1298,
      "step": 6452,
      "task_loss": 0.46119174361228943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6729243993759155,
      "epoch": 5.45,
      "learning_rate": 3.535378835316218e-05,
      "loss": 0.9164,
      "step": 6453,
      "task_loss": 0.9528642892837524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4008054733276367,
      "epoch": 5.46,
      "learning_rate": 3.5350657482780214e-05,
      "loss": 1.4418,
      "step": 6454,
      "task_loss": 1.3965712785720825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2289025783538818,
      "epoch": 5.46,
      "learning_rate": 3.5347526612398246e-05,
      "loss": 1.0125,
      "step": 6455,
      "task_loss": 0.8698993921279907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8941463232040405,
      "epoch": 5.46,
      "learning_rate": 3.5344395742016284e-05,
      "loss": 1.1504,
      "step": 6456,
      "task_loss": 0.8088862895965576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8513845205307007,
      "epoch": 5.46,
      "learning_rate": 3.5341264871634316e-05,
      "loss": 0.9844,
      "step": 6457,
      "task_loss": 0.7091092467308044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2404515743255615,
      "epoch": 5.46,
      "learning_rate": 3.533813400125235e-05,
      "loss": 1.0635,
      "step": 6458,
      "task_loss": 0.7728650569915771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7164535522460938,
      "epoch": 5.46,
      "learning_rate": 3.533500313087038e-05,
      "loss": 0.8865,
      "step": 6459,
      "task_loss": 0.5366823077201843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7448195219039917,
      "epoch": 5.46,
      "learning_rate": 3.533187226048842e-05,
      "loss": 1.2805,
      "step": 6460,
      "task_loss": 1.6417980194091797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3164863586425781,
      "epoch": 5.46,
      "learning_rate": 3.532874139010645e-05,
      "loss": 1.18,
      "step": 6461,
      "task_loss": 2.3099007606506348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0012719631195068,
      "epoch": 5.46,
      "learning_rate": 3.532561051972448e-05,
      "loss": 0.9963,
      "step": 6462,
      "task_loss": 0.9332010746002197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7868875861167908,
      "epoch": 5.46,
      "learning_rate": 3.532247964934252e-05,
      "loss": 1.1501,
      "step": 6463,
      "task_loss": 0.4712570905685425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2785568237304688,
      "epoch": 5.46,
      "learning_rate": 3.531934877896055e-05,
      "loss": 1.104,
      "step": 6464,
      "task_loss": 0.8090829253196716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9002989530563354,
      "epoch": 5.46,
      "learning_rate": 3.5316217908578584e-05,
      "loss": 0.9781,
      "step": 6465,
      "task_loss": 1.4962294101715088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.257664442062378,
      "epoch": 5.47,
      "learning_rate": 3.5313087038196616e-05,
      "loss": 0.9879,
      "step": 6466,
      "task_loss": 0.604256272315979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0811975002288818,
      "epoch": 5.47,
      "learning_rate": 3.5309956167814654e-05,
      "loss": 0.9147,
      "step": 6467,
      "task_loss": 1.7866227626800537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.10722017288208,
      "epoch": 5.47,
      "learning_rate": 3.5306825297432686e-05,
      "loss": 1.236,
      "step": 6468,
      "task_loss": 0.868015706539154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7373790740966797,
      "epoch": 5.47,
      "learning_rate": 3.530369442705072e-05,
      "loss": 1.278,
      "step": 6469,
      "task_loss": 2.4480528831481934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5817369222640991,
      "epoch": 5.47,
      "learning_rate": 3.5300563556668756e-05,
      "loss": 0.9688,
      "step": 6470,
      "task_loss": 0.4144582152366638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7592877149581909,
      "epoch": 5.47,
      "learning_rate": 3.529743268628679e-05,
      "loss": 0.9319,
      "step": 6471,
      "task_loss": 0.8928740620613098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6836357116699219,
      "epoch": 5.47,
      "learning_rate": 3.5294301815904827e-05,
      "loss": 0.9617,
      "step": 6472,
      "task_loss": 0.4807351231575012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4256367683410645,
      "epoch": 5.47,
      "learning_rate": 3.529117094552286e-05,
      "loss": 1.1211,
      "step": 6473,
      "task_loss": 1.6320196390151978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1116664409637451,
      "epoch": 5.47,
      "learning_rate": 3.52880400751409e-05,
      "loss": 1.1754,
      "step": 6474,
      "task_loss": 1.462411880493164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2853585481643677,
      "epoch": 5.47,
      "learning_rate": 3.528490920475893e-05,
      "loss": 0.9127,
      "step": 6475,
      "task_loss": 0.8428748846054077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7872532606124878,
      "epoch": 5.47,
      "learning_rate": 3.528177833437696e-05,
      "loss": 0.864,
      "step": 6476,
      "task_loss": 1.4581531286239624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4191910028457642,
      "epoch": 5.47,
      "learning_rate": 3.527864746399499e-05,
      "loss": 1.0942,
      "step": 6477,
      "task_loss": 1.3727918863296509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.983662486076355,
      "epoch": 5.48,
      "learning_rate": 3.527551659361303e-05,
      "loss": 1.0297,
      "step": 6478,
      "task_loss": 1.3408384323120117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6133733987808228,
      "epoch": 5.48,
      "learning_rate": 3.527238572323106e-05,
      "loss": 1.0162,
      "step": 6479,
      "task_loss": 0.6349960565567017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7707383036613464,
      "epoch": 5.48,
      "learning_rate": 3.5269254852849094e-05,
      "loss": 1.037,
      "step": 6480,
      "task_loss": 0.9542657136917114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0545612573623657,
      "epoch": 5.48,
      "learning_rate": 3.5266123982467126e-05,
      "loss": 0.8118,
      "step": 6481,
      "task_loss": 0.502586305141449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5072686672210693,
      "epoch": 5.48,
      "learning_rate": 3.5262993112085165e-05,
      "loss": 1.4636,
      "step": 6482,
      "task_loss": 1.1138575077056885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1153607368469238,
      "epoch": 5.48,
      "learning_rate": 3.5259862241703196e-05,
      "loss": 1.0795,
      "step": 6483,
      "task_loss": 0.6796573996543884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4949363470077515,
      "epoch": 5.48,
      "learning_rate": 3.525673137132123e-05,
      "loss": 1.0714,
      "step": 6484,
      "task_loss": 1.1958705186843872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9910521507263184,
      "epoch": 5.48,
      "learning_rate": 3.525360050093926e-05,
      "loss": 1.0868,
      "step": 6485,
      "task_loss": 1.100682020187378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3897485733032227,
      "epoch": 5.48,
      "learning_rate": 3.52504696305573e-05,
      "loss": 1.1183,
      "step": 6486,
      "task_loss": 1.3168612718582153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7732568979263306,
      "epoch": 5.48,
      "learning_rate": 3.524733876017533e-05,
      "loss": 1.1708,
      "step": 6487,
      "task_loss": 0.911601722240448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.383826732635498,
      "epoch": 5.48,
      "learning_rate": 3.524420788979336e-05,
      "loss": 1.0695,
      "step": 6488,
      "task_loss": 0.7365452647209167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5717445611953735,
      "epoch": 5.48,
      "learning_rate": 3.52410770194114e-05,
      "loss": 1.2136,
      "step": 6489,
      "task_loss": 0.9712956547737122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4830011129379272,
      "epoch": 5.49,
      "learning_rate": 3.523794614902943e-05,
      "loss": 1.0446,
      "step": 6490,
      "task_loss": 1.6223558187484741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.969512939453125,
      "epoch": 5.49,
      "learning_rate": 3.5234815278647464e-05,
      "loss": 1.085,
      "step": 6491,
      "task_loss": 2.7358968257904053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9703763127326965,
      "epoch": 5.49,
      "learning_rate": 3.5231684408265496e-05,
      "loss": 0.7666,
      "step": 6492,
      "task_loss": 0.28145283460617065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5131440162658691,
      "epoch": 5.49,
      "learning_rate": 3.5228553537883535e-05,
      "loss": 1.0463,
      "step": 6493,
      "task_loss": 1.3012194633483887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2698523998260498,
      "epoch": 5.49,
      "learning_rate": 3.5225422667501566e-05,
      "loss": 0.9708,
      "step": 6494,
      "task_loss": 0.6339731812477112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7602527141571045,
      "epoch": 5.49,
      "learning_rate": 3.52222917971196e-05,
      "loss": 1.2085,
      "step": 6495,
      "task_loss": 0.9359627962112427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5748775005340576,
      "epoch": 5.49,
      "learning_rate": 3.521916092673763e-05,
      "loss": 1.3184,
      "step": 6496,
      "task_loss": 1.90810227394104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6938300132751465,
      "epoch": 5.49,
      "learning_rate": 3.521603005635567e-05,
      "loss": 0.9497,
      "step": 6497,
      "task_loss": 1.8549816608428955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1808998584747314,
      "epoch": 5.49,
      "learning_rate": 3.52128991859737e-05,
      "loss": 0.9969,
      "step": 6498,
      "task_loss": 1.2452946901321411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9807001948356628,
      "epoch": 5.49,
      "learning_rate": 3.520976831559173e-05,
      "loss": 0.8768,
      "step": 6499,
      "task_loss": 0.9641425609588623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3169949054718018,
      "epoch": 5.49,
      "learning_rate": 3.520663744520977e-05,
      "loss": 1.2549,
      "step": 6500,
      "task_loss": 0.8817269802093506
    },
    {
      "epoch": 5.49,
      "eval_accuracy": 0.8695049504950495,
      "eval_loss": 0.6559610962867737,
      "eval_runtime": 207.402,
      "eval_samples_per_second": 121.744,
      "eval_steps_per_second": 0.955,
      "step": 6500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7670607566833496,
      "epoch": 5.5,
      "learning_rate": 3.52035065748278e-05,
      "loss": 0.8803,
      "step": 6501,
      "task_loss": 0.7151564359664917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7319363951683044,
      "epoch": 5.5,
      "learning_rate": 3.5200375704445834e-05,
      "loss": 0.9675,
      "step": 6502,
      "task_loss": 0.9163309335708618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8991597890853882,
      "epoch": 5.5,
      "learning_rate": 3.519724483406387e-05,
      "loss": 0.8684,
      "step": 6503,
      "task_loss": 0.6093701720237732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5415489673614502,
      "epoch": 5.5,
      "learning_rate": 3.5194113963681905e-05,
      "loss": 1.1494,
      "step": 6504,
      "task_loss": 1.149862289428711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3731272220611572,
      "epoch": 5.5,
      "learning_rate": 3.5190983093299936e-05,
      "loss": 0.9227,
      "step": 6505,
      "task_loss": 1.0957105159759521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.348618745803833,
      "epoch": 5.5,
      "learning_rate": 3.5187852222917975e-05,
      "loss": 1.1458,
      "step": 6506,
      "task_loss": 1.3253443241119385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7232856750488281,
      "epoch": 5.5,
      "learning_rate": 3.518472135253601e-05,
      "loss": 0.8952,
      "step": 6507,
      "task_loss": 1.0806362628936768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9598774909973145,
      "epoch": 5.5,
      "learning_rate": 3.5181590482154045e-05,
      "loss": 1.0199,
      "step": 6508,
      "task_loss": 0.6651568412780762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0539076328277588,
      "epoch": 5.5,
      "learning_rate": 3.517845961177208e-05,
      "loss": 0.9468,
      "step": 6509,
      "task_loss": 0.9811800122261047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7784957885742188,
      "epoch": 5.5,
      "learning_rate": 3.517532874139011e-05,
      "loss": 1.0631,
      "step": 6510,
      "task_loss": 0.7335864901542664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5568876266479492,
      "epoch": 5.5,
      "learning_rate": 3.517219787100815e-05,
      "loss": 1.2281,
      "step": 6511,
      "task_loss": 1.3201439380645752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3929016590118408,
      "epoch": 5.5,
      "learning_rate": 3.516906700062618e-05,
      "loss": 1.2498,
      "step": 6512,
      "task_loss": 1.6513925790786743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1124606132507324,
      "epoch": 5.51,
      "learning_rate": 3.516593613024421e-05,
      "loss": 0.9565,
      "step": 6513,
      "task_loss": 1.105628252029419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8921550512313843,
      "epoch": 5.51,
      "learning_rate": 3.516280525986224e-05,
      "loss": 1.1308,
      "step": 6514,
      "task_loss": 1.1509788036346436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5551445484161377,
      "epoch": 5.51,
      "learning_rate": 3.515967438948028e-05,
      "loss": 0.9553,
      "step": 6515,
      "task_loss": 1.257402777671814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9353476762771606,
      "epoch": 5.51,
      "learning_rate": 3.515654351909831e-05,
      "loss": 1.0768,
      "step": 6516,
      "task_loss": 1.0882173776626587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1788185834884644,
      "epoch": 5.51,
      "learning_rate": 3.5153412648716345e-05,
      "loss": 1.0226,
      "step": 6517,
      "task_loss": 0.7314975261688232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3897722959518433,
      "epoch": 5.51,
      "learning_rate": 3.5150281778334377e-05,
      "loss": 0.9851,
      "step": 6518,
      "task_loss": 1.3822243213653564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1716434955596924,
      "epoch": 5.51,
      "learning_rate": 3.5147150907952415e-05,
      "loss": 1.1943,
      "step": 6519,
      "task_loss": 1.1102166175842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1207398176193237,
      "epoch": 5.51,
      "learning_rate": 3.514402003757045e-05,
      "loss": 1.0405,
      "step": 6520,
      "task_loss": 0.8855395913124084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3094619512557983,
      "epoch": 5.51,
      "learning_rate": 3.514088916718848e-05,
      "loss": 1.2825,
      "step": 6521,
      "task_loss": 0.7750612497329712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8269303441047668,
      "epoch": 5.51,
      "learning_rate": 3.513775829680652e-05,
      "loss": 0.7399,
      "step": 6522,
      "task_loss": 1.052710771560669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3154716491699219,
      "epoch": 5.51,
      "learning_rate": 3.513462742642455e-05,
      "loss": 1.1467,
      "step": 6523,
      "task_loss": 1.5675305128097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6334990859031677,
      "epoch": 5.51,
      "learning_rate": 3.513149655604258e-05,
      "loss": 0.8651,
      "step": 6524,
      "task_loss": 0.12033046782016754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2443420886993408,
      "epoch": 5.52,
      "learning_rate": 3.512836568566061e-05,
      "loss": 1.1491,
      "step": 6525,
      "task_loss": 1.225780725479126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6865392327308655,
      "epoch": 5.52,
      "learning_rate": 3.512523481527865e-05,
      "loss": 1.2938,
      "step": 6526,
      "task_loss": 0.28426221013069153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8913328051567078,
      "epoch": 5.52,
      "learning_rate": 3.512210394489668e-05,
      "loss": 0.7977,
      "step": 6527,
      "task_loss": 0.49008986353874207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1251304149627686,
      "epoch": 5.52,
      "learning_rate": 3.5118973074514715e-05,
      "loss": 1.3192,
      "step": 6528,
      "task_loss": 1.0135204792022705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0962631702423096,
      "epoch": 5.52,
      "learning_rate": 3.5115842204132746e-05,
      "loss": 0.9487,
      "step": 6529,
      "task_loss": 1.0452762842178345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9359259605407715,
      "epoch": 5.52,
      "learning_rate": 3.5112711333750785e-05,
      "loss": 1.1064,
      "step": 6530,
      "task_loss": 1.3839014768600464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9288924932479858,
      "epoch": 5.52,
      "learning_rate": 3.510958046336882e-05,
      "loss": 1.0674,
      "step": 6531,
      "task_loss": 1.4705004692077637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4037395715713501,
      "epoch": 5.52,
      "learning_rate": 3.510644959298685e-05,
      "loss": 0.7232,
      "step": 6532,
      "task_loss": 0.4161471724510193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1633098125457764,
      "epoch": 5.52,
      "learning_rate": 3.510331872260488e-05,
      "loss": 1.1275,
      "step": 6533,
      "task_loss": 1.3454216718673706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5863195657730103,
      "epoch": 5.52,
      "learning_rate": 3.510018785222292e-05,
      "loss": 1.0411,
      "step": 6534,
      "task_loss": 0.6057096719741821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4624860286712646,
      "epoch": 5.52,
      "learning_rate": 3.509705698184095e-05,
      "loss": 1.0456,
      "step": 6535,
      "task_loss": 2.005662202835083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.645957350730896,
      "epoch": 5.52,
      "learning_rate": 3.509392611145898e-05,
      "loss": 1.326,
      "step": 6536,
      "task_loss": 0.5554060935974121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5946741104125977,
      "epoch": 5.53,
      "learning_rate": 3.509079524107702e-05,
      "loss": 1.3208,
      "step": 6537,
      "task_loss": 1.5686017274856567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8540177941322327,
      "epoch": 5.53,
      "learning_rate": 3.508766437069505e-05,
      "loss": 1.0841,
      "step": 6538,
      "task_loss": 0.5751433372497559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2663617134094238,
      "epoch": 5.53,
      "learning_rate": 3.508453350031309e-05,
      "loss": 1.1079,
      "step": 6539,
      "task_loss": 1.0886826515197754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3480929136276245,
      "epoch": 5.53,
      "learning_rate": 3.508140262993112e-05,
      "loss": 1.0562,
      "step": 6540,
      "task_loss": 1.168260931968689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4563570022583008,
      "epoch": 5.53,
      "learning_rate": 3.5078271759549155e-05,
      "loss": 1.0836,
      "step": 6541,
      "task_loss": 0.7335141897201538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0891141891479492,
      "epoch": 5.53,
      "learning_rate": 3.5075140889167194e-05,
      "loss": 1.0403,
      "step": 6542,
      "task_loss": 0.5779906511306763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0670543909072876,
      "epoch": 5.53,
      "learning_rate": 3.5072010018785225e-05,
      "loss": 1.2481,
      "step": 6543,
      "task_loss": 1.1764647960662842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2829759120941162,
      "epoch": 5.53,
      "learning_rate": 3.506887914840326e-05,
      "loss": 1.0864,
      "step": 6544,
      "task_loss": 1.3481394052505493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5074011087417603,
      "epoch": 5.53,
      "learning_rate": 3.5065748278021296e-05,
      "loss": 0.7245,
      "step": 6545,
      "task_loss": 0.26960498094558716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7399095296859741,
      "epoch": 5.53,
      "learning_rate": 3.506261740763933e-05,
      "loss": 0.8705,
      "step": 6546,
      "task_loss": 1.1187796592712402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6609180569648743,
      "epoch": 5.53,
      "learning_rate": 3.505948653725736e-05,
      "loss": 1.2716,
      "step": 6547,
      "task_loss": 0.061413299292325974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.049589991569519,
      "epoch": 5.53,
      "learning_rate": 3.50563556668754e-05,
      "loss": 0.8063,
      "step": 6548,
      "task_loss": 0.41330164670944214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.926830530166626,
      "epoch": 5.54,
      "learning_rate": 3.505322479649343e-05,
      "loss": 0.9592,
      "step": 6549,
      "task_loss": 1.2271808385849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6236917972564697,
      "epoch": 5.54,
      "learning_rate": 3.505009392611146e-05,
      "loss": 1.0733,
      "step": 6550,
      "task_loss": 1.2977533340454102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8228510618209839,
      "epoch": 5.54,
      "learning_rate": 3.504696305572949e-05,
      "loss": 0.7877,
      "step": 6551,
      "task_loss": 0.7246243357658386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.691398561000824,
      "epoch": 5.54,
      "learning_rate": 3.504383218534753e-05,
      "loss": 1.0765,
      "step": 6552,
      "task_loss": 1.2479419708251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6601076722145081,
      "epoch": 5.54,
      "learning_rate": 3.5040701314965563e-05,
      "loss": 0.9668,
      "step": 6553,
      "task_loss": 0.6847500801086426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7214894890785217,
      "epoch": 5.54,
      "learning_rate": 3.5037570444583595e-05,
      "loss": 1.1393,
      "step": 6554,
      "task_loss": 0.8153467774391174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7717337012290955,
      "epoch": 5.54,
      "learning_rate": 3.503443957420163e-05,
      "loss": 0.7879,
      "step": 6555,
      "task_loss": 0.7754324078559875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5205346345901489,
      "epoch": 5.54,
      "learning_rate": 3.5031308703819666e-05,
      "loss": 0.9855,
      "step": 6556,
      "task_loss": 0.44444555044174194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0046558380126953,
      "epoch": 5.54,
      "learning_rate": 3.50281778334377e-05,
      "loss": 0.8146,
      "step": 6557,
      "task_loss": 1.6004341840744019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2292954921722412,
      "epoch": 5.54,
      "learning_rate": 3.502504696305573e-05,
      "loss": 1.0806,
      "step": 6558,
      "task_loss": 1.984984040260315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0625687837600708,
      "epoch": 5.54,
      "learning_rate": 3.502191609267377e-05,
      "loss": 0.9596,
      "step": 6559,
      "task_loss": 0.5812765955924988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7357698082923889,
      "epoch": 5.54,
      "learning_rate": 3.50187852222918e-05,
      "loss": 0.8694,
      "step": 6560,
      "task_loss": 0.7406274080276489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1158151626586914,
      "epoch": 5.55,
      "learning_rate": 3.501565435190983e-05,
      "loss": 1.1039,
      "step": 6561,
      "task_loss": 1.0075116157531738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3593974113464355,
      "epoch": 5.55,
      "learning_rate": 3.501252348152786e-05,
      "loss": 1.1365,
      "step": 6562,
      "task_loss": 1.1892555952072144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8201116323471069,
      "epoch": 5.55,
      "learning_rate": 3.50093926111459e-05,
      "loss": 0.7729,
      "step": 6563,
      "task_loss": 0.49186307191848755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7462435364723206,
      "epoch": 5.55,
      "learning_rate": 3.500626174076393e-05,
      "loss": 1.1225,
      "step": 6564,
      "task_loss": 1.2363544702529907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9348537921905518,
      "epoch": 5.55,
      "learning_rate": 3.5003130870381965e-05,
      "loss": 0.8363,
      "step": 6565,
      "task_loss": 2.0546114444732666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9056026339530945,
      "epoch": 5.55,
      "learning_rate": 3.5e-05,
      "loss": 1.001,
      "step": 6566,
      "task_loss": 1.2001638412475586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9921395778656006,
      "epoch": 5.55,
      "learning_rate": 3.4996869129618035e-05,
      "loss": 1.1643,
      "step": 6567,
      "task_loss": 1.0145716667175293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7653767466545105,
      "epoch": 5.55,
      "learning_rate": 3.499373825923607e-05,
      "loss": 0.8758,
      "step": 6568,
      "task_loss": 1.3037340641021729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.338374137878418,
      "epoch": 5.55,
      "learning_rate": 3.49906073888541e-05,
      "loss": 1.3433,
      "step": 6569,
      "task_loss": 0.7541374564170837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2296284437179565,
      "epoch": 5.55,
      "learning_rate": 3.498747651847214e-05,
      "loss": 0.8261,
      "step": 6570,
      "task_loss": 1.3932433128356934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4434834718704224,
      "epoch": 5.55,
      "learning_rate": 3.498434564809017e-05,
      "loss": 1.0627,
      "step": 6571,
      "task_loss": 1.5315967798233032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.097566843032837,
      "epoch": 5.56,
      "learning_rate": 3.49812147777082e-05,
      "loss": 0.9811,
      "step": 6572,
      "task_loss": 0.6884433627128601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8986769914627075,
      "epoch": 5.56,
      "learning_rate": 3.497808390732624e-05,
      "loss": 1.0605,
      "step": 6573,
      "task_loss": 0.27439364790916443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8275444507598877,
      "epoch": 5.56,
      "learning_rate": 3.497495303694427e-05,
      "loss": 1.022,
      "step": 6574,
      "task_loss": 1.1512285470962524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0177621841430664,
      "epoch": 5.56,
      "learning_rate": 3.497182216656231e-05,
      "loss": 0.9234,
      "step": 6575,
      "task_loss": 0.9589892029762268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.804730236530304,
      "epoch": 5.56,
      "learning_rate": 3.496869129618034e-05,
      "loss": 1.3831,
      "step": 6576,
      "task_loss": 0.4312915503978729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3546161651611328,
      "epoch": 5.56,
      "learning_rate": 3.4965560425798374e-05,
      "loss": 0.8985,
      "step": 6577,
      "task_loss": 1.315101981163025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3033215999603271,
      "epoch": 5.56,
      "learning_rate": 3.496242955541641e-05,
      "loss": 1.3394,
      "step": 6578,
      "task_loss": 2.160012722015381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5016425848007202,
      "epoch": 5.56,
      "learning_rate": 3.4959298685034444e-05,
      "loss": 0.6612,
      "step": 6579,
      "task_loss": 0.2701767086982727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1882069110870361,
      "epoch": 5.56,
      "learning_rate": 3.4956167814652476e-05,
      "loss": 0.7864,
      "step": 6580,
      "task_loss": 1.39484441280365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9984457492828369,
      "epoch": 5.56,
      "learning_rate": 3.495303694427051e-05,
      "loss": 0.8067,
      "step": 6581,
      "task_loss": 0.733373761177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1925852298736572,
      "epoch": 5.56,
      "learning_rate": 3.4949906073888546e-05,
      "loss": 1.0737,
      "step": 6582,
      "task_loss": 2.019429922103882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3052089214324951,
      "epoch": 5.56,
      "learning_rate": 3.494677520350658e-05,
      "loss": 1.1183,
      "step": 6583,
      "task_loss": 1.0307042598724365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6474347710609436,
      "epoch": 5.57,
      "learning_rate": 3.494364433312461e-05,
      "loss": 0.8668,
      "step": 6584,
      "task_loss": 0.6333401203155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7065171003341675,
      "epoch": 5.57,
      "learning_rate": 3.494051346274265e-05,
      "loss": 0.6682,
      "step": 6585,
      "task_loss": 0.8855287432670593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9136041402816772,
      "epoch": 5.57,
      "learning_rate": 3.493738259236068e-05,
      "loss": 1.0847,
      "step": 6586,
      "task_loss": 0.986397922039032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1949249505996704,
      "epoch": 5.57,
      "learning_rate": 3.493425172197871e-05,
      "loss": 0.955,
      "step": 6587,
      "task_loss": 1.2919868230819702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7149330377578735,
      "epoch": 5.57,
      "learning_rate": 3.4931120851596744e-05,
      "loss": 0.7936,
      "step": 6588,
      "task_loss": 0.43637216091156006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0504767894744873,
      "epoch": 5.57,
      "learning_rate": 3.492798998121478e-05,
      "loss": 0.9961,
      "step": 6589,
      "task_loss": 0.951395571231842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8962199687957764,
      "epoch": 5.57,
      "learning_rate": 3.4924859110832814e-05,
      "loss": 1.0348,
      "step": 6590,
      "task_loss": 1.1037795543670654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.402076005935669,
      "epoch": 5.57,
      "learning_rate": 3.4921728240450846e-05,
      "loss": 1.1394,
      "step": 6591,
      "task_loss": 1.0215140581130981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8759152889251709,
      "epoch": 5.57,
      "learning_rate": 3.491859737006888e-05,
      "loss": 0.9754,
      "step": 6592,
      "task_loss": 1.1429678201675415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2350777387619019,
      "epoch": 5.57,
      "learning_rate": 3.4915466499686916e-05,
      "loss": 1.0464,
      "step": 6593,
      "task_loss": 0.7531865835189819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2301359176635742,
      "epoch": 5.57,
      "learning_rate": 3.491233562930495e-05,
      "loss": 1.1181,
      "step": 6594,
      "task_loss": 1.2469125986099243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6570467948913574,
      "epoch": 5.57,
      "learning_rate": 3.490920475892298e-05,
      "loss": 1.3735,
      "step": 6595,
      "task_loss": 1.5098928213119507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0289840698242188,
      "epoch": 5.58,
      "learning_rate": 3.490607388854102e-05,
      "loss": 1.2972,
      "step": 6596,
      "task_loss": 1.584557294845581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8213797211647034,
      "epoch": 5.58,
      "learning_rate": 3.490294301815905e-05,
      "loss": 0.9932,
      "step": 6597,
      "task_loss": 0.20164215564727783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.704422116279602,
      "epoch": 5.58,
      "learning_rate": 3.489981214777708e-05,
      "loss": 0.8943,
      "step": 6598,
      "task_loss": 0.4473611116409302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.005910038948059,
      "epoch": 5.58,
      "learning_rate": 3.4896681277395113e-05,
      "loss": 1.0494,
      "step": 6599,
      "task_loss": 0.9249246120452881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7101396322250366,
      "epoch": 5.58,
      "learning_rate": 3.489355040701315e-05,
      "loss": 0.8846,
      "step": 6600,
      "task_loss": 1.1577047109603882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1190091371536255,
      "epoch": 5.58,
      "learning_rate": 3.4890419536631184e-05,
      "loss": 1.1515,
      "step": 6601,
      "task_loss": 1.59475576877594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.817979633808136,
      "epoch": 5.58,
      "learning_rate": 3.4887288666249216e-05,
      "loss": 1.0701,
      "step": 6602,
      "task_loss": 0.7703238725662231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0304832458496094,
      "epoch": 5.58,
      "learning_rate": 3.488415779586725e-05,
      "loss": 0.9782,
      "step": 6603,
      "task_loss": 1.2944889068603516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0177359580993652,
      "epoch": 5.58,
      "learning_rate": 3.4881026925485286e-05,
      "loss": 1.0029,
      "step": 6604,
      "task_loss": 0.5953258872032166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0797600746154785,
      "epoch": 5.58,
      "learning_rate": 3.487789605510332e-05,
      "loss": 0.8184,
      "step": 6605,
      "task_loss": 0.7229672074317932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7886568307876587,
      "epoch": 5.58,
      "learning_rate": 3.4874765184721356e-05,
      "loss": 0.8895,
      "step": 6606,
      "task_loss": 0.7107439637184143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0582889318466187,
      "epoch": 5.58,
      "learning_rate": 3.487163431433939e-05,
      "loss": 1.0689,
      "step": 6607,
      "task_loss": 1.2527813911437988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0404630899429321,
      "epoch": 5.59,
      "learning_rate": 3.486850344395742e-05,
      "loss": 1.0704,
      "step": 6608,
      "task_loss": 1.0951716899871826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9468684196472168,
      "epoch": 5.59,
      "learning_rate": 3.486537257357546e-05,
      "loss": 1.0025,
      "step": 6609,
      "task_loss": 0.9522283673286438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6813836693763733,
      "epoch": 5.59,
      "learning_rate": 3.486224170319349e-05,
      "loss": 1.114,
      "step": 6610,
      "task_loss": 1.2223799228668213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6244620680809021,
      "epoch": 5.59,
      "learning_rate": 3.485911083281153e-05,
      "loss": 0.8879,
      "step": 6611,
      "task_loss": 0.7821725606918335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9846162796020508,
      "epoch": 5.59,
      "learning_rate": 3.485597996242956e-05,
      "loss": 0.9457,
      "step": 6612,
      "task_loss": 1.5154057741165161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8304262161254883,
      "epoch": 5.59,
      "learning_rate": 3.485284909204759e-05,
      "loss": 1.0244,
      "step": 6613,
      "task_loss": 0.36280563473701477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1766122579574585,
      "epoch": 5.59,
      "learning_rate": 3.4849718221665624e-05,
      "loss": 1.015,
      "step": 6614,
      "task_loss": 0.7364667654037476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6606078147888184,
      "epoch": 5.59,
      "learning_rate": 3.484658735128366e-05,
      "loss": 0.9244,
      "step": 6615,
      "task_loss": 1.0123035907745361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1629263162612915,
      "epoch": 5.59,
      "learning_rate": 3.4843456480901694e-05,
      "loss": 1.1467,
      "step": 6616,
      "task_loss": 1.5898222923278809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.167676329612732,
      "epoch": 5.59,
      "learning_rate": 3.4840325610519726e-05,
      "loss": 0.9543,
      "step": 6617,
      "task_loss": 1.167914628982544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0045502185821533,
      "epoch": 5.59,
      "learning_rate": 3.483719474013776e-05,
      "loss": 1.0782,
      "step": 6618,
      "task_loss": 1.3196532726287842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7791489362716675,
      "epoch": 5.59,
      "learning_rate": 3.4834063869755797e-05,
      "loss": 0.794,
      "step": 6619,
      "task_loss": 1.628294825553894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6722187995910645,
      "epoch": 5.6,
      "learning_rate": 3.483093299937383e-05,
      "loss": 0.8854,
      "step": 6620,
      "task_loss": 0.8673161864280701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9036926031112671,
      "epoch": 5.6,
      "learning_rate": 3.482780212899186e-05,
      "loss": 0.9781,
      "step": 6621,
      "task_loss": 0.5865060687065125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8528828620910645,
      "epoch": 5.6,
      "learning_rate": 3.48246712586099e-05,
      "loss": 0.9903,
      "step": 6622,
      "task_loss": 1.3568795919418335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9477301836013794,
      "epoch": 5.6,
      "learning_rate": 3.482154038822793e-05,
      "loss": 0.9029,
      "step": 6623,
      "task_loss": 1.4101219177246094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7083646059036255,
      "epoch": 5.6,
      "learning_rate": 3.481840951784596e-05,
      "loss": 0.8989,
      "step": 6624,
      "task_loss": 0.9004839062690735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503624677658081,
      "epoch": 5.6,
      "learning_rate": 3.4815278647463994e-05,
      "loss": 0.8147,
      "step": 6625,
      "task_loss": 0.1812506765127182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6054623126983643,
      "epoch": 5.6,
      "learning_rate": 3.481214777708203e-05,
      "loss": 1.4559,
      "step": 6626,
      "task_loss": 1.633237600326538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2052398920059204,
      "epoch": 5.6,
      "learning_rate": 3.4809016906700064e-05,
      "loss": 0.7694,
      "step": 6627,
      "task_loss": 1.1953551769256592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.959985613822937,
      "epoch": 5.6,
      "learning_rate": 3.4805886036318096e-05,
      "loss": 1.0205,
      "step": 6628,
      "task_loss": 0.7583950757980347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6330899000167847,
      "epoch": 5.6,
      "learning_rate": 3.480275516593613e-05,
      "loss": 0.8541,
      "step": 6629,
      "task_loss": 0.8433346748352051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7329245209693909,
      "epoch": 5.6,
      "learning_rate": 3.4799624295554166e-05,
      "loss": 0.7923,
      "step": 6630,
      "task_loss": 0.4547787308692932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43918758630752563,
      "epoch": 5.6,
      "learning_rate": 3.47964934251722e-05,
      "loss": 0.8019,
      "step": 6631,
      "task_loss": 1.0181941986083984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8630151152610779,
      "epoch": 5.61,
      "learning_rate": 3.479336255479023e-05,
      "loss": 0.7777,
      "step": 6632,
      "task_loss": 0.6050834059715271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.54451984167099,
      "epoch": 5.61,
      "learning_rate": 3.479023168440827e-05,
      "loss": 1.1746,
      "step": 6633,
      "task_loss": 0.8030322194099426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1862462759017944,
      "epoch": 5.61,
      "learning_rate": 3.47871008140263e-05,
      "loss": 1.2328,
      "step": 6634,
      "task_loss": 0.7088916897773743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8252637982368469,
      "epoch": 5.61,
      "learning_rate": 3.478396994364433e-05,
      "loss": 1.0052,
      "step": 6635,
      "task_loss": 0.5815935730934143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.0381293296813965,
      "epoch": 5.61,
      "learning_rate": 3.4780839073262364e-05,
      "loss": 1.2364,
      "step": 6636,
      "task_loss": 1.6578774452209473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8960502743721008,
      "epoch": 5.61,
      "learning_rate": 3.47777082028804e-05,
      "loss": 0.9219,
      "step": 6637,
      "task_loss": 0.6694778203964233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6250662803649902,
      "epoch": 5.61,
      "learning_rate": 3.4774577332498434e-05,
      "loss": 1.2718,
      "step": 6638,
      "task_loss": 1.4790406227111816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3996056020259857,
      "epoch": 5.61,
      "learning_rate": 3.4771446462116466e-05,
      "loss": 0.9881,
      "step": 6639,
      "task_loss": 0.19963154196739197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5398781299591064,
      "epoch": 5.61,
      "learning_rate": 3.4768315591734505e-05,
      "loss": 0.8348,
      "step": 6640,
      "task_loss": 0.8020597696304321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9610475301742554,
      "epoch": 5.61,
      "learning_rate": 3.4765184721352536e-05,
      "loss": 1.032,
      "step": 6641,
      "task_loss": 1.1197824478149414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5821443796157837,
      "epoch": 5.61,
      "learning_rate": 3.4762053850970575e-05,
      "loss": 0.8396,
      "step": 6642,
      "task_loss": 0.3511286973953247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.670217752456665,
      "epoch": 5.61,
      "learning_rate": 3.475892298058861e-05,
      "loss": 0.9005,
      "step": 6643,
      "task_loss": 0.9970346689224243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8406213521957397,
      "epoch": 5.62,
      "learning_rate": 3.475579211020664e-05,
      "loss": 1.0056,
      "step": 6644,
      "task_loss": 0.6775112152099609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9372668266296387,
      "epoch": 5.62,
      "learning_rate": 3.475266123982468e-05,
      "loss": 0.9848,
      "step": 6645,
      "task_loss": 0.7128216624259949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6106367111206055,
      "epoch": 5.62,
      "learning_rate": 3.474953036944271e-05,
      "loss": 0.8289,
      "step": 6646,
      "task_loss": 0.24855920672416687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6629154682159424,
      "epoch": 5.62,
      "learning_rate": 3.474639949906074e-05,
      "loss": 0.8446,
      "step": 6647,
      "task_loss": 0.8605557680130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.009009838104248,
      "epoch": 5.62,
      "learning_rate": 3.474326862867878e-05,
      "loss": 1.057,
      "step": 6648,
      "task_loss": 0.37451669573783875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5989046096801758,
      "epoch": 5.62,
      "learning_rate": 3.474013775829681e-05,
      "loss": 0.9386,
      "step": 6649,
      "task_loss": 0.9155551195144653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2369914054870605,
      "epoch": 5.62,
      "learning_rate": 3.473700688791484e-05,
      "loss": 1.0902,
      "step": 6650,
      "task_loss": 1.4583839178085327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6337558627128601,
      "epoch": 5.62,
      "learning_rate": 3.4733876017532875e-05,
      "loss": 0.787,
      "step": 6651,
      "task_loss": 0.9837329387664795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1450562477111816,
      "epoch": 5.62,
      "learning_rate": 3.473074514715091e-05,
      "loss": 0.8243,
      "step": 6652,
      "task_loss": 1.4322789907455444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.310030221939087,
      "epoch": 5.62,
      "learning_rate": 3.4727614276768945e-05,
      "loss": 0.9842,
      "step": 6653,
      "task_loss": 1.0932469367980957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9735713005065918,
      "epoch": 5.62,
      "learning_rate": 3.472448340638698e-05,
      "loss": 0.7375,
      "step": 6654,
      "task_loss": 0.852595329284668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.18473482131958,
      "epoch": 5.63,
      "learning_rate": 3.472135253600501e-05,
      "loss": 0.8874,
      "step": 6655,
      "task_loss": 1.451383113861084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8809065818786621,
      "epoch": 5.63,
      "learning_rate": 3.471822166562305e-05,
      "loss": 0.8827,
      "step": 6656,
      "task_loss": 0.9997420907020569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8551783561706543,
      "epoch": 5.63,
      "learning_rate": 3.471509079524108e-05,
      "loss": 0.9863,
      "step": 6657,
      "task_loss": 1.2487871646881104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5097219944000244,
      "epoch": 5.63,
      "learning_rate": 3.471195992485911e-05,
      "loss": 1.319,
      "step": 6658,
      "task_loss": 1.2756050825119019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8988037109375,
      "epoch": 5.63,
      "learning_rate": 3.470882905447715e-05,
      "loss": 0.9607,
      "step": 6659,
      "task_loss": 0.5559248328208923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.183026671409607,
      "epoch": 5.63,
      "learning_rate": 3.470569818409518e-05,
      "loss": 1.0504,
      "step": 6660,
      "task_loss": 0.8332744240760803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7614070177078247,
      "epoch": 5.63,
      "learning_rate": 3.470256731371321e-05,
      "loss": 0.9079,
      "step": 6661,
      "task_loss": 1.282742977142334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6625787019729614,
      "epoch": 5.63,
      "learning_rate": 3.4699436443331244e-05,
      "loss": 1.0238,
      "step": 6662,
      "task_loss": 1.4337284564971924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9705732464790344,
      "epoch": 5.63,
      "learning_rate": 3.469630557294928e-05,
      "loss": 0.7699,
      "step": 6663,
      "task_loss": 0.6357478499412537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1060912609100342,
      "epoch": 5.63,
      "learning_rate": 3.4693174702567315e-05,
      "loss": 0.8702,
      "step": 6664,
      "task_loss": 1.5996599197387695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9897202253341675,
      "epoch": 5.63,
      "learning_rate": 3.4690043832185347e-05,
      "loss": 1.0373,
      "step": 6665,
      "task_loss": 0.981027364730835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.418851375579834,
      "epoch": 5.63,
      "learning_rate": 3.468691296180338e-05,
      "loss": 0.7385,
      "step": 6666,
      "task_loss": 0.42243802547454834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8067449927330017,
      "epoch": 5.64,
      "learning_rate": 3.468378209142142e-05,
      "loss": 0.9232,
      "step": 6667,
      "task_loss": 1.1512974500656128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9117462635040283,
      "epoch": 5.64,
      "learning_rate": 3.468065122103945e-05,
      "loss": 1.1029,
      "step": 6668,
      "task_loss": 0.4552113115787506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9768902063369751,
      "epoch": 5.64,
      "learning_rate": 3.467752035065748e-05,
      "loss": 0.8788,
      "step": 6669,
      "task_loss": 0.506569504737854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.092519998550415,
      "epoch": 5.64,
      "learning_rate": 3.467438948027552e-05,
      "loss": 1.2538,
      "step": 6670,
      "task_loss": 0.7843132019042969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48467138409614563,
      "epoch": 5.64,
      "learning_rate": 3.467125860989355e-05,
      "loss": 0.6688,
      "step": 6671,
      "task_loss": 0.34746992588043213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4690340757369995,
      "epoch": 5.64,
      "learning_rate": 3.466812773951158e-05,
      "loss": 1.1113,
      "step": 6672,
      "task_loss": 0.8301376700401306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0578720569610596,
      "epoch": 5.64,
      "learning_rate": 3.466499686912962e-05,
      "loss": 1.19,
      "step": 6673,
      "task_loss": 1.4110254049301147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8043971657752991,
      "epoch": 5.64,
      "learning_rate": 3.466186599874765e-05,
      "loss": 0.8827,
      "step": 6674,
      "task_loss": 1.0772510766983032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8103055953979492,
      "epoch": 5.64,
      "learning_rate": 3.4658735128365685e-05,
      "loss": 0.6972,
      "step": 6675,
      "task_loss": 0.31249502301216125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6011784672737122,
      "epoch": 5.64,
      "learning_rate": 3.465560425798372e-05,
      "loss": 0.8945,
      "step": 6676,
      "task_loss": 0.43088817596435547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2279930114746094,
      "epoch": 5.64,
      "learning_rate": 3.4652473387601755e-05,
      "loss": 1.0387,
      "step": 6677,
      "task_loss": 1.0060359239578247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45848512649536133,
      "epoch": 5.64,
      "learning_rate": 3.4649342517219794e-05,
      "loss": 0.9765,
      "step": 6678,
      "task_loss": 0.26078349351882935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0192776918411255,
      "epoch": 5.65,
      "learning_rate": 3.4646211646837825e-05,
      "loss": 1.0007,
      "step": 6679,
      "task_loss": 0.879000723361969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.373227596282959,
      "epoch": 5.65,
      "learning_rate": 3.464308077645586e-05,
      "loss": 1.2727,
      "step": 6680,
      "task_loss": 1.3427433967590332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6780997514724731,
      "epoch": 5.65,
      "learning_rate": 3.463994990607389e-05,
      "loss": 0.7272,
      "step": 6681,
      "task_loss": 0.11943206936120987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6115241050720215,
      "epoch": 5.65,
      "learning_rate": 3.463681903569193e-05,
      "loss": 0.7534,
      "step": 6682,
      "task_loss": 0.21717725694179535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8050803542137146,
      "epoch": 5.65,
      "learning_rate": 3.463368816530996e-05,
      "loss": 1.0544,
      "step": 6683,
      "task_loss": 0.7581562995910645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9570859670639038,
      "epoch": 5.65,
      "learning_rate": 3.463055729492799e-05,
      "loss": 1.3808,
      "step": 6684,
      "task_loss": 1.4510577917099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9066624641418457,
      "epoch": 5.65,
      "learning_rate": 3.462742642454603e-05,
      "loss": 0.845,
      "step": 6685,
      "task_loss": 0.6439868807792664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1185392141342163,
      "epoch": 5.65,
      "learning_rate": 3.462429555416406e-05,
      "loss": 0.9986,
      "step": 6686,
      "task_loss": 1.6982088088989258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34580814838409424,
      "epoch": 5.65,
      "learning_rate": 3.462116468378209e-05,
      "loss": 0.6314,
      "step": 6687,
      "task_loss": 0.153678297996521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8500189781188965,
      "epoch": 5.65,
      "learning_rate": 3.4618033813400125e-05,
      "loss": 1.2165,
      "step": 6688,
      "task_loss": 1.3705567121505737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6247624158859253,
      "epoch": 5.65,
      "learning_rate": 3.4614902943018164e-05,
      "loss": 0.7919,
      "step": 6689,
      "task_loss": 1.3475784063339233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7604828476905823,
      "epoch": 5.65,
      "learning_rate": 3.4611772072636195e-05,
      "loss": 0.7229,
      "step": 6690,
      "task_loss": 1.2115044593811035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1588345766067505,
      "epoch": 5.66,
      "learning_rate": 3.460864120225423e-05,
      "loss": 1.3864,
      "step": 6691,
      "task_loss": 1.0025798082351685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2367191314697266,
      "epoch": 5.66,
      "learning_rate": 3.460551033187226e-05,
      "loss": 1.2027,
      "step": 6692,
      "task_loss": 2.144637107849121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5100722312927246,
      "epoch": 5.66,
      "learning_rate": 3.46023794614903e-05,
      "loss": 1.2789,
      "step": 6693,
      "task_loss": 1.251057744026184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1362872123718262,
      "epoch": 5.66,
      "learning_rate": 3.459924859110833e-05,
      "loss": 1.0496,
      "step": 6694,
      "task_loss": 0.4880228638648987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1559550762176514,
      "epoch": 5.66,
      "learning_rate": 3.459611772072636e-05,
      "loss": 1.2143,
      "step": 6695,
      "task_loss": 0.67025226354599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.277501106262207,
      "epoch": 5.66,
      "learning_rate": 3.45929868503444e-05,
      "loss": 0.9974,
      "step": 6696,
      "task_loss": 0.9419430494308472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9824845790863037,
      "epoch": 5.66,
      "learning_rate": 3.458985597996243e-05,
      "loss": 0.8467,
      "step": 6697,
      "task_loss": 0.7860819101333618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8685312271118164,
      "epoch": 5.66,
      "learning_rate": 3.458672510958046e-05,
      "loss": 0.7902,
      "step": 6698,
      "task_loss": 0.15061281621456146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6604938507080078,
      "epoch": 5.66,
      "learning_rate": 3.4583594239198495e-05,
      "loss": 0.7521,
      "step": 6699,
      "task_loss": 0.9795024991035461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.131030797958374,
      "epoch": 5.66,
      "learning_rate": 3.4580463368816533e-05,
      "loss": 0.9853,
      "step": 6700,
      "task_loss": 1.6943680047988892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6858046650886536,
      "epoch": 5.66,
      "learning_rate": 3.4577332498434565e-05,
      "loss": 0.7411,
      "step": 6701,
      "task_loss": 0.3604755103588104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.141845464706421,
      "epoch": 5.66,
      "learning_rate": 3.45742016280526e-05,
      "loss": 0.8195,
      "step": 6702,
      "task_loss": 0.7092632055282593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7573987245559692,
      "epoch": 5.67,
      "learning_rate": 3.457107075767063e-05,
      "loss": 0.7938,
      "step": 6703,
      "task_loss": 0.7890477180480957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1855480670928955,
      "epoch": 5.67,
      "learning_rate": 3.456793988728867e-05,
      "loss": 1.0844,
      "step": 6704,
      "task_loss": 1.561013102531433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9001875519752502,
      "epoch": 5.67,
      "learning_rate": 3.45648090169067e-05,
      "loss": 1.0923,
      "step": 6705,
      "task_loss": 1.6436747312545776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3021154403686523,
      "epoch": 5.67,
      "learning_rate": 3.456167814652473e-05,
      "loss": 0.8436,
      "step": 6706,
      "task_loss": 0.8426536321640015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9432727098464966,
      "epoch": 5.67,
      "learning_rate": 3.455854727614277e-05,
      "loss": 0.7594,
      "step": 6707,
      "task_loss": 1.3524242639541626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1389557123184204,
      "epoch": 5.67,
      "learning_rate": 3.45554164057608e-05,
      "loss": 0.9254,
      "step": 6708,
      "task_loss": 0.8182578086853027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7380849719047546,
      "epoch": 5.67,
      "learning_rate": 3.455228553537884e-05,
      "loss": 0.9191,
      "step": 6709,
      "task_loss": 0.4796901345252991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9076193571090698,
      "epoch": 5.67,
      "learning_rate": 3.454915466499687e-05,
      "loss": 0.9743,
      "step": 6710,
      "task_loss": 0.7789208292961121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3289003372192383,
      "epoch": 5.67,
      "learning_rate": 3.454602379461491e-05,
      "loss": 1.2903,
      "step": 6711,
      "task_loss": 1.1539658308029175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1768125295639038,
      "epoch": 5.67,
      "learning_rate": 3.454289292423294e-05,
      "loss": 0.943,
      "step": 6712,
      "task_loss": 0.5002838373184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.699855625629425,
      "epoch": 5.67,
      "learning_rate": 3.4539762053850974e-05,
      "loss": 0.9047,
      "step": 6713,
      "task_loss": 0.6357236504554749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6390883922576904,
      "epoch": 5.67,
      "learning_rate": 3.4536631183469005e-05,
      "loss": 1.2245,
      "step": 6714,
      "task_loss": 1.7679835557937622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7382948398590088,
      "epoch": 5.68,
      "learning_rate": 3.4533500313087044e-05,
      "loss": 0.961,
      "step": 6715,
      "task_loss": 0.8896480798721313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.883655309677124,
      "epoch": 5.68,
      "learning_rate": 3.4530369442705076e-05,
      "loss": 0.9251,
      "step": 6716,
      "task_loss": 0.2188754826784134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0567823648452759,
      "epoch": 5.68,
      "learning_rate": 3.452723857232311e-05,
      "loss": 1.1319,
      "step": 6717,
      "task_loss": 0.8278278112411499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3290064334869385,
      "epoch": 5.68,
      "learning_rate": 3.452410770194114e-05,
      "loss": 0.9571,
      "step": 6718,
      "task_loss": 2.5940897464752197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5678396224975586,
      "epoch": 5.68,
      "learning_rate": 3.452097683155918e-05,
      "loss": 1.364,
      "step": 6719,
      "task_loss": 0.6950979232788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1593945026397705,
      "epoch": 5.68,
      "learning_rate": 3.451784596117721e-05,
      "loss": 0.9418,
      "step": 6720,
      "task_loss": 1.13798189163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6492642164230347,
      "epoch": 5.68,
      "learning_rate": 3.451471509079524e-05,
      "loss": 1.112,
      "step": 6721,
      "task_loss": 1.0465567111968994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9119036197662354,
      "epoch": 5.68,
      "learning_rate": 3.451158422041328e-05,
      "loss": 1.0119,
      "step": 6722,
      "task_loss": 0.5283597111701965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2325292825698853,
      "epoch": 5.68,
      "learning_rate": 3.450845335003131e-05,
      "loss": 1.062,
      "step": 6723,
      "task_loss": 1.808332920074463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8311161994934082,
      "epoch": 5.68,
      "learning_rate": 3.4505322479649344e-05,
      "loss": 1.0115,
      "step": 6724,
      "task_loss": 1.0877290964126587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0311212539672852,
      "epoch": 5.68,
      "learning_rate": 3.4502191609267375e-05,
      "loss": 1.1273,
      "step": 6725,
      "task_loss": 0.7874642014503479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.984528124332428,
      "epoch": 5.69,
      "learning_rate": 3.4499060738885414e-05,
      "loss": 0.8936,
      "step": 6726,
      "task_loss": 1.2714612483978271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0900547504425049,
      "epoch": 5.69,
      "learning_rate": 3.4495929868503446e-05,
      "loss": 1.1614,
      "step": 6727,
      "task_loss": 1.4324233531951904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.212727665901184,
      "epoch": 5.69,
      "learning_rate": 3.449279899812148e-05,
      "loss": 1.1282,
      "step": 6728,
      "task_loss": 1.9263601303100586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5216874480247498,
      "epoch": 5.69,
      "learning_rate": 3.448966812773951e-05,
      "loss": 1.0535,
      "step": 6729,
      "task_loss": 0.41171255707740784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6727341413497925,
      "epoch": 5.69,
      "learning_rate": 3.448653725735755e-05,
      "loss": 0.6916,
      "step": 6730,
      "task_loss": 1.1546810865402222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7868494391441345,
      "epoch": 5.69,
      "learning_rate": 3.448340638697558e-05,
      "loss": 1.0024,
      "step": 6731,
      "task_loss": 1.934863805770874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6388569474220276,
      "epoch": 5.69,
      "learning_rate": 3.448027551659361e-05,
      "loss": 1.079,
      "step": 6732,
      "task_loss": 0.8772174119949341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7990570068359375,
      "epoch": 5.69,
      "learning_rate": 3.447714464621165e-05,
      "loss": 0.7655,
      "step": 6733,
      "task_loss": 0.41090333461761475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.191469430923462,
      "epoch": 5.69,
      "learning_rate": 3.447401377582968e-05,
      "loss": 0.9045,
      "step": 6734,
      "task_loss": 1.1147217750549316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2628508806228638,
      "epoch": 5.69,
      "learning_rate": 3.4470882905447714e-05,
      "loss": 1.0841,
      "step": 6735,
      "task_loss": 0.6997637748718262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6626905798912048,
      "epoch": 5.69,
      "learning_rate": 3.4467752035065745e-05,
      "loss": 0.8143,
      "step": 6736,
      "task_loss": 0.8942087292671204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.845964789390564,
      "epoch": 5.69,
      "learning_rate": 3.4464621164683784e-05,
      "loss": 0.7713,
      "step": 6737,
      "task_loss": 0.7430846095085144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8494870066642761,
      "epoch": 5.7,
      "learning_rate": 3.4461490294301816e-05,
      "loss": 0.8474,
      "step": 6738,
      "task_loss": 1.3855009078979492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9008998870849609,
      "epoch": 5.7,
      "learning_rate": 3.445835942391985e-05,
      "loss": 1.0558,
      "step": 6739,
      "task_loss": 0.3017881512641907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9143382906913757,
      "epoch": 5.7,
      "learning_rate": 3.4455228553537886e-05,
      "loss": 0.8752,
      "step": 6740,
      "task_loss": 0.43693313002586365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9610604047775269,
      "epoch": 5.7,
      "learning_rate": 3.445209768315592e-05,
      "loss": 1.0613,
      "step": 6741,
      "task_loss": 1.3319991827011108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9544972777366638,
      "epoch": 5.7,
      "learning_rate": 3.444896681277395e-05,
      "loss": 1.2444,
      "step": 6742,
      "task_loss": 1.1779448986053467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8036787509918213,
      "epoch": 5.7,
      "learning_rate": 3.444583594239199e-05,
      "loss": 0.9511,
      "step": 6743,
      "task_loss": 1.376995325088501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.871783971786499,
      "epoch": 5.7,
      "learning_rate": 3.444270507201002e-05,
      "loss": 0.8101,
      "step": 6744,
      "task_loss": 1.0454481840133667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4121613502502441,
      "epoch": 5.7,
      "learning_rate": 3.443957420162806e-05,
      "loss": 1.1028,
      "step": 6745,
      "task_loss": 1.3023372888565063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6915987133979797,
      "epoch": 5.7,
      "learning_rate": 3.443644333124609e-05,
      "loss": 1.0403,
      "step": 6746,
      "task_loss": 1.2590889930725098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0600472688674927,
      "epoch": 5.7,
      "learning_rate": 3.443331246086412e-05,
      "loss": 1.0058,
      "step": 6747,
      "task_loss": 0.29208144545555115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5021612644195557,
      "epoch": 5.7,
      "learning_rate": 3.443018159048216e-05,
      "loss": 0.8986,
      "step": 6748,
      "task_loss": 0.7213618159294128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9333989024162292,
      "epoch": 5.7,
      "learning_rate": 3.442705072010019e-05,
      "loss": 0.7386,
      "step": 6749,
      "task_loss": 1.1914031505584717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7156679630279541,
      "epoch": 5.71,
      "learning_rate": 3.4423919849718224e-05,
      "loss": 0.7004,
      "step": 6750,
      "task_loss": 0.502121090888977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0100656747817993,
      "epoch": 5.71,
      "learning_rate": 3.4420788979336256e-05,
      "loss": 0.8241,
      "step": 6751,
      "task_loss": 1.21210777759552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8718386888504028,
      "epoch": 5.71,
      "learning_rate": 3.4417658108954294e-05,
      "loss": 0.7163,
      "step": 6752,
      "task_loss": 0.9056766629219055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.704569399356842,
      "epoch": 5.71,
      "learning_rate": 3.4414527238572326e-05,
      "loss": 0.7974,
      "step": 6753,
      "task_loss": 0.7914525866508484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3627746105194092,
      "epoch": 5.71,
      "learning_rate": 3.441139636819036e-05,
      "loss": 1.1851,
      "step": 6754,
      "task_loss": 2.196011543273926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7290357351303101,
      "epoch": 5.71,
      "learning_rate": 3.4408265497808397e-05,
      "loss": 1.131,
      "step": 6755,
      "task_loss": 1.1840615272521973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6945778131484985,
      "epoch": 5.71,
      "learning_rate": 3.440513462742643e-05,
      "loss": 0.8901,
      "step": 6756,
      "task_loss": 0.761883020401001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2775368690490723,
      "epoch": 5.71,
      "learning_rate": 3.440200375704446e-05,
      "loss": 1.0485,
      "step": 6757,
      "task_loss": 1.0773380994796753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5838445425033569,
      "epoch": 5.71,
      "learning_rate": 3.439887288666249e-05,
      "loss": 0.7277,
      "step": 6758,
      "task_loss": 0.997978687286377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7496052980422974,
      "epoch": 5.71,
      "learning_rate": 3.439574201628053e-05,
      "loss": 0.8001,
      "step": 6759,
      "task_loss": 0.7876948714256287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0787291526794434,
      "epoch": 5.71,
      "learning_rate": 3.439261114589856e-05,
      "loss": 0.9067,
      "step": 6760,
      "task_loss": 1.2232123613357544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9356867074966431,
      "epoch": 5.71,
      "learning_rate": 3.4389480275516594e-05,
      "loss": 1.1712,
      "step": 6761,
      "task_loss": 0.5709046125411987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8666655421257019,
      "epoch": 5.72,
      "learning_rate": 3.4386349405134626e-05,
      "loss": 0.8273,
      "step": 6762,
      "task_loss": 0.7747504115104675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9656802415847778,
      "epoch": 5.72,
      "learning_rate": 3.4383218534752664e-05,
      "loss": 0.8993,
      "step": 6763,
      "task_loss": 0.5539913773536682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42221879959106445,
      "epoch": 5.72,
      "learning_rate": 3.4380087664370696e-05,
      "loss": 0.8943,
      "step": 6764,
      "task_loss": 0.9233754873275757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9743028879165649,
      "epoch": 5.72,
      "learning_rate": 3.437695679398873e-05,
      "loss": 1.1533,
      "step": 6765,
      "task_loss": 1.0506963729858398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1443817615509033,
      "epoch": 5.72,
      "learning_rate": 3.437382592360676e-05,
      "loss": 1.3417,
      "step": 6766,
      "task_loss": 1.5527923107147217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0372629165649414,
      "epoch": 5.72,
      "learning_rate": 3.43706950532248e-05,
      "loss": 1.1166,
      "step": 6767,
      "task_loss": 1.0547542572021484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9608932733535767,
      "epoch": 5.72,
      "learning_rate": 3.436756418284283e-05,
      "loss": 1.1414,
      "step": 6768,
      "task_loss": 0.945680558681488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9359352588653564,
      "epoch": 5.72,
      "learning_rate": 3.436443331246086e-05,
      "loss": 1.2666,
      "step": 6769,
      "task_loss": 1.7312777042388916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.700814962387085,
      "epoch": 5.72,
      "learning_rate": 3.43613024420789e-05,
      "loss": 0.7805,
      "step": 6770,
      "task_loss": 0.48391878604888916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1375958919525146,
      "epoch": 5.72,
      "learning_rate": 3.435817157169693e-05,
      "loss": 1.1343,
      "step": 6771,
      "task_loss": 1.1330835819244385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0507416725158691,
      "epoch": 5.72,
      "learning_rate": 3.4355040701314964e-05,
      "loss": 0.9541,
      "step": 6772,
      "task_loss": 1.1874196529388428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6646072864532471,
      "epoch": 5.72,
      "learning_rate": 3.4351909830932996e-05,
      "loss": 0.9866,
      "step": 6773,
      "task_loss": 1.9092590808868408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7793500423431396,
      "epoch": 5.73,
      "learning_rate": 3.4348778960551034e-05,
      "loss": 0.854,
      "step": 6774,
      "task_loss": 0.45860111713409424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2328341007232666,
      "epoch": 5.73,
      "learning_rate": 3.4345648090169066e-05,
      "loss": 0.9777,
      "step": 6775,
      "task_loss": 1.2648451328277588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9653269052505493,
      "epoch": 5.73,
      "learning_rate": 3.4342517219787105e-05,
      "loss": 0.8803,
      "step": 6776,
      "task_loss": 1.1812392473220825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4324069321155548,
      "epoch": 5.73,
      "learning_rate": 3.4339386349405136e-05,
      "loss": 0.5746,
      "step": 6777,
      "task_loss": 0.08025415986776352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7819256782531738,
      "epoch": 5.73,
      "learning_rate": 3.4336255479023175e-05,
      "loss": 0.7542,
      "step": 6778,
      "task_loss": 0.5272654294967651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.923900842666626,
      "epoch": 5.73,
      "learning_rate": 3.433312460864121e-05,
      "loss": 0.9243,
      "step": 6779,
      "task_loss": 1.3074673414230347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8262261152267456,
      "epoch": 5.73,
      "learning_rate": 3.432999373825924e-05,
      "loss": 0.7815,
      "step": 6780,
      "task_loss": 0.5164614319801331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7516949772834778,
      "epoch": 5.73,
      "learning_rate": 3.432686286787728e-05,
      "loss": 0.9954,
      "step": 6781,
      "task_loss": 0.8873908519744873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6196455955505371,
      "epoch": 5.73,
      "learning_rate": 3.432373199749531e-05,
      "loss": 1.0193,
      "step": 6782,
      "task_loss": 0.4144763946533203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6983757019042969,
      "epoch": 5.73,
      "learning_rate": 3.432060112711334e-05,
      "loss": 0.8538,
      "step": 6783,
      "task_loss": 0.5245763063430786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0143908262252808,
      "epoch": 5.73,
      "learning_rate": 3.431747025673137e-05,
      "loss": 0.8338,
      "step": 6784,
      "task_loss": 0.7498934864997864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9918961524963379,
      "epoch": 5.73,
      "learning_rate": 3.431433938634941e-05,
      "loss": 0.9881,
      "step": 6785,
      "task_loss": 0.7099630832672119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.322962999343872,
      "epoch": 5.74,
      "learning_rate": 3.431120851596744e-05,
      "loss": 0.9564,
      "step": 6786,
      "task_loss": 1.3148505687713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48060452938079834,
      "epoch": 5.74,
      "learning_rate": 3.4308077645585475e-05,
      "loss": 0.8622,
      "step": 6787,
      "task_loss": 0.5323296189308167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9131132364273071,
      "epoch": 5.74,
      "learning_rate": 3.4304946775203506e-05,
      "loss": 1.0465,
      "step": 6788,
      "task_loss": 0.8599462509155273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47590377926826477,
      "epoch": 5.74,
      "learning_rate": 3.4301815904821545e-05,
      "loss": 0.8143,
      "step": 6789,
      "task_loss": 0.3248344957828522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9946514368057251,
      "epoch": 5.74,
      "learning_rate": 3.429868503443958e-05,
      "loss": 0.7961,
      "step": 6790,
      "task_loss": 1.1581246852874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7642863988876343,
      "epoch": 5.74,
      "learning_rate": 3.429555416405761e-05,
      "loss": 1.1268,
      "step": 6791,
      "task_loss": 1.0411489009857178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0984902381896973,
      "epoch": 5.74,
      "learning_rate": 3.429242329367565e-05,
      "loss": 1.3219,
      "step": 6792,
      "task_loss": 0.9363031983375549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8410823941230774,
      "epoch": 5.74,
      "learning_rate": 3.428929242329368e-05,
      "loss": 0.7645,
      "step": 6793,
      "task_loss": 1.7503619194030762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1450940370559692,
      "epoch": 5.74,
      "learning_rate": 3.428616155291171e-05,
      "loss": 0.9637,
      "step": 6794,
      "task_loss": 0.45714008808135986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.041182518005371,
      "epoch": 5.74,
      "learning_rate": 3.428303068252974e-05,
      "loss": 1.0094,
      "step": 6795,
      "task_loss": 1.1956734657287598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1495860815048218,
      "epoch": 5.74,
      "learning_rate": 3.427989981214778e-05,
      "loss": 1.1834,
      "step": 6796,
      "task_loss": 0.811334490776062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9604222178459167,
      "epoch": 5.75,
      "learning_rate": 3.427676894176581e-05,
      "loss": 1.0361,
      "step": 6797,
      "task_loss": 0.7395707964897156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8974707126617432,
      "epoch": 5.75,
      "learning_rate": 3.4273638071383845e-05,
      "loss": 0.7757,
      "step": 6798,
      "task_loss": 0.5009844303131104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4465599060058594,
      "epoch": 5.75,
      "learning_rate": 3.4270507201001876e-05,
      "loss": 1.0679,
      "step": 6799,
      "task_loss": 0.7421238422393799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6422151923179626,
      "epoch": 5.75,
      "learning_rate": 3.4267376330619915e-05,
      "loss": 0.693,
      "step": 6800,
      "task_loss": 0.6435941457748413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8973758220672607,
      "epoch": 5.75,
      "learning_rate": 3.426424546023795e-05,
      "loss": 1.0538,
      "step": 6801,
      "task_loss": 1.587386131286621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6058131456375122,
      "epoch": 5.75,
      "learning_rate": 3.426111458985598e-05,
      "loss": 1.0564,
      "step": 6802,
      "task_loss": 1.6023509502410889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6504706740379333,
      "epoch": 5.75,
      "learning_rate": 3.425798371947401e-05,
      "loss": 0.9166,
      "step": 6803,
      "task_loss": 0.9015833735466003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.413360357284546,
      "epoch": 5.75,
      "learning_rate": 3.425485284909205e-05,
      "loss": 0.9355,
      "step": 6804,
      "task_loss": 1.0692315101623535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.954505205154419,
      "epoch": 5.75,
      "learning_rate": 3.425172197871008e-05,
      "loss": 0.9616,
      "step": 6805,
      "task_loss": 1.0117506980895996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9432027339935303,
      "epoch": 5.75,
      "learning_rate": 3.424859110832811e-05,
      "loss": 0.9077,
      "step": 6806,
      "task_loss": 1.0189402103424072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6112250089645386,
      "epoch": 5.75,
      "learning_rate": 3.424546023794615e-05,
      "loss": 0.7925,
      "step": 6807,
      "task_loss": 0.5768846869468689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.840883493423462,
      "epoch": 5.75,
      "learning_rate": 3.424232936756418e-05,
      "loss": 1.1773,
      "step": 6808,
      "task_loss": 1.0960079431533813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5906684994697571,
      "epoch": 5.76,
      "learning_rate": 3.4239198497182214e-05,
      "loss": 0.7356,
      "step": 6809,
      "task_loss": 1.5447579622268677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0513132810592651,
      "epoch": 5.76,
      "learning_rate": 3.423606762680025e-05,
      "loss": 0.9145,
      "step": 6810,
      "task_loss": 0.35399138927459717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6116812825202942,
      "epoch": 5.76,
      "learning_rate": 3.4232936756418285e-05,
      "loss": 0.8618,
      "step": 6811,
      "task_loss": 1.0080676078796387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6084984540939331,
      "epoch": 5.76,
      "learning_rate": 3.422980588603632e-05,
      "loss": 0.8087,
      "step": 6812,
      "task_loss": 1.2621889114379883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6198509335517883,
      "epoch": 5.76,
      "learning_rate": 3.4226675015654355e-05,
      "loss": 0.8435,
      "step": 6813,
      "task_loss": 0.7218862771987915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9866610765457153,
      "epoch": 5.76,
      "learning_rate": 3.422354414527239e-05,
      "loss": 0.7426,
      "step": 6814,
      "task_loss": 0.6811528205871582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0939302444458008,
      "epoch": 5.76,
      "learning_rate": 3.4220413274890425e-05,
      "loss": 0.8814,
      "step": 6815,
      "task_loss": 0.7771010398864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5856218338012695,
      "epoch": 5.76,
      "learning_rate": 3.421728240450846e-05,
      "loss": 0.7695,
      "step": 6816,
      "task_loss": 0.9932563304901123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.111897349357605,
      "epoch": 5.76,
      "learning_rate": 3.421415153412649e-05,
      "loss": 1.101,
      "step": 6817,
      "task_loss": 1.9630908966064453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9088292121887207,
      "epoch": 5.76,
      "learning_rate": 3.421102066374453e-05,
      "loss": 1.0288,
      "step": 6818,
      "task_loss": 1.4543638229370117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9090243577957153,
      "epoch": 5.76,
      "learning_rate": 3.420788979336256e-05,
      "loss": 1.0903,
      "step": 6819,
      "task_loss": 1.1898716688156128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1163665056228638,
      "epoch": 5.76,
      "learning_rate": 3.420475892298059e-05,
      "loss": 0.973,
      "step": 6820,
      "task_loss": 1.2270997762680054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6710965633392334,
      "epoch": 5.77,
      "learning_rate": 3.420162805259862e-05,
      "loss": 0.83,
      "step": 6821,
      "task_loss": 0.4136931598186493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4684794843196869,
      "epoch": 5.77,
      "learning_rate": 3.419849718221666e-05,
      "loss": 0.9133,
      "step": 6822,
      "task_loss": 0.35520118474960327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9962427616119385,
      "epoch": 5.77,
      "learning_rate": 3.419536631183469e-05,
      "loss": 1.263,
      "step": 6823,
      "task_loss": 1.0314804315567017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7658458948135376,
      "epoch": 5.77,
      "learning_rate": 3.4192235441452725e-05,
      "loss": 0.8929,
      "step": 6824,
      "task_loss": 0.2688702940940857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.021777868270874,
      "epoch": 5.77,
      "learning_rate": 3.418910457107076e-05,
      "loss": 0.9915,
      "step": 6825,
      "task_loss": 1.1615300178527832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.245121717453003,
      "epoch": 5.77,
      "learning_rate": 3.4185973700688795e-05,
      "loss": 1.1103,
      "step": 6826,
      "task_loss": 1.2703949213027954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4270362854003906,
      "epoch": 5.77,
      "learning_rate": 3.418284283030683e-05,
      "loss": 0.9767,
      "step": 6827,
      "task_loss": 1.418039083480835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2760478258132935,
      "epoch": 5.77,
      "learning_rate": 3.417971195992486e-05,
      "loss": 0.9907,
      "step": 6828,
      "task_loss": 0.6571986675262451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7135458588600159,
      "epoch": 5.77,
      "learning_rate": 3.41765810895429e-05,
      "loss": 1.0037,
      "step": 6829,
      "task_loss": 0.7373326420783997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.615248203277588,
      "epoch": 5.77,
      "learning_rate": 3.417345021916093e-05,
      "loss": 1.1691,
      "step": 6830,
      "task_loss": 0.8501812815666199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7608495950698853,
      "epoch": 5.77,
      "learning_rate": 3.417031934877896e-05,
      "loss": 0.8967,
      "step": 6831,
      "task_loss": 0.6247343420982361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.04063081741333,
      "epoch": 5.77,
      "learning_rate": 3.416718847839699e-05,
      "loss": 0.7798,
      "step": 6832,
      "task_loss": 1.2698545455932617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338000059127808,
      "epoch": 5.78,
      "learning_rate": 3.416405760801503e-05,
      "loss": 1.0478,
      "step": 6833,
      "task_loss": 1.2023999691009521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2492692470550537,
      "epoch": 5.78,
      "learning_rate": 3.416092673763306e-05,
      "loss": 1.1526,
      "step": 6834,
      "task_loss": 1.365518569946289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5214076042175293,
      "epoch": 5.78,
      "learning_rate": 3.4157795867251095e-05,
      "loss": 0.9933,
      "step": 6835,
      "task_loss": 1.349713921546936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6935690641403198,
      "epoch": 5.78,
      "learning_rate": 3.415466499686913e-05,
      "loss": 1.2689,
      "step": 6836,
      "task_loss": 0.7943674921989441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.009320855140686,
      "epoch": 5.78,
      "learning_rate": 3.4151534126487165e-05,
      "loss": 0.7462,
      "step": 6837,
      "task_loss": 1.1938101053237915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6338495016098022,
      "epoch": 5.78,
      "learning_rate": 3.41484032561052e-05,
      "loss": 0.853,
      "step": 6838,
      "task_loss": 0.5158208012580872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.971611499786377,
      "epoch": 5.78,
      "learning_rate": 3.414527238572323e-05,
      "loss": 0.8237,
      "step": 6839,
      "task_loss": 1.6068977117538452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.359584093093872,
      "epoch": 5.78,
      "learning_rate": 3.414214151534126e-05,
      "loss": 1.2777,
      "step": 6840,
      "task_loss": 1.1482033729553223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0501737594604492,
      "epoch": 5.78,
      "learning_rate": 3.41390106449593e-05,
      "loss": 0.8824,
      "step": 6841,
      "task_loss": 0.9465667605400085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3951951861381531,
      "epoch": 5.78,
      "learning_rate": 3.413587977457733e-05,
      "loss": 0.7065,
      "step": 6842,
      "task_loss": 1.1950072050094604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.594423770904541,
      "epoch": 5.78,
      "learning_rate": 3.413274890419537e-05,
      "loss": 1.2345,
      "step": 6843,
      "task_loss": 0.9702833294868469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1328197717666626,
      "epoch": 5.78,
      "learning_rate": 3.41296180338134e-05,
      "loss": 0.9268,
      "step": 6844,
      "task_loss": 1.1243171691894531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5340468287467957,
      "epoch": 5.79,
      "learning_rate": 3.412648716343143e-05,
      "loss": 0.8624,
      "step": 6845,
      "task_loss": 0.4273616373538971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9580963850021362,
      "epoch": 5.79,
      "learning_rate": 3.412335629304947e-05,
      "loss": 1.0753,
      "step": 6846,
      "task_loss": 0.26788759231567383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4972524046897888,
      "epoch": 5.79,
      "learning_rate": 3.4120225422667503e-05,
      "loss": 0.9109,
      "step": 6847,
      "task_loss": 0.9120998382568359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5880687832832336,
      "epoch": 5.79,
      "learning_rate": 3.411709455228554e-05,
      "loss": 0.8267,
      "step": 6848,
      "task_loss": 0.9142454862594604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6654239296913147,
      "epoch": 5.79,
      "learning_rate": 3.4113963681903574e-05,
      "loss": 0.7429,
      "step": 6849,
      "task_loss": 1.176025152206421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0166188478469849,
      "epoch": 5.79,
      "learning_rate": 3.4110832811521606e-05,
      "loss": 0.9591,
      "step": 6850,
      "task_loss": 0.6287904977798462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9425041079521179,
      "epoch": 5.79,
      "learning_rate": 3.410770194113964e-05,
      "loss": 1.0516,
      "step": 6851,
      "task_loss": 1.3071733713150024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3912030458450317,
      "epoch": 5.79,
      "learning_rate": 3.4104571070757676e-05,
      "loss": 1.0111,
      "step": 6852,
      "task_loss": 0.8126278519630432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2673314809799194,
      "epoch": 5.79,
      "learning_rate": 3.410144020037571e-05,
      "loss": 1.1916,
      "step": 6853,
      "task_loss": 1.9539610147476196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.038001537322998,
      "epoch": 5.79,
      "learning_rate": 3.409830932999374e-05,
      "loss": 0.962,
      "step": 6854,
      "task_loss": 0.9244308471679688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6748457551002502,
      "epoch": 5.79,
      "learning_rate": 3.409517845961178e-05,
      "loss": 0.7105,
      "step": 6855,
      "task_loss": 0.7693513035774231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.236301302909851,
      "epoch": 5.79,
      "learning_rate": 3.409204758922981e-05,
      "loss": 0.8634,
      "step": 6856,
      "task_loss": 0.8071554899215698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5743858218193054,
      "epoch": 5.8,
      "learning_rate": 3.408891671884784e-05,
      "loss": 0.8862,
      "step": 6857,
      "task_loss": 0.8154314160346985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.070645809173584,
      "epoch": 5.8,
      "learning_rate": 3.408578584846587e-05,
      "loss": 1.0289,
      "step": 6858,
      "task_loss": 1.2735791206359863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3428841829299927,
      "epoch": 5.8,
      "learning_rate": 3.408265497808391e-05,
      "loss": 0.5345,
      "step": 6859,
      "task_loss": 0.6374341249465942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.141222357749939,
      "epoch": 5.8,
      "learning_rate": 3.4079524107701944e-05,
      "loss": 0.8658,
      "step": 6860,
      "task_loss": 1.8804285526275635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0763192176818848,
      "epoch": 5.8,
      "learning_rate": 3.4076393237319975e-05,
      "loss": 0.7824,
      "step": 6861,
      "task_loss": 0.6950896978378296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7557249665260315,
      "epoch": 5.8,
      "learning_rate": 3.407326236693801e-05,
      "loss": 0.7998,
      "step": 6862,
      "task_loss": 1.2648613452911377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7542039155960083,
      "epoch": 5.8,
      "learning_rate": 3.4070131496556046e-05,
      "loss": 0.7622,
      "step": 6863,
      "task_loss": 0.9475991129875183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1826690435409546,
      "epoch": 5.8,
      "learning_rate": 3.406700062617408e-05,
      "loss": 0.8203,
      "step": 6864,
      "task_loss": 1.0393774509429932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7192468643188477,
      "epoch": 5.8,
      "learning_rate": 3.406386975579211e-05,
      "loss": 0.9574,
      "step": 6865,
      "task_loss": 0.8472422361373901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9191077947616577,
      "epoch": 5.8,
      "learning_rate": 3.406073888541015e-05,
      "loss": 0.7947,
      "step": 6866,
      "task_loss": 1.0084340572357178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6269532442092896,
      "epoch": 5.8,
      "learning_rate": 3.405760801502818e-05,
      "loss": 0.8619,
      "step": 6867,
      "task_loss": 0.46473291516304016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5782675743103027,
      "epoch": 5.81,
      "learning_rate": 3.405447714464621e-05,
      "loss": 0.8092,
      "step": 6868,
      "task_loss": 0.5977188348770142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7057332992553711,
      "epoch": 5.81,
      "learning_rate": 3.405134627426424e-05,
      "loss": 0.839,
      "step": 6869,
      "task_loss": 1.0370389223098755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3104698657989502,
      "epoch": 5.81,
      "learning_rate": 3.404821540388228e-05,
      "loss": 0.7795,
      "step": 6870,
      "task_loss": 0.9600040912628174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7795807123184204,
      "epoch": 5.81,
      "learning_rate": 3.4045084533500314e-05,
      "loss": 0.7837,
      "step": 6871,
      "task_loss": 1.6263827085494995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0544183254241943,
      "epoch": 5.81,
      "learning_rate": 3.4041953663118345e-05,
      "loss": 0.7588,
      "step": 6872,
      "task_loss": 1.3256231546401978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4946787357330322,
      "epoch": 5.81,
      "learning_rate": 3.403882279273638e-05,
      "loss": 0.9356,
      "step": 6873,
      "task_loss": 0.6464933156967163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0191198587417603,
      "epoch": 5.81,
      "learning_rate": 3.4035691922354416e-05,
      "loss": 1.2304,
      "step": 6874,
      "task_loss": 0.2674356997013092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4595634341239929,
      "epoch": 5.81,
      "learning_rate": 3.403256105197245e-05,
      "loss": 0.8882,
      "step": 6875,
      "task_loss": 0.5411006808280945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2538901567459106,
      "epoch": 5.81,
      "learning_rate": 3.402943018159048e-05,
      "loss": 1.0324,
      "step": 6876,
      "task_loss": 0.6482666730880737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0995458364486694,
      "epoch": 5.81,
      "learning_rate": 3.402629931120852e-05,
      "loss": 0.9915,
      "step": 6877,
      "task_loss": 1.4579235315322876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8104075193405151,
      "epoch": 5.81,
      "learning_rate": 3.402316844082655e-05,
      "loss": 1.0222,
      "step": 6878,
      "task_loss": 0.8962030410766602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.515081763267517,
      "epoch": 5.81,
      "learning_rate": 3.402003757044459e-05,
      "loss": 1.5485,
      "step": 6879,
      "task_loss": 1.108875036239624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8721487522125244,
      "epoch": 5.82,
      "learning_rate": 3.401690670006262e-05,
      "loss": 1.3957,
      "step": 6880,
      "task_loss": 0.46737322211265564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0425803661346436,
      "epoch": 5.82,
      "learning_rate": 3.401377582968066e-05,
      "loss": 0.911,
      "step": 6881,
      "task_loss": 1.4012101888656616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4466670751571655,
      "epoch": 5.82,
      "learning_rate": 3.401064495929869e-05,
      "loss": 1.2219,
      "step": 6882,
      "task_loss": 1.5687122344970703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.968562126159668,
      "epoch": 5.82,
      "learning_rate": 3.400751408891672e-05,
      "loss": 0.776,
      "step": 6883,
      "task_loss": 0.6972676515579224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7438424825668335,
      "epoch": 5.82,
      "learning_rate": 3.4004383218534754e-05,
      "loss": 0.6576,
      "step": 6884,
      "task_loss": 1.001470685005188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.816953182220459,
      "epoch": 5.82,
      "learning_rate": 3.400125234815279e-05,
      "loss": 0.7847,
      "step": 6885,
      "task_loss": 0.25818002223968506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7609403133392334,
      "epoch": 5.82,
      "learning_rate": 3.3998121477770824e-05,
      "loss": 0.8793,
      "step": 6886,
      "task_loss": 0.4908868074417114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3069195747375488,
      "epoch": 5.82,
      "learning_rate": 3.3994990607388856e-05,
      "loss": 0.9857,
      "step": 6887,
      "task_loss": 0.9700629711151123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6917468309402466,
      "epoch": 5.82,
      "learning_rate": 3.399185973700689e-05,
      "loss": 0.7312,
      "step": 6888,
      "task_loss": 0.5384666919708252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8386602997779846,
      "epoch": 5.82,
      "learning_rate": 3.3988728866624926e-05,
      "loss": 0.8016,
      "step": 6889,
      "task_loss": 0.4348175823688507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2580536603927612,
      "epoch": 5.82,
      "learning_rate": 3.398559799624296e-05,
      "loss": 0.8496,
      "step": 6890,
      "task_loss": 1.4188299179077148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5993764400482178,
      "epoch": 5.82,
      "learning_rate": 3.398246712586099e-05,
      "loss": 0.8375,
      "step": 6891,
      "task_loss": 0.33297666907310486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7948870062828064,
      "epoch": 5.83,
      "learning_rate": 3.397933625547903e-05,
      "loss": 0.7961,
      "step": 6892,
      "task_loss": 0.2505059838294983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2725639343261719,
      "epoch": 5.83,
      "learning_rate": 3.397620538509706e-05,
      "loss": 1.0554,
      "step": 6893,
      "task_loss": 0.9319187998771667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7564842104911804,
      "epoch": 5.83,
      "learning_rate": 3.397307451471509e-05,
      "loss": 0.9573,
      "step": 6894,
      "task_loss": 1.0442701578140259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9171180725097656,
      "epoch": 5.83,
      "learning_rate": 3.3969943644333124e-05,
      "loss": 0.8526,
      "step": 6895,
      "task_loss": 0.6920954585075378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7373217344284058,
      "epoch": 5.83,
      "learning_rate": 3.396681277395116e-05,
      "loss": 1.0694,
      "step": 6896,
      "task_loss": 1.4309650659561157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8659797310829163,
      "epoch": 5.83,
      "learning_rate": 3.3963681903569194e-05,
      "loss": 0.8737,
      "step": 6897,
      "task_loss": 1.4518369436264038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5154917240142822,
      "epoch": 5.83,
      "learning_rate": 3.3960551033187226e-05,
      "loss": 1.2808,
      "step": 6898,
      "task_loss": 0.6414453387260437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5040260553359985,
      "epoch": 5.83,
      "learning_rate": 3.395742016280526e-05,
      "loss": 0.7678,
      "step": 6899,
      "task_loss": 0.5746818780899048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.144068956375122,
      "epoch": 5.83,
      "learning_rate": 3.3954289292423296e-05,
      "loss": 0.951,
      "step": 6900,
      "task_loss": 1.360191822052002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6666527986526489,
      "epoch": 5.83,
      "learning_rate": 3.395115842204133e-05,
      "loss": 0.8821,
      "step": 6901,
      "task_loss": 1.1487798690795898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9893760681152344,
      "epoch": 5.83,
      "learning_rate": 3.394802755165936e-05,
      "loss": 0.9523,
      "step": 6902,
      "task_loss": 0.48197755217552185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7012921571731567,
      "epoch": 5.83,
      "learning_rate": 3.39448966812774e-05,
      "loss": 0.9816,
      "step": 6903,
      "task_loss": 0.9121934175491333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4635307192802429,
      "epoch": 5.84,
      "learning_rate": 3.394176581089543e-05,
      "loss": 0.8953,
      "step": 6904,
      "task_loss": 1.349608063697815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5223485827445984,
      "epoch": 5.84,
      "learning_rate": 3.393863494051346e-05,
      "loss": 0.8265,
      "step": 6905,
      "task_loss": 1.064967155456543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4845011234283447,
      "epoch": 5.84,
      "learning_rate": 3.3935504070131494e-05,
      "loss": 0.9164,
      "step": 6906,
      "task_loss": 1.1695574522018433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2955421209335327,
      "epoch": 5.84,
      "learning_rate": 3.393237319974953e-05,
      "loss": 1.0058,
      "step": 6907,
      "task_loss": 0.6141376495361328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6880213022232056,
      "epoch": 5.84,
      "learning_rate": 3.3929242329367564e-05,
      "loss": 0.8055,
      "step": 6908,
      "task_loss": 1.4867212772369385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6852675676345825,
      "epoch": 5.84,
      "learning_rate": 3.3926111458985596e-05,
      "loss": 0.9541,
      "step": 6909,
      "task_loss": 0.7258515954017639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.726584792137146,
      "epoch": 5.84,
      "learning_rate": 3.3922980588603634e-05,
      "loss": 1.0001,
      "step": 6910,
      "task_loss": 1.1998764276504517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0975732803344727,
      "epoch": 5.84,
      "learning_rate": 3.3919849718221666e-05,
      "loss": 0.8728,
      "step": 6911,
      "task_loss": 1.0396242141723633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0266728401184082,
      "epoch": 5.84,
      "learning_rate": 3.39167188478397e-05,
      "loss": 0.8062,
      "step": 6912,
      "task_loss": 0.7804949879646301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1047775745391846,
      "epoch": 5.84,
      "learning_rate": 3.3913587977457737e-05,
      "loss": 0.8363,
      "step": 6913,
      "task_loss": 1.1864643096923828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8188768029212952,
      "epoch": 5.84,
      "learning_rate": 3.391045710707577e-05,
      "loss": 0.7211,
      "step": 6914,
      "task_loss": 1.1286306381225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8852542042732239,
      "epoch": 5.84,
      "learning_rate": 3.390732623669381e-05,
      "loss": 0.801,
      "step": 6915,
      "task_loss": 1.0500050783157349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7649552822113037,
      "epoch": 5.85,
      "learning_rate": 3.390419536631184e-05,
      "loss": 0.8658,
      "step": 6916,
      "task_loss": 0.5435249209403992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6489030718803406,
      "epoch": 5.85,
      "learning_rate": 3.390106449592987e-05,
      "loss": 0.7202,
      "step": 6917,
      "task_loss": 0.6309554576873779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0053887367248535,
      "epoch": 5.85,
      "learning_rate": 3.389793362554791e-05,
      "loss": 1.0222,
      "step": 6918,
      "task_loss": 1.739039421081543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5563018321990967,
      "epoch": 5.85,
      "learning_rate": 3.389480275516594e-05,
      "loss": 0.9521,
      "step": 6919,
      "task_loss": 0.9977294206619263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3279426097869873,
      "epoch": 5.85,
      "learning_rate": 3.389167188478397e-05,
      "loss": 0.9352,
      "step": 6920,
      "task_loss": 1.7805975675582886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3097933530807495,
      "epoch": 5.85,
      "learning_rate": 3.3888541014402004e-05,
      "loss": 0.8942,
      "step": 6921,
      "task_loss": 1.011176586151123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4297526478767395,
      "epoch": 5.85,
      "learning_rate": 3.388541014402004e-05,
      "loss": 0.7953,
      "step": 6922,
      "task_loss": 0.5049508213996887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8888627290725708,
      "epoch": 5.85,
      "learning_rate": 3.3882279273638075e-05,
      "loss": 0.7726,
      "step": 6923,
      "task_loss": 0.32750824093818665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5377997159957886,
      "epoch": 5.85,
      "learning_rate": 3.3879148403256106e-05,
      "loss": 0.8999,
      "step": 6924,
      "task_loss": 0.4693158268928528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8020017743110657,
      "epoch": 5.85,
      "learning_rate": 3.387601753287414e-05,
      "loss": 0.8197,
      "step": 6925,
      "task_loss": 0.2112639844417572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6258788704872131,
      "epoch": 5.85,
      "learning_rate": 3.387288666249218e-05,
      "loss": 1.1205,
      "step": 6926,
      "task_loss": 0.6032505631446838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.065102219581604,
      "epoch": 5.85,
      "learning_rate": 3.386975579211021e-05,
      "loss": 0.9574,
      "step": 6927,
      "task_loss": 0.8468900322914124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0820438861846924,
      "epoch": 5.86,
      "learning_rate": 3.386662492172824e-05,
      "loss": 1.0097,
      "step": 6928,
      "task_loss": 0.8839014172554016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.892052412033081,
      "epoch": 5.86,
      "learning_rate": 3.386349405134628e-05,
      "loss": 0.8887,
      "step": 6929,
      "task_loss": 1.2531615495681763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6819164752960205,
      "epoch": 5.86,
      "learning_rate": 3.386036318096431e-05,
      "loss": 0.9909,
      "step": 6930,
      "task_loss": 1.3475241661071777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7486989498138428,
      "epoch": 5.86,
      "learning_rate": 3.385723231058234e-05,
      "loss": 0.8757,
      "step": 6931,
      "task_loss": 1.4608715772628784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4066157341003418,
      "epoch": 5.86,
      "learning_rate": 3.3854101440200374e-05,
      "loss": 1.1617,
      "step": 6932,
      "task_loss": 1.7208361625671387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6046029329299927,
      "epoch": 5.86,
      "learning_rate": 3.385097056981841e-05,
      "loss": 0.6236,
      "step": 6933,
      "task_loss": 0.7152430415153503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6018414497375488,
      "epoch": 5.86,
      "learning_rate": 3.3847839699436445e-05,
      "loss": 0.8526,
      "step": 6934,
      "task_loss": 0.6856856942176819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.168152093887329,
      "epoch": 5.86,
      "learning_rate": 3.3844708829054476e-05,
      "loss": 0.7882,
      "step": 6935,
      "task_loss": 2.0066795349121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.482743263244629,
      "epoch": 5.86,
      "learning_rate": 3.384157795867251e-05,
      "loss": 1.1237,
      "step": 6936,
      "task_loss": 0.7621709704399109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.797637939453125,
      "epoch": 5.86,
      "learning_rate": 3.383844708829055e-05,
      "loss": 0.923,
      "step": 6937,
      "task_loss": 0.8066670894622803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.979820728302002,
      "epoch": 5.86,
      "learning_rate": 3.383531621790858e-05,
      "loss": 0.9065,
      "step": 6938,
      "task_loss": 0.2894704043865204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0127232074737549,
      "epoch": 5.87,
      "learning_rate": 3.383218534752661e-05,
      "loss": 0.8139,
      "step": 6939,
      "task_loss": 0.8275284171104431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.647672712802887,
      "epoch": 5.87,
      "learning_rate": 3.382905447714465e-05,
      "loss": 0.9558,
      "step": 6940,
      "task_loss": 0.8882201910018921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9000583291053772,
      "epoch": 5.87,
      "learning_rate": 3.382592360676268e-05,
      "loss": 0.8457,
      "step": 6941,
      "task_loss": 0.6951413750648499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7572883367538452,
      "epoch": 5.87,
      "learning_rate": 3.382279273638071e-05,
      "loss": 0.7004,
      "step": 6942,
      "task_loss": 0.37907737493515015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5620328783988953,
      "epoch": 5.87,
      "learning_rate": 3.3819661865998744e-05,
      "loss": 1.0055,
      "step": 6943,
      "task_loss": 1.1281148195266724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9190694093704224,
      "epoch": 5.87,
      "learning_rate": 3.381653099561678e-05,
      "loss": 0.922,
      "step": 6944,
      "task_loss": 0.4500877559185028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6308400630950928,
      "epoch": 5.87,
      "learning_rate": 3.3813400125234815e-05,
      "loss": 0.8812,
      "step": 6945,
      "task_loss": 1.0601125955581665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7859493494033813,
      "epoch": 5.87,
      "learning_rate": 3.381026925485285e-05,
      "loss": 0.8406,
      "step": 6946,
      "task_loss": 0.327406108379364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6470530033111572,
      "epoch": 5.87,
      "learning_rate": 3.3807138384470885e-05,
      "loss": 0.7739,
      "step": 6947,
      "task_loss": 0.6219868659973145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9917117357254028,
      "epoch": 5.87,
      "learning_rate": 3.3804007514088923e-05,
      "loss": 0.7731,
      "step": 6948,
      "task_loss": 1.9097692966461182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6216516494750977,
      "epoch": 5.87,
      "learning_rate": 3.3800876643706955e-05,
      "loss": 0.705,
      "step": 6949,
      "task_loss": 0.751078724861145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7703490853309631,
      "epoch": 5.87,
      "learning_rate": 3.379774577332499e-05,
      "loss": 1.0291,
      "step": 6950,
      "task_loss": 0.9537156224250793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0145093202590942,
      "epoch": 5.88,
      "learning_rate": 3.379461490294302e-05,
      "loss": 1.1315,
      "step": 6951,
      "task_loss": 1.2060378789901733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7957545518875122,
      "epoch": 5.88,
      "learning_rate": 3.379148403256106e-05,
      "loss": 0.9805,
      "step": 6952,
      "task_loss": 0.7363992929458618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.097123384475708,
      "epoch": 5.88,
      "learning_rate": 3.378835316217909e-05,
      "loss": 0.7294,
      "step": 6953,
      "task_loss": 1.7358918190002441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8580490350723267,
      "epoch": 5.88,
      "learning_rate": 3.378522229179712e-05,
      "loss": 0.9497,
      "step": 6954,
      "task_loss": 0.32238245010375977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8695194721221924,
      "epoch": 5.88,
      "learning_rate": 3.378209142141516e-05,
      "loss": 0.9058,
      "step": 6955,
      "task_loss": 0.5766901969909668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4134443998336792,
      "epoch": 5.88,
      "learning_rate": 3.377896055103319e-05,
      "loss": 1.2652,
      "step": 6956,
      "task_loss": 1.4127092361450195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1398154497146606,
      "epoch": 5.88,
      "learning_rate": 3.377582968065122e-05,
      "loss": 1.0596,
      "step": 6957,
      "task_loss": 1.115541696548462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5135980248451233,
      "epoch": 5.88,
      "learning_rate": 3.3772698810269255e-05,
      "loss": 0.8607,
      "step": 6958,
      "task_loss": 0.5383583903312683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.403607726097107,
      "epoch": 5.88,
      "learning_rate": 3.376956793988729e-05,
      "loss": 1.0361,
      "step": 6959,
      "task_loss": 1.283463954925537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.684861958026886,
      "epoch": 5.88,
      "learning_rate": 3.3766437069505325e-05,
      "loss": 0.7722,
      "step": 6960,
      "task_loss": 0.6889323592185974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0562732219696045,
      "epoch": 5.88,
      "learning_rate": 3.376330619912336e-05,
      "loss": 0.9859,
      "step": 6961,
      "task_loss": 1.106767177581787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6342775821685791,
      "epoch": 5.88,
      "learning_rate": 3.376017532874139e-05,
      "loss": 0.7703,
      "step": 6962,
      "task_loss": 0.323528528213501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7526289224624634,
      "epoch": 5.89,
      "learning_rate": 3.375704445835943e-05,
      "loss": 0.8064,
      "step": 6963,
      "task_loss": 1.1200135946273804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8584944009780884,
      "epoch": 5.89,
      "learning_rate": 3.375391358797746e-05,
      "loss": 0.7038,
      "step": 6964,
      "task_loss": 0.8151698708534241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5969104766845703,
      "epoch": 5.89,
      "learning_rate": 3.375078271759549e-05,
      "loss": 0.94,
      "step": 6965,
      "task_loss": 0.5064789652824402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35814568400382996,
      "epoch": 5.89,
      "learning_rate": 3.374765184721353e-05,
      "loss": 0.9584,
      "step": 6966,
      "task_loss": 0.532548189163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9311122298240662,
      "epoch": 5.89,
      "learning_rate": 3.374452097683156e-05,
      "loss": 1.1112,
      "step": 6967,
      "task_loss": 1.0992355346679688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45583125948905945,
      "epoch": 5.89,
      "learning_rate": 3.374139010644959e-05,
      "loss": 0.8817,
      "step": 6968,
      "task_loss": 0.690330445766449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1459267139434814,
      "epoch": 5.89,
      "learning_rate": 3.3738259236067625e-05,
      "loss": 1.1938,
      "step": 6969,
      "task_loss": 1.6711328029632568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49957916140556335,
      "epoch": 5.89,
      "learning_rate": 3.373512836568566e-05,
      "loss": 0.8122,
      "step": 6970,
      "task_loss": 0.3798987567424774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1093542575836182,
      "epoch": 5.89,
      "learning_rate": 3.3731997495303695e-05,
      "loss": 1.048,
      "step": 6971,
      "task_loss": 0.592887818813324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9689028263092041,
      "epoch": 5.89,
      "learning_rate": 3.372886662492173e-05,
      "loss": 0.7901,
      "step": 6972,
      "task_loss": 0.9549815654754639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8956030607223511,
      "epoch": 5.89,
      "learning_rate": 3.372573575453976e-05,
      "loss": 0.7514,
      "step": 6973,
      "task_loss": 1.5284082889556885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2454735040664673,
      "epoch": 5.89,
      "learning_rate": 3.37226048841578e-05,
      "loss": 1.0115,
      "step": 6974,
      "task_loss": 1.6454213857650757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5085554122924805,
      "epoch": 5.9,
      "learning_rate": 3.371947401377583e-05,
      "loss": 1.0599,
      "step": 6975,
      "task_loss": 1.7485417127609253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8349713087081909,
      "epoch": 5.9,
      "learning_rate": 3.371634314339386e-05,
      "loss": 0.9457,
      "step": 6976,
      "task_loss": 0.7349706888198853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6365257501602173,
      "epoch": 5.9,
      "learning_rate": 3.37132122730119e-05,
      "loss": 0.916,
      "step": 6977,
      "task_loss": 0.6570352911949158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6128274202346802,
      "epoch": 5.9,
      "learning_rate": 3.371008140262993e-05,
      "loss": 0.9637,
      "step": 6978,
      "task_loss": 1.1949692964553833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8825644254684448,
      "epoch": 5.9,
      "learning_rate": 3.370695053224796e-05,
      "loss": 1.0096,
      "step": 6979,
      "task_loss": 0.7607545852661133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9415459632873535,
      "epoch": 5.9,
      "learning_rate": 3.3703819661866e-05,
      "loss": 1.0202,
      "step": 6980,
      "task_loss": 1.0818666219711304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6278276443481445,
      "epoch": 5.9,
      "learning_rate": 3.370068879148403e-05,
      "loss": 0.7911,
      "step": 6981,
      "task_loss": 1.9155120849609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6858258247375488,
      "epoch": 5.9,
      "learning_rate": 3.369755792110207e-05,
      "loss": 0.7891,
      "step": 6982,
      "task_loss": 0.4791381359100342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7624328136444092,
      "epoch": 5.9,
      "learning_rate": 3.3694427050720104e-05,
      "loss": 1.089,
      "step": 6983,
      "task_loss": 1.1145966053009033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7897566556930542,
      "epoch": 5.9,
      "learning_rate": 3.3691296180338135e-05,
      "loss": 0.9009,
      "step": 6984,
      "task_loss": 1.169705867767334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.917468249797821,
      "epoch": 5.9,
      "learning_rate": 3.3688165309956174e-05,
      "loss": 0.6691,
      "step": 6985,
      "task_loss": 0.6427200436592102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7485520839691162,
      "epoch": 5.9,
      "learning_rate": 3.3685034439574206e-05,
      "loss": 0.9433,
      "step": 6986,
      "task_loss": 1.2266640663146973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6695336699485779,
      "epoch": 5.91,
      "learning_rate": 3.368190356919224e-05,
      "loss": 0.8212,
      "step": 6987,
      "task_loss": 0.9373969435691833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0041837692260742,
      "epoch": 5.91,
      "learning_rate": 3.3678772698810276e-05,
      "loss": 0.8565,
      "step": 6988,
      "task_loss": 1.3345056772232056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9342938661575317,
      "epoch": 5.91,
      "learning_rate": 3.367564182842831e-05,
      "loss": 0.7835,
      "step": 6989,
      "task_loss": 0.5277103781700134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9468790888786316,
      "epoch": 5.91,
      "learning_rate": 3.367251095804634e-05,
      "loss": 0.9617,
      "step": 6990,
      "task_loss": 2.1691794395446777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.470137596130371,
      "epoch": 5.91,
      "learning_rate": 3.366938008766437e-05,
      "loss": 0.9962,
      "step": 6991,
      "task_loss": 1.9285677671432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1503443717956543,
      "epoch": 5.91,
      "learning_rate": 3.366624921728241e-05,
      "loss": 1.1732,
      "step": 6992,
      "task_loss": 1.8206219673156738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8682222962379456,
      "epoch": 5.91,
      "learning_rate": 3.366311834690044e-05,
      "loss": 0.9261,
      "step": 6993,
      "task_loss": 0.9568256735801697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7670912742614746,
      "epoch": 5.91,
      "learning_rate": 3.3659987476518473e-05,
      "loss": 1.2775,
      "step": 6994,
      "task_loss": 1.870788335800171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.974036693572998,
      "epoch": 5.91,
      "learning_rate": 3.3656856606136505e-05,
      "loss": 0.9542,
      "step": 6995,
      "task_loss": 0.48656201362609863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5446070432662964,
      "epoch": 5.91,
      "learning_rate": 3.3653725735754544e-05,
      "loss": 0.9941,
      "step": 6996,
      "task_loss": 0.8594799041748047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.669047474861145,
      "epoch": 5.91,
      "learning_rate": 3.3650594865372576e-05,
      "loss": 0.9497,
      "step": 6997,
      "task_loss": 0.35954445600509644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.209742546081543,
      "epoch": 5.91,
      "learning_rate": 3.364746399499061e-05,
      "loss": 1.0117,
      "step": 6998,
      "task_loss": 1.690645694732666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0742379426956177,
      "epoch": 5.92,
      "learning_rate": 3.364433312460864e-05,
      "loss": 0.8424,
      "step": 6999,
      "task_loss": 1.1364433765411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611460208892822,
      "epoch": 5.92,
      "learning_rate": 3.364120225422668e-05,
      "loss": 0.7199,
      "step": 7000,
      "task_loss": 0.4880939722061157
    },
    {
      "epoch": 5.92,
      "eval_accuracy": 0.8769108910891089,
      "eval_loss": 0.5619150400161743,
      "eval_runtime": 208.304,
      "eval_samples_per_second": 121.217,
      "eval_steps_per_second": 0.951,
      "step": 7000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8906183242797852,
      "epoch": 5.92,
      "learning_rate": 3.363807138384471e-05,
      "loss": 0.7704,
      "step": 7001,
      "task_loss": 1.2520197629928589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4863299131393433,
      "epoch": 5.92,
      "learning_rate": 3.363494051346274e-05,
      "loss": 0.9069,
      "step": 7002,
      "task_loss": 1.3162511587142944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7060438394546509,
      "epoch": 5.92,
      "learning_rate": 3.363180964308078e-05,
      "loss": 0.8722,
      "step": 7003,
      "task_loss": 0.5009607672691345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0671329498291016,
      "epoch": 5.92,
      "learning_rate": 3.362867877269881e-05,
      "loss": 0.9496,
      "step": 7004,
      "task_loss": 1.6627230644226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0057008266448975,
      "epoch": 5.92,
      "learning_rate": 3.362554790231684e-05,
      "loss": 1.012,
      "step": 7005,
      "task_loss": 0.4154372811317444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5751818418502808,
      "epoch": 5.92,
      "learning_rate": 3.3622417031934875e-05,
      "loss": 0.7194,
      "step": 7006,
      "task_loss": 0.13957597315311432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8671864867210388,
      "epoch": 5.92,
      "learning_rate": 3.3619286161552914e-05,
      "loss": 0.8025,
      "step": 7007,
      "task_loss": 0.9912954568862915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.068942904472351,
      "epoch": 5.92,
      "learning_rate": 3.3616155291170945e-05,
      "loss": 0.8545,
      "step": 7008,
      "task_loss": 1.4549864530563354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8456752300262451,
      "epoch": 5.92,
      "learning_rate": 3.361302442078898e-05,
      "loss": 0.8988,
      "step": 7009,
      "task_loss": 1.2727543115615845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9132617115974426,
      "epoch": 5.93,
      "learning_rate": 3.360989355040701e-05,
      "loss": 0.788,
      "step": 7010,
      "task_loss": 1.027687668800354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0513267517089844,
      "epoch": 5.93,
      "learning_rate": 3.360676268002505e-05,
      "loss": 0.7134,
      "step": 7011,
      "task_loss": 1.333055853843689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6172952651977539,
      "epoch": 5.93,
      "learning_rate": 3.360363180964308e-05,
      "loss": 0.7945,
      "step": 7012,
      "task_loss": 0.5341715812683105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9521008729934692,
      "epoch": 5.93,
      "learning_rate": 3.360050093926112e-05,
      "loss": 0.7429,
      "step": 7013,
      "task_loss": 0.696173906326294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0868479013442993,
      "epoch": 5.93,
      "learning_rate": 3.359737006887915e-05,
      "loss": 1.0702,
      "step": 7014,
      "task_loss": 0.9238091707229614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0579335689544678,
      "epoch": 5.93,
      "learning_rate": 3.359423919849719e-05,
      "loss": 1.2167,
      "step": 7015,
      "task_loss": 1.3333156108856201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7053456902503967,
      "epoch": 5.93,
      "learning_rate": 3.359110832811522e-05,
      "loss": 0.9526,
      "step": 7016,
      "task_loss": 1.3505308628082275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5673398971557617,
      "epoch": 5.93,
      "learning_rate": 3.358797745773325e-05,
      "loss": 0.7713,
      "step": 7017,
      "task_loss": 0.6700510382652283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.035088300704956,
      "epoch": 5.93,
      "learning_rate": 3.358484658735129e-05,
      "loss": 0.9676,
      "step": 7018,
      "task_loss": 0.4453567564487457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4665793776512146,
      "epoch": 5.93,
      "learning_rate": 3.358171571696932e-05,
      "loss": 0.7533,
      "step": 7019,
      "task_loss": 0.3984585702419281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.33893620967865,
      "epoch": 5.93,
      "learning_rate": 3.3578584846587354e-05,
      "loss": 0.9096,
      "step": 7020,
      "task_loss": 1.0983123779296875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3163965940475464,
      "epoch": 5.93,
      "learning_rate": 3.3575453976205386e-05,
      "loss": 1.0225,
      "step": 7021,
      "task_loss": 1.781326413154602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1348402500152588,
      "epoch": 5.94,
      "learning_rate": 3.3572323105823424e-05,
      "loss": 1.0579,
      "step": 7022,
      "task_loss": 1.2585880756378174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6900599002838135,
      "epoch": 5.94,
      "learning_rate": 3.3569192235441456e-05,
      "loss": 0.7206,
      "step": 7023,
      "task_loss": 1.0540709495544434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.431294322013855,
      "epoch": 5.94,
      "learning_rate": 3.356606136505949e-05,
      "loss": 0.7273,
      "step": 7024,
      "task_loss": 0.6996491551399231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9741184115409851,
      "epoch": 5.94,
      "learning_rate": 3.3562930494677526e-05,
      "loss": 0.9428,
      "step": 7025,
      "task_loss": 0.8213583827018738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5386438369750977,
      "epoch": 5.94,
      "learning_rate": 3.355979962429556e-05,
      "loss": 1.0465,
      "step": 7026,
      "task_loss": 0.7210488319396973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8500163555145264,
      "epoch": 5.94,
      "learning_rate": 3.355666875391359e-05,
      "loss": 0.8687,
      "step": 7027,
      "task_loss": 1.0407205820083618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5496389269828796,
      "epoch": 5.94,
      "learning_rate": 3.355353788353162e-05,
      "loss": 0.7468,
      "step": 7028,
      "task_loss": 0.5562518835067749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8758108615875244,
      "epoch": 5.94,
      "learning_rate": 3.355040701314966e-05,
      "loss": 0.7124,
      "step": 7029,
      "task_loss": 1.5659304857254028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39644455909729004,
      "epoch": 5.94,
      "learning_rate": 3.354727614276769e-05,
      "loss": 0.575,
      "step": 7030,
      "task_loss": 0.3709390163421631
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7413907051086426,
      "epoch": 5.94,
      "learning_rate": 3.3544145272385724e-05,
      "loss": 0.863,
      "step": 7031,
      "task_loss": 1.6617825031280518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1032668352127075,
      "epoch": 5.94,
      "learning_rate": 3.3541014402003756e-05,
      "loss": 1.0913,
      "step": 7032,
      "task_loss": 1.2655178308486938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3417713642120361,
      "epoch": 5.94,
      "learning_rate": 3.3537883531621794e-05,
      "loss": 1.0807,
      "step": 7033,
      "task_loss": 1.5017151832580566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2964028120040894,
      "epoch": 5.95,
      "learning_rate": 3.3534752661239826e-05,
      "loss": 0.7395,
      "step": 7034,
      "task_loss": 1.2132079601287842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5822587609291077,
      "epoch": 5.95,
      "learning_rate": 3.353162179085786e-05,
      "loss": 0.8753,
      "step": 7035,
      "task_loss": 0.6125070452690125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5543727278709412,
      "epoch": 5.95,
      "learning_rate": 3.352849092047589e-05,
      "loss": 0.6868,
      "step": 7036,
      "task_loss": 0.6453002095222473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3028368949890137,
      "epoch": 5.95,
      "learning_rate": 3.352536005009393e-05,
      "loss": 1.2008,
      "step": 7037,
      "task_loss": 1.3286495208740234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7343938946723938,
      "epoch": 5.95,
      "learning_rate": 3.352222917971196e-05,
      "loss": 0.7103,
      "step": 7038,
      "task_loss": 1.2269842624664307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0263383388519287,
      "epoch": 5.95,
      "learning_rate": 3.351909830932999e-05,
      "loss": 0.8294,
      "step": 7039,
      "task_loss": 2.6456289291381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8525549173355103,
      "epoch": 5.95,
      "learning_rate": 3.351596743894803e-05,
      "loss": 0.8707,
      "step": 7040,
      "task_loss": 0.41463392972946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7448689937591553,
      "epoch": 5.95,
      "learning_rate": 3.351283656856606e-05,
      "loss": 0.7213,
      "step": 7041,
      "task_loss": 0.3309512734413147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8351993560791016,
      "epoch": 5.95,
      "learning_rate": 3.3509705698184094e-05,
      "loss": 0.8594,
      "step": 7042,
      "task_loss": 0.40957143902778625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5271467566490173,
      "epoch": 5.95,
      "learning_rate": 3.3506574827802126e-05,
      "loss": 0.8178,
      "step": 7043,
      "task_loss": 1.0805801153182983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0209192037582397,
      "epoch": 5.95,
      "learning_rate": 3.3503443957420164e-05,
      "loss": 0.8927,
      "step": 7044,
      "task_loss": 1.3757762908935547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6806366443634033,
      "epoch": 5.95,
      "learning_rate": 3.3500313087038196e-05,
      "loss": 0.6832,
      "step": 7045,
      "task_loss": 1.0204750299453735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6285085082054138,
      "epoch": 5.96,
      "learning_rate": 3.349718221665623e-05,
      "loss": 0.7491,
      "step": 7046,
      "task_loss": 0.7429376244544983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.617598295211792,
      "epoch": 5.96,
      "learning_rate": 3.3494051346274266e-05,
      "loss": 0.7873,
      "step": 7047,
      "task_loss": 0.26115840673446655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4596919119358063,
      "epoch": 5.96,
      "learning_rate": 3.34909204758923e-05,
      "loss": 0.8253,
      "step": 7048,
      "task_loss": 0.880122184753418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7382920980453491,
      "epoch": 5.96,
      "learning_rate": 3.3487789605510337e-05,
      "loss": 0.8321,
      "step": 7049,
      "task_loss": 0.6393198370933533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2226290702819824,
      "epoch": 5.96,
      "learning_rate": 3.348465873512837e-05,
      "loss": 0.9264,
      "step": 7050,
      "task_loss": 2.237197160720825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4245729446411133,
      "epoch": 5.96,
      "learning_rate": 3.348152786474641e-05,
      "loss": 0.8228,
      "step": 7051,
      "task_loss": 0.3740636110305786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45692163705825806,
      "epoch": 5.96,
      "learning_rate": 3.347839699436444e-05,
      "loss": 0.8283,
      "step": 7052,
      "task_loss": 0.42779892683029175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8256547451019287,
      "epoch": 5.96,
      "learning_rate": 3.347526612398247e-05,
      "loss": 0.82,
      "step": 7053,
      "task_loss": 0.6906659603118896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.395383358001709,
      "epoch": 5.96,
      "learning_rate": 3.34721352536005e-05,
      "loss": 1.2477,
      "step": 7054,
      "task_loss": 1.416027545928955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6091088056564331,
      "epoch": 5.96,
      "learning_rate": 3.346900438321854e-05,
      "loss": 1.015,
      "step": 7055,
      "task_loss": 0.4617844820022583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6917176246643066,
      "epoch": 5.96,
      "learning_rate": 3.346587351283657e-05,
      "loss": 1.3806,
      "step": 7056,
      "task_loss": 0.29632890224456787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3845575451850891,
      "epoch": 5.96,
      "learning_rate": 3.3462742642454604e-05,
      "loss": 0.9016,
      "step": 7057,
      "task_loss": 0.5488486289978027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.739377498626709,
      "epoch": 5.97,
      "learning_rate": 3.3459611772072636e-05,
      "loss": 0.9424,
      "step": 7058,
      "task_loss": 1.1865136623382568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.236553430557251,
      "epoch": 5.97,
      "learning_rate": 3.3456480901690675e-05,
      "loss": 0.9718,
      "step": 7059,
      "task_loss": 0.9009526371955872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8758556246757507,
      "epoch": 5.97,
      "learning_rate": 3.3453350031308707e-05,
      "loss": 0.7943,
      "step": 7060,
      "task_loss": 1.385522484779358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.9400608539581299,
      "epoch": 5.97,
      "learning_rate": 3.345021916092674e-05,
      "loss": 1.1545,
      "step": 7061,
      "task_loss": 1.414088249206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9217976331710815,
      "epoch": 5.97,
      "learning_rate": 3.344708829054478e-05,
      "loss": 1.0379,
      "step": 7062,
      "task_loss": 0.6501072645187378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48230910301208496,
      "epoch": 5.97,
      "learning_rate": 3.344395742016281e-05,
      "loss": 0.7876,
      "step": 7063,
      "task_loss": 0.5304593443870544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9775518178939819,
      "epoch": 5.97,
      "learning_rate": 3.344082654978084e-05,
      "loss": 0.7657,
      "step": 7064,
      "task_loss": 0.9181693196296692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6108933091163635,
      "epoch": 5.97,
      "learning_rate": 3.343769567939887e-05,
      "loss": 0.8019,
      "step": 7065,
      "task_loss": 0.9651261568069458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8108817934989929,
      "epoch": 5.97,
      "learning_rate": 3.343456480901691e-05,
      "loss": 0.8267,
      "step": 7066,
      "task_loss": 0.5517512559890747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2069931030273438,
      "epoch": 5.97,
      "learning_rate": 3.343143393863494e-05,
      "loss": 0.8986,
      "step": 7067,
      "task_loss": 1.2029309272766113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5490375757217407,
      "epoch": 5.97,
      "learning_rate": 3.3428303068252974e-05,
      "loss": 0.9319,
      "step": 7068,
      "task_loss": 1.4454314708709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5749841928482056,
      "epoch": 5.97,
      "learning_rate": 3.3425172197871006e-05,
      "loss": 0.9857,
      "step": 7069,
      "task_loss": 1.0127569437026978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4807184040546417,
      "epoch": 5.98,
      "learning_rate": 3.3422041327489045e-05,
      "loss": 0.7692,
      "step": 7070,
      "task_loss": 0.5612149834632874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1538658142089844,
      "epoch": 5.98,
      "learning_rate": 3.3418910457107076e-05,
      "loss": 1.1191,
      "step": 7071,
      "task_loss": 1.9996652603149414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5448070764541626,
      "epoch": 5.98,
      "learning_rate": 3.341577958672511e-05,
      "loss": 0.8016,
      "step": 7072,
      "task_loss": 1.1052345037460327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9874866008758545,
      "epoch": 5.98,
      "learning_rate": 3.341264871634314e-05,
      "loss": 0.9853,
      "step": 7073,
      "task_loss": 0.9079083204269409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5054412484169006,
      "epoch": 5.98,
      "learning_rate": 3.340951784596118e-05,
      "loss": 0.9837,
      "step": 7074,
      "task_loss": 0.4206732511520386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7025010585784912,
      "epoch": 5.98,
      "learning_rate": 3.340638697557921e-05,
      "loss": 0.899,
      "step": 7075,
      "task_loss": 0.41056159138679504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.775099515914917,
      "epoch": 5.98,
      "learning_rate": 3.340325610519724e-05,
      "loss": 0.7523,
      "step": 7076,
      "task_loss": 0.6254719495773315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9208609461784363,
      "epoch": 5.98,
      "learning_rate": 3.340012523481528e-05,
      "loss": 0.88,
      "step": 7077,
      "task_loss": 0.35189077258110046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39377376437187195,
      "epoch": 5.98,
      "learning_rate": 3.339699436443331e-05,
      "loss": 0.6568,
      "step": 7078,
      "task_loss": 0.14919373393058777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1851025819778442,
      "epoch": 5.98,
      "learning_rate": 3.3393863494051344e-05,
      "loss": 0.8418,
      "step": 7079,
      "task_loss": 2.042318820953369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5039405822753906,
      "epoch": 5.98,
      "learning_rate": 3.339073262366938e-05,
      "loss": 0.8211,
      "step": 7080,
      "task_loss": 0.7742667198181152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5731079578399658,
      "epoch": 5.99,
      "learning_rate": 3.3387601753287415e-05,
      "loss": 1.1985,
      "step": 7081,
      "task_loss": 0.8183073401451111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5645502209663391,
      "epoch": 5.99,
      "learning_rate": 3.338447088290545e-05,
      "loss": 0.7224,
      "step": 7082,
      "task_loss": 0.9291947484016418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.986526608467102,
      "epoch": 5.99,
      "learning_rate": 3.3381340012523485e-05,
      "loss": 1.1815,
      "step": 7083,
      "task_loss": 1.024829626083374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2367472648620605,
      "epoch": 5.99,
      "learning_rate": 3.337820914214152e-05,
      "loss": 1.1401,
      "step": 7084,
      "task_loss": 1.4710835218429565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5398554801940918,
      "epoch": 5.99,
      "learning_rate": 3.3375078271759555e-05,
      "loss": 0.7025,
      "step": 7085,
      "task_loss": 1.035278081893921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8989774584770203,
      "epoch": 5.99,
      "learning_rate": 3.337194740137759e-05,
      "loss": 0.8415,
      "step": 7086,
      "task_loss": 0.23946191370487213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7800000905990601,
      "epoch": 5.99,
      "learning_rate": 3.336881653099562e-05,
      "loss": 0.7552,
      "step": 7087,
      "task_loss": 0.8897056579589844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7641382217407227,
      "epoch": 5.99,
      "learning_rate": 3.336568566061366e-05,
      "loss": 0.6771,
      "step": 7088,
      "task_loss": 0.7020187377929688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.482863187789917,
      "epoch": 5.99,
      "learning_rate": 3.336255479023169e-05,
      "loss": 0.8798,
      "step": 7089,
      "task_loss": 2.1682565212249756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.010953664779663,
      "epoch": 5.99,
      "learning_rate": 3.335942391984972e-05,
      "loss": 0.6976,
      "step": 7090,
      "task_loss": 0.5193395614624023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9101821184158325,
      "epoch": 5.99,
      "learning_rate": 3.335629304946775e-05,
      "loss": 0.9579,
      "step": 7091,
      "task_loss": 1.1549477577209473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7038790583610535,
      "epoch": 5.99,
      "learning_rate": 3.335316217908579e-05,
      "loss": 0.7601,
      "step": 7092,
      "task_loss": 1.8974837064743042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6320763826370239,
      "epoch": 6.0,
      "learning_rate": 3.335003130870382e-05,
      "loss": 0.8569,
      "step": 7093,
      "task_loss": 0.3574194014072418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1798663139343262,
      "epoch": 6.0,
      "learning_rate": 3.3346900438321855e-05,
      "loss": 0.8561,
      "step": 7094,
      "task_loss": 1.789441704750061
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7975437641143799,
      "epoch": 6.0,
      "learning_rate": 3.334376956793989e-05,
      "loss": 1.0391,
      "step": 7095,
      "task_loss": 0.9586820006370544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7537767291069031,
      "epoch": 6.0,
      "learning_rate": 3.3340638697557925e-05,
      "loss": 0.8774,
      "step": 7096,
      "task_loss": 1.2718219757080078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7234456539154053,
      "epoch": 6.0,
      "learning_rate": 3.333750782717596e-05,
      "loss": 0.9765,
      "step": 7097,
      "task_loss": 0.559874415397644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2088359594345093,
      "epoch": 6.0,
      "learning_rate": 3.333437695679399e-05,
      "loss": 1.0003,
      "step": 7098,
      "task_loss": 2.1032533645629883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.679758608341217,
      "epoch": 6.0,
      "learning_rate": 3.333124608641203e-05,
      "loss": 1.4004,
      "step": 7099,
      "task_loss": 0.47318151593208313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1021302938461304,
      "epoch": 6.0,
      "learning_rate": 3.332811521603006e-05,
      "loss": 0.8617,
      "step": 7100,
      "task_loss": 0.9095768928527832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3967905044555664,
      "epoch": 6.0,
      "learning_rate": 3.332498434564809e-05,
      "loss": 0.8241,
      "step": 7101,
      "task_loss": 1.4700758457183838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.654239296913147,
      "epoch": 6.0,
      "learning_rate": 3.332185347526612e-05,
      "loss": 0.7002,
      "step": 7102,
      "task_loss": 0.4470694065093994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5954717397689819,
      "epoch": 6.0,
      "learning_rate": 3.331872260488416e-05,
      "loss": 0.7775,
      "step": 7103,
      "task_loss": 0.7401841282844543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.126165747642517,
      "epoch": 6.01,
      "learning_rate": 3.331559173450219e-05,
      "loss": 1.076,
      "step": 7104,
      "task_loss": 1.0465149879455566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6140373349189758,
      "epoch": 6.01,
      "learning_rate": 3.3312460864120225e-05,
      "loss": 0.8377,
      "step": 7105,
      "task_loss": 0.2588038444519043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7610269784927368,
      "epoch": 6.01,
      "learning_rate": 3.3309329993738257e-05,
      "loss": 0.8052,
      "step": 7106,
      "task_loss": 0.9429497718811035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1553045511245728,
      "epoch": 6.01,
      "learning_rate": 3.3306199123356295e-05,
      "loss": 0.9032,
      "step": 7107,
      "task_loss": 1.0622531175613403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0097765922546387,
      "epoch": 6.01,
      "learning_rate": 3.330306825297433e-05,
      "loss": 0.7894,
      "step": 7108,
      "task_loss": 1.038678526878357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.681251049041748,
      "epoch": 6.01,
      "learning_rate": 3.329993738259236e-05,
      "loss": 0.6623,
      "step": 7109,
      "task_loss": 1.0179443359375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7760499715805054,
      "epoch": 6.01,
      "learning_rate": 3.329680651221039e-05,
      "loss": 0.7031,
      "step": 7110,
      "task_loss": 0.19899749755859375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6570858955383301,
      "epoch": 6.01,
      "learning_rate": 3.329367564182843e-05,
      "loss": 1.0014,
      "step": 7111,
      "task_loss": 0.6964564323425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.674100399017334,
      "epoch": 6.01,
      "learning_rate": 3.329054477144646e-05,
      "loss": 0.9504,
      "step": 7112,
      "task_loss": 0.9719404578208923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.102778673171997,
      "epoch": 6.01,
      "learning_rate": 3.328741390106449e-05,
      "loss": 0.819,
      "step": 7113,
      "task_loss": 1.629730463027954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4875057637691498,
      "epoch": 6.01,
      "learning_rate": 3.328428303068253e-05,
      "loss": 0.5475,
      "step": 7114,
      "task_loss": 0.26268017292022705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8423915505409241,
      "epoch": 6.01,
      "learning_rate": 3.328115216030056e-05,
      "loss": 0.7591,
      "step": 7115,
      "task_loss": 0.85528165102005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.543428361415863,
      "epoch": 6.02,
      "learning_rate": 3.32780212899186e-05,
      "loss": 0.8037,
      "step": 7116,
      "task_loss": 0.27379533648490906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8035752773284912,
      "epoch": 6.02,
      "learning_rate": 3.327489041953663e-05,
      "loss": 0.6155,
      "step": 7117,
      "task_loss": 0.7575610280036926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5280598402023315,
      "epoch": 6.02,
      "learning_rate": 3.327175954915467e-05,
      "loss": 0.9449,
      "step": 7118,
      "task_loss": 0.4941561818122864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1316498517990112,
      "epoch": 6.02,
      "learning_rate": 3.3268628678772704e-05,
      "loss": 0.7994,
      "step": 7119,
      "task_loss": 1.7000086307525635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7515990138053894,
      "epoch": 6.02,
      "learning_rate": 3.3265497808390735e-05,
      "loss": 0.8322,
      "step": 7120,
      "task_loss": 1.2276591062545776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0779197216033936,
      "epoch": 6.02,
      "learning_rate": 3.326236693800877e-05,
      "loss": 1.0153,
      "step": 7121,
      "task_loss": 0.8753231763839722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5904220938682556,
      "epoch": 6.02,
      "learning_rate": 3.3259236067626806e-05,
      "loss": 0.7407,
      "step": 7122,
      "task_loss": 0.4869740605354309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9736806154251099,
      "epoch": 6.02,
      "learning_rate": 3.325610519724484e-05,
      "loss": 0.9283,
      "step": 7123,
      "task_loss": 0.5570206046104431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8651782274246216,
      "epoch": 6.02,
      "learning_rate": 3.325297432686287e-05,
      "loss": 0.7891,
      "step": 7124,
      "task_loss": 0.4614850878715515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.969072163105011,
      "epoch": 6.02,
      "learning_rate": 3.324984345648091e-05,
      "loss": 0.9104,
      "step": 7125,
      "task_loss": 1.2380605936050415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.883641242980957,
      "epoch": 6.02,
      "learning_rate": 3.324671258609894e-05,
      "loss": 0.8143,
      "step": 7126,
      "task_loss": 1.1405855417251587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0118870735168457,
      "epoch": 6.02,
      "learning_rate": 3.324358171571697e-05,
      "loss": 0.8951,
      "step": 7127,
      "task_loss": 0.4603268504142761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9792618751525879,
      "epoch": 6.03,
      "learning_rate": 3.3240450845335e-05,
      "loss": 0.9961,
      "step": 7128,
      "task_loss": 1.0825004577636719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8720901012420654,
      "epoch": 6.03,
      "learning_rate": 3.323731997495304e-05,
      "loss": 0.8776,
      "step": 7129,
      "task_loss": 0.8366198539733887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4043658971786499,
      "epoch": 6.03,
      "learning_rate": 3.3234189104571074e-05,
      "loss": 0.8267,
      "step": 7130,
      "task_loss": 0.554754912853241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0256009101867676,
      "epoch": 6.03,
      "learning_rate": 3.3231058234189105e-05,
      "loss": 1.1102,
      "step": 7131,
      "task_loss": 0.740744411945343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0878318548202515,
      "epoch": 6.03,
      "learning_rate": 3.322792736380714e-05,
      "loss": 0.8517,
      "step": 7132,
      "task_loss": 0.5452767610549927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8231265544891357,
      "epoch": 6.03,
      "learning_rate": 3.3224796493425176e-05,
      "loss": 0.8808,
      "step": 7133,
      "task_loss": 0.6466094851493835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0914666652679443,
      "epoch": 6.03,
      "learning_rate": 3.322166562304321e-05,
      "loss": 0.7846,
      "step": 7134,
      "task_loss": 0.7787254452705383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1151008605957031,
      "epoch": 6.03,
      "learning_rate": 3.321853475266124e-05,
      "loss": 0.8814,
      "step": 7135,
      "task_loss": 1.4832638502120972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.813103437423706,
      "epoch": 6.03,
      "learning_rate": 3.321540388227928e-05,
      "loss": 0.7374,
      "step": 7136,
      "task_loss": 0.3174043595790863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.910874605178833,
      "epoch": 6.03,
      "learning_rate": 3.321227301189731e-05,
      "loss": 0.8363,
      "step": 7137,
      "task_loss": 0.7693797945976257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9142129421234131,
      "epoch": 6.03,
      "learning_rate": 3.320914214151534e-05,
      "loss": 0.9324,
      "step": 7138,
      "task_loss": 0.8982295393943787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37546807527542114,
      "epoch": 6.03,
      "learning_rate": 3.320601127113337e-05,
      "loss": 0.5764,
      "step": 7139,
      "task_loss": 0.8095757365226746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0992403030395508,
      "epoch": 6.04,
      "learning_rate": 3.320288040075141e-05,
      "loss": 0.9189,
      "step": 7140,
      "task_loss": 0.46530717611312866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7777402400970459,
      "epoch": 6.04,
      "learning_rate": 3.3199749530369443e-05,
      "loss": 1.0851,
      "step": 7141,
      "task_loss": 0.7369075417518616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6534335613250732,
      "epoch": 6.04,
      "learning_rate": 3.3196618659987475e-05,
      "loss": 0.776,
      "step": 7142,
      "task_loss": 0.9643679857254028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9301661252975464,
      "epoch": 6.04,
      "learning_rate": 3.319348778960551e-05,
      "loss": 1.0388,
      "step": 7143,
      "task_loss": 0.3028635084629059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6001161932945251,
      "epoch": 6.04,
      "learning_rate": 3.3190356919223546e-05,
      "loss": 0.8049,
      "step": 7144,
      "task_loss": 0.6823374032974243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.778194785118103,
      "epoch": 6.04,
      "learning_rate": 3.318722604884158e-05,
      "loss": 0.8403,
      "step": 7145,
      "task_loss": 1.8501709699630737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.528243899345398,
      "epoch": 6.04,
      "learning_rate": 3.318409517845961e-05,
      "loss": 0.8909,
      "step": 7146,
      "task_loss": 0.4290428161621094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4963325262069702,
      "epoch": 6.04,
      "learning_rate": 3.318096430807765e-05,
      "loss": 0.953,
      "step": 7147,
      "task_loss": 0.9002098441123962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8333567380905151,
      "epoch": 6.04,
      "learning_rate": 3.317783343769568e-05,
      "loss": 0.8475,
      "step": 7148,
      "task_loss": 0.6226149201393127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2251341342926025,
      "epoch": 6.04,
      "learning_rate": 3.317470256731372e-05,
      "loss": 0.8703,
      "step": 7149,
      "task_loss": 0.7961824536323547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0000324249267578,
      "epoch": 6.04,
      "learning_rate": 3.317157169693175e-05,
      "loss": 0.9418,
      "step": 7150,
      "task_loss": 0.6477830410003662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4890737533569336,
      "epoch": 6.04,
      "learning_rate": 3.316844082654978e-05,
      "loss": 0.635,
      "step": 7151,
      "task_loss": 0.5696635246276855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6887727379798889,
      "epoch": 6.05,
      "learning_rate": 3.316530995616782e-05,
      "loss": 0.844,
      "step": 7152,
      "task_loss": 0.54001784324646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35125404596328735,
      "epoch": 6.05,
      "learning_rate": 3.316217908578585e-05,
      "loss": 0.7269,
      "step": 7153,
      "task_loss": 0.21781465411186218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9590969085693359,
      "epoch": 6.05,
      "learning_rate": 3.3159048215403884e-05,
      "loss": 0.8396,
      "step": 7154,
      "task_loss": 0.7027856707572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9902321100234985,
      "epoch": 6.05,
      "learning_rate": 3.315591734502192e-05,
      "loss": 0.9205,
      "step": 7155,
      "task_loss": 0.9727063179016113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8938536643981934,
      "epoch": 6.05,
      "learning_rate": 3.3152786474639954e-05,
      "loss": 0.9698,
      "step": 7156,
      "task_loss": 1.0942778587341309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4156970977783203,
      "epoch": 6.05,
      "learning_rate": 3.3149655604257986e-05,
      "loss": 0.7891,
      "step": 7157,
      "task_loss": 0.19956891238689423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7018998861312866,
      "epoch": 6.05,
      "learning_rate": 3.314652473387602e-05,
      "loss": 0.8201,
      "step": 7158,
      "task_loss": 0.41200289130210876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5255618095397949,
      "epoch": 6.05,
      "learning_rate": 3.3143393863494056e-05,
      "loss": 0.5821,
      "step": 7159,
      "task_loss": 0.2490938901901245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9157636165618896,
      "epoch": 6.05,
      "learning_rate": 3.314026299311209e-05,
      "loss": 0.7466,
      "step": 7160,
      "task_loss": 1.1193571090698242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8180738687515259,
      "epoch": 6.05,
      "learning_rate": 3.313713212273012e-05,
      "loss": 0.8354,
      "step": 7161,
      "task_loss": 1.6205967664718628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0271759033203125,
      "epoch": 6.05,
      "learning_rate": 3.313400125234816e-05,
      "loss": 0.9372,
      "step": 7162,
      "task_loss": 0.9879305958747864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8472605347633362,
      "epoch": 6.05,
      "learning_rate": 3.313087038196619e-05,
      "loss": 0.5789,
      "step": 7163,
      "task_loss": 0.3783654272556305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5172886252403259,
      "epoch": 6.06,
      "learning_rate": 3.312773951158422e-05,
      "loss": 0.6104,
      "step": 7164,
      "task_loss": 0.21511127054691315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.059041976928711,
      "epoch": 6.06,
      "learning_rate": 3.3124608641202254e-05,
      "loss": 0.8279,
      "step": 7165,
      "task_loss": 0.42630329728126526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48553749918937683,
      "epoch": 6.06,
      "learning_rate": 3.312147777082029e-05,
      "loss": 0.5652,
      "step": 7166,
      "task_loss": 0.41387590765953064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5201667547225952,
      "epoch": 6.06,
      "learning_rate": 3.3118346900438324e-05,
      "loss": 0.659,
      "step": 7167,
      "task_loss": 0.3395191431045532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6622797846794128,
      "epoch": 6.06,
      "learning_rate": 3.3115216030056356e-05,
      "loss": 0.7926,
      "step": 7168,
      "task_loss": 0.08317013829946518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8807845115661621,
      "epoch": 6.06,
      "learning_rate": 3.311208515967439e-05,
      "loss": 0.8638,
      "step": 7169,
      "task_loss": 0.8471167087554932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8999598622322083,
      "epoch": 6.06,
      "learning_rate": 3.3108954289292426e-05,
      "loss": 0.7561,
      "step": 7170,
      "task_loss": 0.897377610206604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.116554617881775,
      "epoch": 6.06,
      "learning_rate": 3.310582341891046e-05,
      "loss": 1.0756,
      "step": 7171,
      "task_loss": 1.4311957359313965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1784402132034302,
      "epoch": 6.06,
      "learning_rate": 3.310269254852849e-05,
      "loss": 0.913,
      "step": 7172,
      "task_loss": 0.6084955334663391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0737801790237427,
      "epoch": 6.06,
      "learning_rate": 3.309956167814653e-05,
      "loss": 1.0027,
      "step": 7173,
      "task_loss": 1.303377389907837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9058513641357422,
      "epoch": 6.06,
      "learning_rate": 3.309643080776456e-05,
      "loss": 0.9985,
      "step": 7174,
      "task_loss": 1.1446502208709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1382520198822021,
      "epoch": 6.07,
      "learning_rate": 3.309329993738259e-05,
      "loss": 0.8164,
      "step": 7175,
      "task_loss": 0.8581617474555969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7085356116294861,
      "epoch": 6.07,
      "learning_rate": 3.3090169067000624e-05,
      "loss": 0.6511,
      "step": 7176,
      "task_loss": 0.15360970795154572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6311012506484985,
      "epoch": 6.07,
      "learning_rate": 3.308703819661866e-05,
      "loss": 0.9414,
      "step": 7177,
      "task_loss": 0.20489773154258728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.375742644071579,
      "epoch": 6.07,
      "learning_rate": 3.3083907326236694e-05,
      "loss": 0.9145,
      "step": 7178,
      "task_loss": 0.7220238447189331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5543814301490784,
      "epoch": 6.07,
      "learning_rate": 3.3080776455854726e-05,
      "loss": 0.9033,
      "step": 7179,
      "task_loss": 0.7823293209075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1370460987091064,
      "epoch": 6.07,
      "learning_rate": 3.307764558547276e-05,
      "loss": 0.8611,
      "step": 7180,
      "task_loss": 1.2608683109283447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.785584568977356,
      "epoch": 6.07,
      "learning_rate": 3.3074514715090796e-05,
      "loss": 0.8759,
      "step": 7181,
      "task_loss": 1.4929392337799072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3566522598266602,
      "epoch": 6.07,
      "learning_rate": 3.307138384470883e-05,
      "loss": 0.9266,
      "step": 7182,
      "task_loss": 1.114668369293213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5956746935844421,
      "epoch": 6.07,
      "learning_rate": 3.3068252974326866e-05,
      "loss": 0.7237,
      "step": 7183,
      "task_loss": 0.2632259726524353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571725964546204,
      "epoch": 6.07,
      "learning_rate": 3.30651221039449e-05,
      "loss": 0.9992,
      "step": 7184,
      "task_loss": 0.08946076780557632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3214747905731201,
      "epoch": 6.07,
      "learning_rate": 3.306199123356294e-05,
      "loss": 0.9412,
      "step": 7185,
      "task_loss": 0.6194925308227539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5688329935073853,
      "epoch": 6.07,
      "learning_rate": 3.305886036318097e-05,
      "loss": 0.9268,
      "step": 7186,
      "task_loss": 1.6872705221176147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5641540884971619,
      "epoch": 6.08,
      "learning_rate": 3.3055729492799e-05,
      "loss": 0.6981,
      "step": 7187,
      "task_loss": 0.7155500054359436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1988914012908936,
      "epoch": 6.08,
      "learning_rate": 3.305259862241704e-05,
      "loss": 1.0173,
      "step": 7188,
      "task_loss": 1.7789032459259033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7102258205413818,
      "epoch": 6.08,
      "learning_rate": 3.304946775203507e-05,
      "loss": 0.7672,
      "step": 7189,
      "task_loss": 1.1162161827087402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0625098943710327,
      "epoch": 6.08,
      "learning_rate": 3.30463368816531e-05,
      "loss": 0.8041,
      "step": 7190,
      "task_loss": 0.943272054195404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6266254186630249,
      "epoch": 6.08,
      "learning_rate": 3.3043206011271134e-05,
      "loss": 0.6724,
      "step": 7191,
      "task_loss": 0.8303369283676147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3988325595855713,
      "epoch": 6.08,
      "learning_rate": 3.304007514088917e-05,
      "loss": 1.2212,
      "step": 7192,
      "task_loss": 1.351244330406189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8924081325531006,
      "epoch": 6.08,
      "learning_rate": 3.3036944270507204e-05,
      "loss": 0.8101,
      "step": 7193,
      "task_loss": 0.4890406131744385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6934230327606201,
      "epoch": 6.08,
      "learning_rate": 3.3033813400125236e-05,
      "loss": 0.8124,
      "step": 7194,
      "task_loss": 0.35416528582572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.008449673652649,
      "epoch": 6.08,
      "learning_rate": 3.303068252974327e-05,
      "loss": 0.7062,
      "step": 7195,
      "task_loss": 0.6381125450134277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8176251649856567,
      "epoch": 6.08,
      "learning_rate": 3.3027551659361307e-05,
      "loss": 0.9339,
      "step": 7196,
      "task_loss": 0.7797865867614746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7067531943321228,
      "epoch": 6.08,
      "learning_rate": 3.302442078897934e-05,
      "loss": 0.8761,
      "step": 7197,
      "task_loss": 0.3746439814567566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49363973736763,
      "epoch": 6.08,
      "learning_rate": 3.302128991859737e-05,
      "loss": 0.7128,
      "step": 7198,
      "task_loss": 0.803598940372467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42610877752304077,
      "epoch": 6.09,
      "learning_rate": 3.301815904821541e-05,
      "loss": 0.5311,
      "step": 7199,
      "task_loss": 0.7414965629577637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5406156778335571,
      "epoch": 6.09,
      "learning_rate": 3.301502817783344e-05,
      "loss": 0.6334,
      "step": 7200,
      "task_loss": 0.49655041098594666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5218297839164734,
      "epoch": 6.09,
      "learning_rate": 3.301189730745147e-05,
      "loss": 0.9439,
      "step": 7201,
      "task_loss": 0.5105909109115601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7390440702438354,
      "epoch": 6.09,
      "learning_rate": 3.3008766437069504e-05,
      "loss": 0.7001,
      "step": 7202,
      "task_loss": 0.7765141725540161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5943429470062256,
      "epoch": 6.09,
      "learning_rate": 3.300563556668754e-05,
      "loss": 0.7821,
      "step": 7203,
      "task_loss": 0.809565544128418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8465864062309265,
      "epoch": 6.09,
      "learning_rate": 3.3002504696305574e-05,
      "loss": 1.0961,
      "step": 7204,
      "task_loss": 1.623387098312378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4604342579841614,
      "epoch": 6.09,
      "learning_rate": 3.2999373825923606e-05,
      "loss": 0.8162,
      "step": 7205,
      "task_loss": 0.3889962434768677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9671773314476013,
      "epoch": 6.09,
      "learning_rate": 3.299624295554164e-05,
      "loss": 0.9616,
      "step": 7206,
      "task_loss": 1.0913949012756348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7427002191543579,
      "epoch": 6.09,
      "learning_rate": 3.2993112085159677e-05,
      "loss": 0.74,
      "step": 7207,
      "task_loss": 0.33837154507637024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8232676982879639,
      "epoch": 6.09,
      "learning_rate": 3.298998121477771e-05,
      "loss": 0.8125,
      "step": 7208,
      "task_loss": 1.0828593969345093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7201483249664307,
      "epoch": 6.09,
      "learning_rate": 3.298685034439574e-05,
      "loss": 0.7961,
      "step": 7209,
      "task_loss": 0.9159234166145325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.746338427066803,
      "epoch": 6.09,
      "learning_rate": 3.298371947401378e-05,
      "loss": 0.7384,
      "step": 7210,
      "task_loss": 0.8733844757080078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4114792346954346,
      "epoch": 6.1,
      "learning_rate": 3.298058860363181e-05,
      "loss": 0.993,
      "step": 7211,
      "task_loss": 1.81383216381073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7213934659957886,
      "epoch": 6.1,
      "learning_rate": 3.297745773324984e-05,
      "loss": 0.7316,
      "step": 7212,
      "task_loss": 0.9568859934806824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.39216947555542,
      "epoch": 6.1,
      "learning_rate": 3.2974326862867874e-05,
      "loss": 0.8099,
      "step": 7213,
      "task_loss": 1.096618413925171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.071499228477478,
      "epoch": 6.1,
      "learning_rate": 3.297119599248591e-05,
      "loss": 0.9951,
      "step": 7214,
      "task_loss": 1.2135751247406006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7367380261421204,
      "epoch": 6.1,
      "learning_rate": 3.2968065122103944e-05,
      "loss": 0.6778,
      "step": 7215,
      "task_loss": 1.3366519212722778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8281238079071045,
      "epoch": 6.1,
      "learning_rate": 3.2964934251721976e-05,
      "loss": 0.8731,
      "step": 7216,
      "task_loss": 1.3886027336120605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4121251106262207,
      "epoch": 6.1,
      "learning_rate": 3.2961803381340015e-05,
      "loss": 1.1652,
      "step": 7217,
      "task_loss": 1.4266517162322998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7329757809638977,
      "epoch": 6.1,
      "learning_rate": 3.2958672510958046e-05,
      "loss": 0.6124,
      "step": 7218,
      "task_loss": 1.5782407522201538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1108438968658447,
      "epoch": 6.1,
      "learning_rate": 3.2955541640576085e-05,
      "loss": 0.8535,
      "step": 7219,
      "task_loss": 0.6909410953521729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6377221941947937,
      "epoch": 6.1,
      "learning_rate": 3.295241077019412e-05,
      "loss": 0.8193,
      "step": 7220,
      "task_loss": 0.0900893583893776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 2.324317216873169,
      "epoch": 6.1,
      "learning_rate": 3.2949279899812155e-05,
      "loss": 1.0227,
      "step": 7221,
      "task_loss": 1.6604886054992676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9877737164497375,
      "epoch": 6.1,
      "learning_rate": 3.294614902943019e-05,
      "loss": 0.8798,
      "step": 7222,
      "task_loss": 1.2588233947753906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8070646524429321,
      "epoch": 6.11,
      "learning_rate": 3.294301815904822e-05,
      "loss": 0.9446,
      "step": 7223,
      "task_loss": 0.5455974340438843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2271943092346191,
      "epoch": 6.11,
      "learning_rate": 3.293988728866625e-05,
      "loss": 0.9868,
      "step": 7224,
      "task_loss": 1.5881534814834595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7457537651062012,
      "epoch": 6.11,
      "learning_rate": 3.293675641828429e-05,
      "loss": 0.7422,
      "step": 7225,
      "task_loss": 1.2155075073242188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7189030647277832,
      "epoch": 6.11,
      "learning_rate": 3.293362554790232e-05,
      "loss": 0.9107,
      "step": 7226,
      "task_loss": 0.7629039287567139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6626107096672058,
      "epoch": 6.11,
      "learning_rate": 3.293049467752035e-05,
      "loss": 0.8595,
      "step": 7227,
      "task_loss": 0.8797781467437744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2543718814849854,
      "epoch": 6.11,
      "learning_rate": 3.2927363807138385e-05,
      "loss": 0.916,
      "step": 7228,
      "task_loss": 1.115072250366211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3938689231872559,
      "epoch": 6.11,
      "learning_rate": 3.292423293675642e-05,
      "loss": 0.8787,
      "step": 7229,
      "task_loss": 1.6555532217025757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5407358407974243,
      "epoch": 6.11,
      "learning_rate": 3.2921102066374455e-05,
      "loss": 0.9254,
      "step": 7230,
      "task_loss": 0.678122878074646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2137285470962524,
      "epoch": 6.11,
      "learning_rate": 3.291797119599249e-05,
      "loss": 0.9025,
      "step": 7231,
      "task_loss": 0.8060026168823242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6895594596862793,
      "epoch": 6.11,
      "learning_rate": 3.291484032561052e-05,
      "loss": 0.7984,
      "step": 7232,
      "task_loss": 0.3280414938926697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6324382424354553,
      "epoch": 6.11,
      "learning_rate": 3.291170945522856e-05,
      "loss": 0.7469,
      "step": 7233,
      "task_loss": 0.8111462593078613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4343222379684448,
      "epoch": 6.11,
      "learning_rate": 3.290857858484659e-05,
      "loss": 0.8268,
      "step": 7234,
      "task_loss": 0.487801730632782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5764298439025879,
      "epoch": 6.12,
      "learning_rate": 3.290544771446462e-05,
      "loss": 0.9203,
      "step": 7235,
      "task_loss": 0.6802922487258911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608959197998047,
      "epoch": 6.12,
      "learning_rate": 3.290231684408266e-05,
      "loss": 0.7417,
      "step": 7236,
      "task_loss": 0.4217790365219116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9254236817359924,
      "epoch": 6.12,
      "learning_rate": 3.289918597370069e-05,
      "loss": 0.957,
      "step": 7237,
      "task_loss": 1.7511011362075806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.016242265701294,
      "epoch": 6.12,
      "learning_rate": 3.289605510331872e-05,
      "loss": 0.7137,
      "step": 7238,
      "task_loss": 0.5952972173690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1129541397094727,
      "epoch": 6.12,
      "learning_rate": 3.2892924232936754e-05,
      "loss": 0.8471,
      "step": 7239,
      "task_loss": 1.572275996208191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0704169273376465,
      "epoch": 6.12,
      "learning_rate": 3.288979336255479e-05,
      "loss": 0.8061,
      "step": 7240,
      "task_loss": 0.4230737090110779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7752761244773865,
      "epoch": 6.12,
      "learning_rate": 3.2886662492172825e-05,
      "loss": 0.9037,
      "step": 7241,
      "task_loss": 0.5870619416236877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0267882347106934,
      "epoch": 6.12,
      "learning_rate": 3.288353162179086e-05,
      "loss": 0.8525,
      "step": 7242,
      "task_loss": 1.0652021169662476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6259417533874512,
      "epoch": 6.12,
      "learning_rate": 3.288040075140889e-05,
      "loss": 0.7123,
      "step": 7243,
      "task_loss": 0.1983826607465744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7136424779891968,
      "epoch": 6.12,
      "learning_rate": 3.287726988102693e-05,
      "loss": 0.758,
      "step": 7244,
      "task_loss": 1.190396785736084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9669165015220642,
      "epoch": 6.12,
      "learning_rate": 3.287413901064496e-05,
      "loss": 0.8418,
      "step": 7245,
      "task_loss": 0.8177785873413086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7350203990936279,
      "epoch": 6.13,
      "learning_rate": 3.287100814026299e-05,
      "loss": 0.8488,
      "step": 7246,
      "task_loss": 1.458043098449707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7546119689941406,
      "epoch": 6.13,
      "learning_rate": 3.286787726988103e-05,
      "loss": 0.6627,
      "step": 7247,
      "task_loss": 1.4475014209747314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8292967081069946,
      "epoch": 6.13,
      "learning_rate": 3.286474639949906e-05,
      "loss": 0.8145,
      "step": 7248,
      "task_loss": 1.1629430055618286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7749509811401367,
      "epoch": 6.13,
      "learning_rate": 3.286161552911709e-05,
      "loss": 0.7604,
      "step": 7249,
      "task_loss": 0.4459178149700165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.120512843132019,
      "epoch": 6.13,
      "learning_rate": 3.285848465873513e-05,
      "loss": 0.9219,
      "step": 7250,
      "task_loss": 0.7899014949798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8496295809745789,
      "epoch": 6.13,
      "learning_rate": 3.285535378835316e-05,
      "loss": 0.9876,
      "step": 7251,
      "task_loss": 1.2626323699951172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9511977434158325,
      "epoch": 6.13,
      "learning_rate": 3.28522229179712e-05,
      "loss": 0.9788,
      "step": 7252,
      "task_loss": 1.418232798576355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7151068449020386,
      "epoch": 6.13,
      "learning_rate": 3.284909204758923e-05,
      "loss": 0.8037,
      "step": 7253,
      "task_loss": 0.8156168460845947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8169862031936646,
      "epoch": 6.13,
      "learning_rate": 3.2845961177207265e-05,
      "loss": 0.7924,
      "step": 7254,
      "task_loss": 0.4374980628490448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43245869874954224,
      "epoch": 6.13,
      "learning_rate": 3.2842830306825304e-05,
      "loss": 0.6304,
      "step": 7255,
      "task_loss": 0.8856765031814575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6001585721969604,
      "epoch": 6.13,
      "learning_rate": 3.2839699436443335e-05,
      "loss": 0.817,
      "step": 7256,
      "task_loss": 0.3264996409416199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6130332946777344,
      "epoch": 6.13,
      "learning_rate": 3.283656856606137e-05,
      "loss": 0.763,
      "step": 7257,
      "task_loss": 0.8805605173110962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9700088500976562,
      "epoch": 6.14,
      "learning_rate": 3.2833437695679406e-05,
      "loss": 1.0116,
      "step": 7258,
      "task_loss": 1.4806195497512817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.769963264465332,
      "epoch": 6.14,
      "learning_rate": 3.283030682529744e-05,
      "loss": 0.9732,
      "step": 7259,
      "task_loss": 0.9595872163772583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1159865856170654,
      "epoch": 6.14,
      "learning_rate": 3.282717595491547e-05,
      "loss": 0.9749,
      "step": 7260,
      "task_loss": 1.403681993484497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1071548461914062,
      "epoch": 6.14,
      "learning_rate": 3.28240450845335e-05,
      "loss": 0.8232,
      "step": 7261,
      "task_loss": 0.5911343097686768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4633708596229553,
      "epoch": 6.14,
      "learning_rate": 3.282091421415154e-05,
      "loss": 0.6738,
      "step": 7262,
      "task_loss": 0.10251853615045547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7144120931625366,
      "epoch": 6.14,
      "learning_rate": 3.281778334376957e-05,
      "loss": 0.8064,
      "step": 7263,
      "task_loss": 1.0622191429138184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.552836000919342,
      "epoch": 6.14,
      "learning_rate": 3.28146524733876e-05,
      "loss": 0.7656,
      "step": 7264,
      "task_loss": 1.1450711488723755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2204803228378296,
      "epoch": 6.14,
      "learning_rate": 3.2811521603005635e-05,
      "loss": 0.8694,
      "step": 7265,
      "task_loss": 1.472355604171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9937061071395874,
      "epoch": 6.14,
      "learning_rate": 3.2808390732623674e-05,
      "loss": 1.0217,
      "step": 7266,
      "task_loss": 0.8035581707954407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5292882919311523,
      "epoch": 6.14,
      "learning_rate": 3.2805259862241705e-05,
      "loss": 0.6245,
      "step": 7267,
      "task_loss": 0.9698188304901123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4934617280960083,
      "epoch": 6.14,
      "learning_rate": 3.280212899185974e-05,
      "loss": 0.5657,
      "step": 7268,
      "task_loss": 0.8939364552497864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7787710428237915,
      "epoch": 6.14,
      "learning_rate": 3.279899812147777e-05,
      "loss": 0.6803,
      "step": 7269,
      "task_loss": 0.4162706434726715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3583146333694458,
      "epoch": 6.15,
      "learning_rate": 3.279586725109581e-05,
      "loss": 1.0086,
      "step": 7270,
      "task_loss": 0.12387027591466904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3930201530456543,
      "epoch": 6.15,
      "learning_rate": 3.279273638071384e-05,
      "loss": 1.0179,
      "step": 7271,
      "task_loss": 1.0771373510360718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7735474109649658,
      "epoch": 6.15,
      "learning_rate": 3.278960551033187e-05,
      "loss": 0.6251,
      "step": 7272,
      "task_loss": 1.0378391742706299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6677408218383789,
      "epoch": 6.15,
      "learning_rate": 3.278647463994991e-05,
      "loss": 0.6246,
      "step": 7273,
      "task_loss": 0.41958147287368774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9064851403236389,
      "epoch": 6.15,
      "learning_rate": 3.278334376956794e-05,
      "loss": 0.9806,
      "step": 7274,
      "task_loss": 0.7262861728668213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.353480339050293,
      "epoch": 6.15,
      "learning_rate": 3.278021289918597e-05,
      "loss": 0.9739,
      "step": 7275,
      "task_loss": 2.595172166824341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7869868278503418,
      "epoch": 6.15,
      "learning_rate": 3.2777082028804005e-05,
      "loss": 0.645,
      "step": 7276,
      "task_loss": 1.1938377618789673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.713625967502594,
      "epoch": 6.15,
      "learning_rate": 3.2773951158422044e-05,
      "loss": 0.73,
      "step": 7277,
      "task_loss": 0.48615118861198425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8915488719940186,
      "epoch": 6.15,
      "learning_rate": 3.2770820288040075e-05,
      "loss": 0.6819,
      "step": 7278,
      "task_loss": 0.31078222393989563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9282675981521606,
      "epoch": 6.15,
      "learning_rate": 3.276768941765811e-05,
      "loss": 0.8373,
      "step": 7279,
      "task_loss": 0.70148104429245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2089672088623047,
      "epoch": 6.15,
      "learning_rate": 3.276455854727614e-05,
      "loss": 0.7231,
      "step": 7280,
      "task_loss": 1.127596378326416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9949270486831665,
      "epoch": 6.15,
      "learning_rate": 3.276142767689418e-05,
      "loss": 0.8589,
      "step": 7281,
      "task_loss": 0.402688592672348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.613531231880188,
      "epoch": 6.16,
      "learning_rate": 3.275829680651221e-05,
      "loss": 0.6807,
      "step": 7282,
      "task_loss": 0.4912908375263214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8819475769996643,
      "epoch": 6.16,
      "learning_rate": 3.275516593613024e-05,
      "loss": 1.0005,
      "step": 7283,
      "task_loss": 0.26097986102104187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5484189987182617,
      "epoch": 6.16,
      "learning_rate": 3.275203506574828e-05,
      "loss": 0.6486,
      "step": 7284,
      "task_loss": 0.293957382440567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42914727330207825,
      "epoch": 6.16,
      "learning_rate": 3.274890419536631e-05,
      "loss": 0.5924,
      "step": 7285,
      "task_loss": 0.611358642578125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.015190839767456,
      "epoch": 6.16,
      "learning_rate": 3.274577332498435e-05,
      "loss": 0.8787,
      "step": 7286,
      "task_loss": 0.7021806836128235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.083798885345459,
      "epoch": 6.16,
      "learning_rate": 3.274264245460238e-05,
      "loss": 0.8532,
      "step": 7287,
      "task_loss": 0.396785706281662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7775477766990662,
      "epoch": 6.16,
      "learning_rate": 3.273951158422042e-05,
      "loss": 0.7774,
      "step": 7288,
      "task_loss": 0.7240651845932007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5509438514709473,
      "epoch": 6.16,
      "learning_rate": 3.273638071383845e-05,
      "loss": 1.3026,
      "step": 7289,
      "task_loss": 1.3912397623062134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.109861135482788,
      "epoch": 6.16,
      "learning_rate": 3.2733249843456484e-05,
      "loss": 0.7012,
      "step": 7290,
      "task_loss": 0.3849550187587738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8794814944267273,
      "epoch": 6.16,
      "learning_rate": 3.2730118973074516e-05,
      "loss": 0.9183,
      "step": 7291,
      "task_loss": 0.5939740538597107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47601574659347534,
      "epoch": 6.16,
      "learning_rate": 3.2726988102692554e-05,
      "loss": 0.9039,
      "step": 7292,
      "task_loss": 0.3551356792449951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8585556149482727,
      "epoch": 6.16,
      "learning_rate": 3.2723857232310586e-05,
      "loss": 0.8394,
      "step": 7293,
      "task_loss": 0.871902346611023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7592427134513855,
      "epoch": 6.17,
      "learning_rate": 3.272072636192862e-05,
      "loss": 0.6137,
      "step": 7294,
      "task_loss": 0.5438873171806335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7113496661186218,
      "epoch": 6.17,
      "learning_rate": 3.2717595491546656e-05,
      "loss": 0.756,
      "step": 7295,
      "task_loss": 0.4256446361541748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7635424137115479,
      "epoch": 6.17,
      "learning_rate": 3.271446462116469e-05,
      "loss": 0.6516,
      "step": 7296,
      "task_loss": 0.974885106086731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3699941635131836,
      "epoch": 6.17,
      "learning_rate": 3.271133375078272e-05,
      "loss": 0.7476,
      "step": 7297,
      "task_loss": 0.9819663166999817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8456522822380066,
      "epoch": 6.17,
      "learning_rate": 3.270820288040075e-05,
      "loss": 0.7659,
      "step": 7298,
      "task_loss": 0.9681025147438049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0990904569625854,
      "epoch": 6.17,
      "learning_rate": 3.270507201001879e-05,
      "loss": 0.6878,
      "step": 7299,
      "task_loss": 0.9404675364494324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6646413803100586,
      "epoch": 6.17,
      "learning_rate": 3.270194113963682e-05,
      "loss": 0.7453,
      "step": 7300,
      "task_loss": 0.34146803617477417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1818881034851074,
      "epoch": 6.17,
      "learning_rate": 3.2698810269254854e-05,
      "loss": 0.886,
      "step": 7301,
      "task_loss": 1.5100347995758057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4099397659301758,
      "epoch": 6.17,
      "learning_rate": 3.2695679398872885e-05,
      "loss": 0.7068,
      "step": 7302,
      "task_loss": 0.39185234904289246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7659066915512085,
      "epoch": 6.17,
      "learning_rate": 3.2692548528490924e-05,
      "loss": 0.8172,
      "step": 7303,
      "task_loss": 0.5856067538261414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.554448127746582,
      "epoch": 6.17,
      "learning_rate": 3.2689417658108956e-05,
      "loss": 0.6753,
      "step": 7304,
      "task_loss": 0.14331193268299103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8544219732284546,
      "epoch": 6.17,
      "learning_rate": 3.268628678772699e-05,
      "loss": 0.9254,
      "step": 7305,
      "task_loss": 1.6448262929916382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8244155645370483,
      "epoch": 6.18,
      "learning_rate": 3.268315591734502e-05,
      "loss": 0.689,
      "step": 7306,
      "task_loss": 0.28305783867836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8546792268753052,
      "epoch": 6.18,
      "learning_rate": 3.268002504696306e-05,
      "loss": 0.8742,
      "step": 7307,
      "task_loss": 0.8718169927597046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8263027667999268,
      "epoch": 6.18,
      "learning_rate": 3.267689417658109e-05,
      "loss": 0.9463,
      "step": 7308,
      "task_loss": 1.6825847625732422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7141494750976562,
      "epoch": 6.18,
      "learning_rate": 3.267376330619912e-05,
      "loss": 0.8149,
      "step": 7309,
      "task_loss": 0.7658374905586243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4280381500720978,
      "epoch": 6.18,
      "learning_rate": 3.267063243581716e-05,
      "loss": 0.7367,
      "step": 7310,
      "task_loss": 0.08514410257339478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.142547369003296,
      "epoch": 6.18,
      "learning_rate": 3.266750156543519e-05,
      "loss": 0.852,
      "step": 7311,
      "task_loss": 1.0472568273544312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5313748121261597,
      "epoch": 6.18,
      "learning_rate": 3.2664370695053224e-05,
      "loss": 0.845,
      "step": 7312,
      "task_loss": 0.6642627120018005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.735202968120575,
      "epoch": 6.18,
      "learning_rate": 3.2661239824671255e-05,
      "loss": 0.8748,
      "step": 7313,
      "task_loss": 0.8031681776046753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45836949348449707,
      "epoch": 6.18,
      "learning_rate": 3.2658108954289294e-05,
      "loss": 0.8338,
      "step": 7314,
      "task_loss": 0.5234813690185547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.266512155532837,
      "epoch": 6.18,
      "learning_rate": 3.2654978083907326e-05,
      "loss": 0.8349,
      "step": 7315,
      "task_loss": 1.4111123085021973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9350287914276123,
      "epoch": 6.18,
      "learning_rate": 3.265184721352536e-05,
      "loss": 0.9556,
      "step": 7316,
      "task_loss": 1.0906126499176025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6406686902046204,
      "epoch": 6.19,
      "learning_rate": 3.2648716343143396e-05,
      "loss": 0.7669,
      "step": 7317,
      "task_loss": 1.0115569829940796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6262810826301575,
      "epoch": 6.19,
      "learning_rate": 3.264558547276143e-05,
      "loss": 0.8443,
      "step": 7318,
      "task_loss": 1.051641821861267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0566011667251587,
      "epoch": 6.19,
      "learning_rate": 3.2642454602379466e-05,
      "loss": 0.765,
      "step": 7319,
      "task_loss": 0.6180446743965149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8334544897079468,
      "epoch": 6.19,
      "learning_rate": 3.26393237319975e-05,
      "loss": 0.6594,
      "step": 7320,
      "task_loss": 1.4069479703903198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0540422201156616,
      "epoch": 6.19,
      "learning_rate": 3.263619286161553e-05,
      "loss": 0.9425,
      "step": 7321,
      "task_loss": 1.8022420406341553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1184041500091553,
      "epoch": 6.19,
      "learning_rate": 3.263306199123357e-05,
      "loss": 0.8045,
      "step": 7322,
      "task_loss": 1.5007835626602173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5582259297370911,
      "epoch": 6.19,
      "learning_rate": 3.26299311208516e-05,
      "loss": 0.7688,
      "step": 7323,
      "task_loss": 0.6438292264938354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8635067939758301,
      "epoch": 6.19,
      "learning_rate": 3.262680025046963e-05,
      "loss": 0.7471,
      "step": 7324,
      "task_loss": 0.2745419144630432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7822767496109009,
      "epoch": 6.19,
      "learning_rate": 3.262366938008767e-05,
      "loss": 0.9873,
      "step": 7325,
      "task_loss": 1.1534905433654785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6158425807952881,
      "epoch": 6.19,
      "learning_rate": 3.26205385097057e-05,
      "loss": 0.6633,
      "step": 7326,
      "task_loss": 0.18320229649543762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5610923767089844,
      "epoch": 6.19,
      "learning_rate": 3.2617407639323734e-05,
      "loss": 0.7544,
      "step": 7327,
      "task_loss": 0.3549681007862091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5028581619262695,
      "epoch": 6.19,
      "learning_rate": 3.2614276768941766e-05,
      "loss": 0.629,
      "step": 7328,
      "task_loss": 0.8936004638671875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7661334276199341,
      "epoch": 6.2,
      "learning_rate": 3.2611145898559805e-05,
      "loss": 0.933,
      "step": 7329,
      "task_loss": 0.5842020511627197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9984524250030518,
      "epoch": 6.2,
      "learning_rate": 3.2608015028177836e-05,
      "loss": 0.8314,
      "step": 7330,
      "task_loss": 0.44862762093544006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5166067481040955,
      "epoch": 6.2,
      "learning_rate": 3.260488415779587e-05,
      "loss": 0.871,
      "step": 7331,
      "task_loss": 1.3327159881591797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8523465394973755,
      "epoch": 6.2,
      "learning_rate": 3.260175328741391e-05,
      "loss": 0.7789,
      "step": 7332,
      "task_loss": 0.430145263671875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0481736660003662,
      "epoch": 6.2,
      "learning_rate": 3.259862241703194e-05,
      "loss": 0.852,
      "step": 7333,
      "task_loss": 1.8336578607559204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.567872166633606,
      "epoch": 6.2,
      "learning_rate": 3.259549154664997e-05,
      "loss": 0.6544,
      "step": 7334,
      "task_loss": 0.8347977995872498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7673084139823914,
      "epoch": 6.2,
      "learning_rate": 3.2592360676268e-05,
      "loss": 0.9003,
      "step": 7335,
      "task_loss": 0.5178557634353638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5604450702667236,
      "epoch": 6.2,
      "learning_rate": 3.258922980588604e-05,
      "loss": 0.6481,
      "step": 7336,
      "task_loss": 0.3341405391693115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0049335956573486,
      "epoch": 6.2,
      "learning_rate": 3.258609893550407e-05,
      "loss": 0.8434,
      "step": 7337,
      "task_loss": 1.1404205560684204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9021672010421753,
      "epoch": 6.2,
      "learning_rate": 3.2582968065122104e-05,
      "loss": 0.7789,
      "step": 7338,
      "task_loss": 1.407596468925476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6901568174362183,
      "epoch": 6.2,
      "learning_rate": 3.2579837194740136e-05,
      "loss": 0.6133,
      "step": 7339,
      "task_loss": 0.4225136637687683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.131493091583252,
      "epoch": 6.2,
      "learning_rate": 3.2576706324358174e-05,
      "loss": 0.9917,
      "step": 7340,
      "task_loss": 0.8385602235794067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0074397325515747,
      "epoch": 6.21,
      "learning_rate": 3.2573575453976206e-05,
      "loss": 0.8648,
      "step": 7341,
      "task_loss": 1.052875280380249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6577971577644348,
      "epoch": 6.21,
      "learning_rate": 3.257044458359424e-05,
      "loss": 0.837,
      "step": 7342,
      "task_loss": 1.072435975074768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8135558366775513,
      "epoch": 6.21,
      "learning_rate": 3.256731371321227e-05,
      "loss": 0.8538,
      "step": 7343,
      "task_loss": 0.7651817798614502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6326394081115723,
      "epoch": 6.21,
      "learning_rate": 3.256418284283031e-05,
      "loss": 0.7389,
      "step": 7344,
      "task_loss": 0.6769306659698486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8081209659576416,
      "epoch": 6.21,
      "learning_rate": 3.256105197244834e-05,
      "loss": 0.8023,
      "step": 7345,
      "task_loss": 0.43164172768592834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.631638765335083,
      "epoch": 6.21,
      "learning_rate": 3.255792110206637e-05,
      "loss": 0.9805,
      "step": 7346,
      "task_loss": 1.2753331661224365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8709975481033325,
      "epoch": 6.21,
      "learning_rate": 3.255479023168441e-05,
      "loss": 0.7583,
      "step": 7347,
      "task_loss": 1.063697099685669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6055271625518799,
      "epoch": 6.21,
      "learning_rate": 3.255165936130244e-05,
      "loss": 0.7847,
      "step": 7348,
      "task_loss": 0.5219417810440063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3159587383270264,
      "epoch": 6.21,
      "learning_rate": 3.2548528490920474e-05,
      "loss": 0.9735,
      "step": 7349,
      "task_loss": 2.6025660037994385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.608206033706665,
      "epoch": 6.21,
      "learning_rate": 3.2545397620538506e-05,
      "loss": 0.9723,
      "step": 7350,
      "task_loss": 0.5630318522453308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0121443271636963,
      "epoch": 6.21,
      "learning_rate": 3.2542266750156544e-05,
      "loss": 0.8835,
      "step": 7351,
      "task_loss": 1.1738219261169434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0399011373519897,
      "epoch": 6.21,
      "learning_rate": 3.2539135879774576e-05,
      "loss": 1.0145,
      "step": 7352,
      "task_loss": 0.840496301651001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4685901999473572,
      "epoch": 6.22,
      "learning_rate": 3.2536005009392615e-05,
      "loss": 0.8034,
      "step": 7353,
      "task_loss": 1.4474095106124878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9569340944290161,
      "epoch": 6.22,
      "learning_rate": 3.2532874139010647e-05,
      "loss": 0.9772,
      "step": 7354,
      "task_loss": 1.0089342594146729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7145942449569702,
      "epoch": 6.22,
      "learning_rate": 3.2529743268628685e-05,
      "loss": 0.8766,
      "step": 7355,
      "task_loss": 0.5248070955276489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.729185163974762,
      "epoch": 6.22,
      "learning_rate": 3.252661239824672e-05,
      "loss": 0.8852,
      "step": 7356,
      "task_loss": 1.2106950283050537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9990220069885254,
      "epoch": 6.22,
      "learning_rate": 3.252348152786475e-05,
      "loss": 0.8269,
      "step": 7357,
      "task_loss": 1.160241723060608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.118987798690796,
      "epoch": 6.22,
      "learning_rate": 3.252035065748279e-05,
      "loss": 0.9173,
      "step": 7358,
      "task_loss": 0.6607280373573303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8286850452423096,
      "epoch": 6.22,
      "learning_rate": 3.251721978710082e-05,
      "loss": 0.6231,
      "step": 7359,
      "task_loss": 0.8342722654342651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6244360208511353,
      "epoch": 6.22,
      "learning_rate": 3.251408891671885e-05,
      "loss": 0.6295,
      "step": 7360,
      "task_loss": 0.7555914521217346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0811771154403687,
      "epoch": 6.22,
      "learning_rate": 3.251095804633688e-05,
      "loss": 0.9123,
      "step": 7361,
      "task_loss": 1.3200687170028687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6783034801483154,
      "epoch": 6.22,
      "learning_rate": 3.250782717595492e-05,
      "loss": 0.7624,
      "step": 7362,
      "task_loss": 0.5870183110237122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7520180940628052,
      "epoch": 6.22,
      "learning_rate": 3.250469630557295e-05,
      "loss": 0.8536,
      "step": 7363,
      "task_loss": 0.7762349843978882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9261247515678406,
      "epoch": 6.22,
      "learning_rate": 3.2501565435190985e-05,
      "loss": 0.8138,
      "step": 7364,
      "task_loss": 0.851408064365387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5763198137283325,
      "epoch": 6.23,
      "learning_rate": 3.2498434564809016e-05,
      "loss": 0.7453,
      "step": 7365,
      "task_loss": 0.8733024597167969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5538883209228516,
      "epoch": 6.23,
      "learning_rate": 3.2495303694427055e-05,
      "loss": 0.8088,
      "step": 7366,
      "task_loss": 0.15584638714790344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7479410171508789,
      "epoch": 6.23,
      "learning_rate": 3.249217282404509e-05,
      "loss": 0.6796,
      "step": 7367,
      "task_loss": 1.2751922607421875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7282272577285767,
      "epoch": 6.23,
      "learning_rate": 3.248904195366312e-05,
      "loss": 1.0999,
      "step": 7368,
      "task_loss": 0.685931921005249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7193988561630249,
      "epoch": 6.23,
      "learning_rate": 3.248591108328116e-05,
      "loss": 0.7411,
      "step": 7369,
      "task_loss": 0.9118191003799438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1510860919952393,
      "epoch": 6.23,
      "learning_rate": 3.248278021289919e-05,
      "loss": 0.9045,
      "step": 7370,
      "task_loss": 2.2200164794921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5760983824729919,
      "epoch": 6.23,
      "learning_rate": 3.247964934251722e-05,
      "loss": 0.7473,
      "step": 7371,
      "task_loss": 0.3485730290412903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7540810108184814,
      "epoch": 6.23,
      "learning_rate": 3.247651847213525e-05,
      "loss": 0.7086,
      "step": 7372,
      "task_loss": 0.576192319393158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0534639358520508,
      "epoch": 6.23,
      "learning_rate": 3.247338760175329e-05,
      "loss": 0.8418,
      "step": 7373,
      "task_loss": 1.67023503780365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0563576221466064,
      "epoch": 6.23,
      "learning_rate": 3.247025673137132e-05,
      "loss": 0.797,
      "step": 7374,
      "task_loss": 1.0620529651641846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9320428371429443,
      "epoch": 6.23,
      "learning_rate": 3.2467125860989355e-05,
      "loss": 0.734,
      "step": 7375,
      "task_loss": 0.8374480605125427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5938379764556885,
      "epoch": 6.23,
      "learning_rate": 3.2463994990607386e-05,
      "loss": 0.7542,
      "step": 7376,
      "task_loss": 1.2183725833892822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5426383018493652,
      "epoch": 6.24,
      "learning_rate": 3.2460864120225425e-05,
      "loss": 0.8956,
      "step": 7377,
      "task_loss": 0.5199726819992065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.868013322353363,
      "epoch": 6.24,
      "learning_rate": 3.245773324984346e-05,
      "loss": 0.7547,
      "step": 7378,
      "task_loss": 1.263550877571106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6810237169265747,
      "epoch": 6.24,
      "learning_rate": 3.245460237946149e-05,
      "loss": 0.7896,
      "step": 7379,
      "task_loss": 0.814238429069519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5597769618034363,
      "epoch": 6.24,
      "learning_rate": 3.245147150907952e-05,
      "loss": 0.7247,
      "step": 7380,
      "task_loss": 0.7658183574676514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7371374368667603,
      "epoch": 6.24,
      "learning_rate": 3.244834063869756e-05,
      "loss": 0.8625,
      "step": 7381,
      "task_loss": 1.167942762374878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7553545236587524,
      "epoch": 6.24,
      "learning_rate": 3.244520976831559e-05,
      "loss": 0.9424,
      "step": 7382,
      "task_loss": 1.477034568786621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.07838773727417,
      "epoch": 6.24,
      "learning_rate": 3.244207889793362e-05,
      "loss": 0.9534,
      "step": 7383,
      "task_loss": 1.3485196828842163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5835322737693787,
      "epoch": 6.24,
      "learning_rate": 3.243894802755166e-05,
      "loss": 0.5998,
      "step": 7384,
      "task_loss": 0.5484700202941895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7088229060173035,
      "epoch": 6.24,
      "learning_rate": 3.243581715716969e-05,
      "loss": 0.7638,
      "step": 7385,
      "task_loss": 0.5915820002555847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9483219981193542,
      "epoch": 6.24,
      "learning_rate": 3.243268628678773e-05,
      "loss": 0.6439,
      "step": 7386,
      "task_loss": 0.3198609948158264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8334802389144897,
      "epoch": 6.24,
      "learning_rate": 3.242955541640576e-05,
      "loss": 0.6791,
      "step": 7387,
      "task_loss": 1.191267490386963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0218048095703125,
      "epoch": 6.24,
      "learning_rate": 3.2426424546023795e-05,
      "loss": 1.0107,
      "step": 7388,
      "task_loss": 0.357349157333374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7202906608581543,
      "epoch": 6.25,
      "learning_rate": 3.2423293675641833e-05,
      "loss": 0.7359,
      "step": 7389,
      "task_loss": 0.7320424318313599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7397348880767822,
      "epoch": 6.25,
      "learning_rate": 3.2420162805259865e-05,
      "loss": 0.766,
      "step": 7390,
      "task_loss": 0.32219526171684265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5715610980987549,
      "epoch": 6.25,
      "learning_rate": 3.24170319348779e-05,
      "loss": 0.7207,
      "step": 7391,
      "task_loss": 0.6734588146209717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1444363594055176,
      "epoch": 6.25,
      "learning_rate": 3.2413901064495936e-05,
      "loss": 0.8393,
      "step": 7392,
      "task_loss": 0.9344111084938049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7653133869171143,
      "epoch": 6.25,
      "learning_rate": 3.241077019411397e-05,
      "loss": 0.6705,
      "step": 7393,
      "task_loss": 0.7780746221542358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6980164051055908,
      "epoch": 6.25,
      "learning_rate": 3.2407639323732e-05,
      "loss": 0.6833,
      "step": 7394,
      "task_loss": 0.8973962664604187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3346365988254547,
      "epoch": 6.25,
      "learning_rate": 3.240450845335004e-05,
      "loss": 0.6376,
      "step": 7395,
      "task_loss": 0.41439101099967957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33774346113204956,
      "epoch": 6.25,
      "learning_rate": 3.240137758296807e-05,
      "loss": 0.5951,
      "step": 7396,
      "task_loss": 0.35691532492637634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8311076760292053,
      "epoch": 6.25,
      "learning_rate": 3.23982467125861e-05,
      "loss": 0.7282,
      "step": 7397,
      "task_loss": 1.0328325033187866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6381131410598755,
      "epoch": 6.25,
      "learning_rate": 3.239511584220413e-05,
      "loss": 0.9033,
      "step": 7398,
      "task_loss": 0.37309229373931885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8622696399688721,
      "epoch": 6.25,
      "learning_rate": 3.239198497182217e-05,
      "loss": 0.8809,
      "step": 7399,
      "task_loss": 1.7849137783050537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6526895761489868,
      "epoch": 6.26,
      "learning_rate": 3.23888541014402e-05,
      "loss": 0.7641,
      "step": 7400,
      "task_loss": 0.44649896025657654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6780917048454285,
      "epoch": 6.26,
      "learning_rate": 3.2385723231058235e-05,
      "loss": 0.7605,
      "step": 7401,
      "task_loss": 0.6705424189567566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8677247166633606,
      "epoch": 6.26,
      "learning_rate": 3.238259236067627e-05,
      "loss": 0.9181,
      "step": 7402,
      "task_loss": 0.8932814598083496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6970074772834778,
      "epoch": 6.26,
      "learning_rate": 3.2379461490294305e-05,
      "loss": 0.7122,
      "step": 7403,
      "task_loss": 0.40466731786727905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8236110806465149,
      "epoch": 6.26,
      "learning_rate": 3.237633061991234e-05,
      "loss": 0.6832,
      "step": 7404,
      "task_loss": 0.4035249650478363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8181665539741516,
      "epoch": 6.26,
      "learning_rate": 3.237319974953037e-05,
      "loss": 0.7612,
      "step": 7405,
      "task_loss": 0.6940217614173889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4214785099029541,
      "epoch": 6.26,
      "learning_rate": 3.237006887914841e-05,
      "loss": 0.9708,
      "step": 7406,
      "task_loss": 0.52804034948349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8273749947547913,
      "epoch": 6.26,
      "learning_rate": 3.236693800876644e-05,
      "loss": 0.6935,
      "step": 7407,
      "task_loss": 1.422276258468628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8654565811157227,
      "epoch": 6.26,
      "learning_rate": 3.236380713838447e-05,
      "loss": 1.0151,
      "step": 7408,
      "task_loss": 1.1338298320770264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8421639800071716,
      "epoch": 6.26,
      "learning_rate": 3.23606762680025e-05,
      "loss": 0.8043,
      "step": 7409,
      "task_loss": 0.9895845055580139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5976762771606445,
      "epoch": 6.26,
      "learning_rate": 3.235754539762054e-05,
      "loss": 0.9577,
      "step": 7410,
      "task_loss": 0.8442704081535339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9261865615844727,
      "epoch": 6.26,
      "learning_rate": 3.235441452723857e-05,
      "loss": 0.8026,
      "step": 7411,
      "task_loss": 1.1595200300216675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.574245274066925,
      "epoch": 6.27,
      "learning_rate": 3.2351283656856605e-05,
      "loss": 0.6244,
      "step": 7412,
      "task_loss": 0.6329626441001892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9840944409370422,
      "epoch": 6.27,
      "learning_rate": 3.234815278647464e-05,
      "loss": 0.9254,
      "step": 7413,
      "task_loss": 1.5791887044906616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6749947667121887,
      "epoch": 6.27,
      "learning_rate": 3.2345021916092675e-05,
      "loss": 0.7222,
      "step": 7414,
      "task_loss": 1.1688979864120483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9623695015907288,
      "epoch": 6.27,
      "learning_rate": 3.234189104571071e-05,
      "loss": 0.9083,
      "step": 7415,
      "task_loss": 1.1182655096054077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1748355627059937,
      "epoch": 6.27,
      "learning_rate": 3.233876017532874e-05,
      "loss": 1.0005,
      "step": 7416,
      "task_loss": 2.1206398010253906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5514520406723022,
      "epoch": 6.27,
      "learning_rate": 3.233562930494677e-05,
      "loss": 0.6926,
      "step": 7417,
      "task_loss": 0.5716879963874817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9593885540962219,
      "epoch": 6.27,
      "learning_rate": 3.233249843456481e-05,
      "loss": 0.7248,
      "step": 7418,
      "task_loss": 1.0415023565292358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7995764017105103,
      "epoch": 6.27,
      "learning_rate": 3.232936756418284e-05,
      "loss": 0.8309,
      "step": 7419,
      "task_loss": 0.3686891198158264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9709974527359009,
      "epoch": 6.27,
      "learning_rate": 3.232623669380088e-05,
      "loss": 0.8339,
      "step": 7420,
      "task_loss": 1.1966924667358398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8422772288322449,
      "epoch": 6.27,
      "learning_rate": 3.232310582341891e-05,
      "loss": 0.761,
      "step": 7421,
      "task_loss": 0.9485624432563782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8435242176055908,
      "epoch": 6.27,
      "learning_rate": 3.231997495303695e-05,
      "loss": 0.9091,
      "step": 7422,
      "task_loss": 0.3267122209072113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6868990659713745,
      "epoch": 6.27,
      "learning_rate": 3.231684408265498e-05,
      "loss": 0.7087,
      "step": 7423,
      "task_loss": 0.43273812532424927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6506779789924622,
      "epoch": 6.28,
      "learning_rate": 3.2313713212273013e-05,
      "loss": 0.6833,
      "step": 7424,
      "task_loss": 0.3093213438987732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8560687899589539,
      "epoch": 6.28,
      "learning_rate": 3.231058234189105e-05,
      "loss": 0.7457,
      "step": 7425,
      "task_loss": 0.5923929214477539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6620567440986633,
      "epoch": 6.28,
      "learning_rate": 3.2307451471509084e-05,
      "loss": 0.959,
      "step": 7426,
      "task_loss": 0.9801532030105591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4280385673046112,
      "epoch": 6.28,
      "learning_rate": 3.2304320601127116e-05,
      "loss": 0.8896,
      "step": 7427,
      "task_loss": 0.4752841889858246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5911158323287964,
      "epoch": 6.28,
      "learning_rate": 3.230118973074515e-05,
      "loss": 0.645,
      "step": 7428,
      "task_loss": 0.4199666380882263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6800719499588013,
      "epoch": 6.28,
      "learning_rate": 3.2298058860363186e-05,
      "loss": 0.6578,
      "step": 7429,
      "task_loss": 0.41622182726860046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9445850849151611,
      "epoch": 6.28,
      "learning_rate": 3.229492798998122e-05,
      "loss": 0.838,
      "step": 7430,
      "task_loss": 0.5747875571250916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0229312181472778,
      "epoch": 6.28,
      "learning_rate": 3.229179711959925e-05,
      "loss": 0.9249,
      "step": 7431,
      "task_loss": 0.7882843613624573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6005703210830688,
      "epoch": 6.28,
      "learning_rate": 3.228866624921729e-05,
      "loss": 0.624,
      "step": 7432,
      "task_loss": 0.8276329636573792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6262754201889038,
      "epoch": 6.28,
      "learning_rate": 3.228553537883532e-05,
      "loss": 0.7589,
      "step": 7433,
      "task_loss": 0.6553522348403931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.02410089969635,
      "epoch": 6.28,
      "learning_rate": 3.228240450845335e-05,
      "loss": 0.9908,
      "step": 7434,
      "task_loss": 0.5441640615463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7210803627967834,
      "epoch": 6.28,
      "learning_rate": 3.2279273638071383e-05,
      "loss": 0.8997,
      "step": 7435,
      "task_loss": 0.3290754556655884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7145229578018188,
      "epoch": 6.29,
      "learning_rate": 3.227614276768942e-05,
      "loss": 0.7993,
      "step": 7436,
      "task_loss": 0.3828011155128479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8112426996231079,
      "epoch": 6.29,
      "learning_rate": 3.2273011897307454e-05,
      "loss": 0.7007,
      "step": 7437,
      "task_loss": 0.27596530318260193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1923717260360718,
      "epoch": 6.29,
      "learning_rate": 3.2269881026925486e-05,
      "loss": 1.2506,
      "step": 7438,
      "task_loss": 0.9145166277885437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5470309853553772,
      "epoch": 6.29,
      "learning_rate": 3.226675015654352e-05,
      "loss": 0.6496,
      "step": 7439,
      "task_loss": 0.8498038649559021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9760289192199707,
      "epoch": 6.29,
      "learning_rate": 3.2263619286161556e-05,
      "loss": 0.7266,
      "step": 7440,
      "task_loss": 2.129641532897949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.576645016670227,
      "epoch": 6.29,
      "learning_rate": 3.226048841577959e-05,
      "loss": 0.8721,
      "step": 7441,
      "task_loss": 0.757213830947876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5402920246124268,
      "epoch": 6.29,
      "learning_rate": 3.225735754539762e-05,
      "loss": 0.8471,
      "step": 7442,
      "task_loss": 0.9763416647911072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.889595091342926,
      "epoch": 6.29,
      "learning_rate": 3.225422667501566e-05,
      "loss": 0.7082,
      "step": 7443,
      "task_loss": 0.672132134437561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4399985373020172,
      "epoch": 6.29,
      "learning_rate": 3.225109580463369e-05,
      "loss": 0.581,
      "step": 7444,
      "task_loss": 0.24576522409915924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8105830550193787,
      "epoch": 6.29,
      "learning_rate": 3.224796493425172e-05,
      "loss": 0.8828,
      "step": 7445,
      "task_loss": 0.2975460886955261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9648386240005493,
      "epoch": 6.29,
      "learning_rate": 3.224483406386975e-05,
      "loss": 0.7892,
      "step": 7446,
      "task_loss": 0.9940316081047058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7414273023605347,
      "epoch": 6.29,
      "learning_rate": 3.224170319348779e-05,
      "loss": 0.7462,
      "step": 7447,
      "task_loss": 0.5254045724868774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4915833473205566,
      "epoch": 6.3,
      "learning_rate": 3.2238572323105824e-05,
      "loss": 1.055,
      "step": 7448,
      "task_loss": 1.0540252923965454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6795961856842041,
      "epoch": 6.3,
      "learning_rate": 3.2235441452723855e-05,
      "loss": 0.6569,
      "step": 7449,
      "task_loss": 0.9914053678512573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8248546123504639,
      "epoch": 6.3,
      "learning_rate": 3.223231058234189e-05,
      "loss": 1.0832,
      "step": 7450,
      "task_loss": 1.3167691230773926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7716928720474243,
      "epoch": 6.3,
      "learning_rate": 3.2229179711959926e-05,
      "loss": 0.9186,
      "step": 7451,
      "task_loss": 0.7149481773376465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0360779762268066,
      "epoch": 6.3,
      "learning_rate": 3.222604884157796e-05,
      "loss": 0.7852,
      "step": 7452,
      "task_loss": 0.34496423602104187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1228570938110352,
      "epoch": 6.3,
      "learning_rate": 3.2222917971195996e-05,
      "loss": 0.8835,
      "step": 7453,
      "task_loss": 1.1450875997543335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8143109083175659,
      "epoch": 6.3,
      "learning_rate": 3.221978710081403e-05,
      "loss": 0.6481,
      "step": 7454,
      "task_loss": 0.7261930108070374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4085594415664673,
      "epoch": 6.3,
      "learning_rate": 3.221665623043206e-05,
      "loss": 1.0962,
      "step": 7455,
      "task_loss": 2.4656362533569336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7279154062271118,
      "epoch": 6.3,
      "learning_rate": 3.22135253600501e-05,
      "loss": 0.7576,
      "step": 7456,
      "task_loss": 0.6204026341438293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8057430386543274,
      "epoch": 6.3,
      "learning_rate": 3.221039448966813e-05,
      "loss": 0.7579,
      "step": 7457,
      "task_loss": 1.5672756433486938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7166203260421753,
      "epoch": 6.3,
      "learning_rate": 3.220726361928617e-05,
      "loss": 0.6089,
      "step": 7458,
      "task_loss": 0.7504241466522217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6333633065223694,
      "epoch": 6.3,
      "learning_rate": 3.22041327489042e-05,
      "loss": 0.7652,
      "step": 7459,
      "task_loss": 1.1526726484298706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8660963773727417,
      "epoch": 6.31,
      "learning_rate": 3.220100187852223e-05,
      "loss": 0.8031,
      "step": 7460,
      "task_loss": 0.7135440111160278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.702748715877533,
      "epoch": 6.31,
      "learning_rate": 3.2197871008140264e-05,
      "loss": 0.5781,
      "step": 7461,
      "task_loss": 0.3461496829986572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.216275930404663,
      "epoch": 6.31,
      "learning_rate": 3.21947401377583e-05,
      "loss": 0.7225,
      "step": 7462,
      "task_loss": 1.0143492221832275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5138231515884399,
      "epoch": 6.31,
      "learning_rate": 3.2191609267376334e-05,
      "loss": 0.8309,
      "step": 7463,
      "task_loss": 0.30901190638542175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7602196931838989,
      "epoch": 6.31,
      "learning_rate": 3.2188478396994366e-05,
      "loss": 0.7336,
      "step": 7464,
      "task_loss": 0.7954379320144653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7193101644515991,
      "epoch": 6.31,
      "learning_rate": 3.21853475266124e-05,
      "loss": 0.9184,
      "step": 7465,
      "task_loss": 0.28763407468795776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9027704000473022,
      "epoch": 6.31,
      "learning_rate": 3.2182216656230436e-05,
      "loss": 0.7375,
      "step": 7466,
      "task_loss": 0.5247845649719238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.926295816898346,
      "epoch": 6.31,
      "learning_rate": 3.217908578584847e-05,
      "loss": 0.9356,
      "step": 7467,
      "task_loss": 0.7811524868011475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.101093053817749,
      "epoch": 6.31,
      "learning_rate": 3.21759549154665e-05,
      "loss": 0.8218,
      "step": 7468,
      "task_loss": 1.0289026498794556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6726568937301636,
      "epoch": 6.31,
      "learning_rate": 3.217282404508454e-05,
      "loss": 0.9791,
      "step": 7469,
      "task_loss": 0.9150856733322144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8906072378158569,
      "epoch": 6.31,
      "learning_rate": 3.216969317470257e-05,
      "loss": 0.9721,
      "step": 7470,
      "task_loss": 0.7563080191612244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6941787004470825,
      "epoch": 6.32,
      "learning_rate": 3.21665623043206e-05,
      "loss": 0.8581,
      "step": 7471,
      "task_loss": 1.071071743965149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.000005841255188,
      "epoch": 6.32,
      "learning_rate": 3.2163431433938634e-05,
      "loss": 0.9226,
      "step": 7472,
      "task_loss": 0.9647865891456604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6309512257575989,
      "epoch": 6.32,
      "learning_rate": 3.216030056355667e-05,
      "loss": 0.9129,
      "step": 7473,
      "task_loss": 1.3836534023284912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9664393663406372,
      "epoch": 6.32,
      "learning_rate": 3.2157169693174704e-05,
      "loss": 0.8609,
      "step": 7474,
      "task_loss": 0.9827758073806763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.003150463104248,
      "epoch": 6.32,
      "learning_rate": 3.2154038822792736e-05,
      "loss": 1.1213,
      "step": 7475,
      "task_loss": 1.0840613842010498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8131544589996338,
      "epoch": 6.32,
      "learning_rate": 3.215090795241077e-05,
      "loss": 0.8567,
      "step": 7476,
      "task_loss": 1.222765326499939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35337790846824646,
      "epoch": 6.32,
      "learning_rate": 3.2147777082028806e-05,
      "loss": 0.6279,
      "step": 7477,
      "task_loss": 0.6814793944358826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8773435354232788,
      "epoch": 6.32,
      "learning_rate": 3.214464621164684e-05,
      "loss": 0.8573,
      "step": 7478,
      "task_loss": 0.8420472145080566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2544610500335693,
      "epoch": 6.32,
      "learning_rate": 3.214151534126487e-05,
      "loss": 0.7761,
      "step": 7479,
      "task_loss": 1.3027994632720947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.685028076171875,
      "epoch": 6.32,
      "learning_rate": 3.213838447088291e-05,
      "loss": 0.8589,
      "step": 7480,
      "task_loss": 1.3783290386199951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7589131593704224,
      "epoch": 6.32,
      "learning_rate": 3.213525360050094e-05,
      "loss": 0.7379,
      "step": 7481,
      "task_loss": 0.14405246078968048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9581469297409058,
      "epoch": 6.32,
      "learning_rate": 3.213212273011897e-05,
      "loss": 0.9525,
      "step": 7482,
      "task_loss": 0.634421169757843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6621205806732178,
      "epoch": 6.33,
      "learning_rate": 3.2128991859737004e-05,
      "loss": 0.5888,
      "step": 7483,
      "task_loss": 0.744815468788147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9470300078392029,
      "epoch": 6.33,
      "learning_rate": 3.212586098935504e-05,
      "loss": 0.9186,
      "step": 7484,
      "task_loss": 1.0826746225357056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0506389141082764,
      "epoch": 6.33,
      "learning_rate": 3.2122730118973074e-05,
      "loss": 0.6811,
      "step": 7485,
      "task_loss": 0.7253723740577698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4846612811088562,
      "epoch": 6.33,
      "learning_rate": 3.2119599248591106e-05,
      "loss": 0.5779,
      "step": 7486,
      "task_loss": 0.7904396057128906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7930373549461365,
      "epoch": 6.33,
      "learning_rate": 3.2116468378209144e-05,
      "loss": 0.7512,
      "step": 7487,
      "task_loss": 1.115469217300415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7100651860237122,
      "epoch": 6.33,
      "learning_rate": 3.2113337507827176e-05,
      "loss": 0.7237,
      "step": 7488,
      "task_loss": 0.32203036546707153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23832671344280243,
      "epoch": 6.33,
      "learning_rate": 3.2110206637445215e-05,
      "loss": 0.5028,
      "step": 7489,
      "task_loss": 0.026655249297618866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0970988273620605,
      "epoch": 6.33,
      "learning_rate": 3.2107075767063247e-05,
      "loss": 0.8541,
      "step": 7490,
      "task_loss": 0.5515878796577454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.074319839477539,
      "epoch": 6.33,
      "learning_rate": 3.210394489668128e-05,
      "loss": 0.8627,
      "step": 7491,
      "task_loss": 0.565703809261322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5564824342727661,
      "epoch": 6.33,
      "learning_rate": 3.210081402629932e-05,
      "loss": 0.5551,
      "step": 7492,
      "task_loss": 0.14472678303718567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.899785578250885,
      "epoch": 6.33,
      "learning_rate": 3.209768315591735e-05,
      "loss": 0.9029,
      "step": 7493,
      "task_loss": 1.0291674137115479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.450152188539505,
      "epoch": 6.33,
      "learning_rate": 3.209455228553538e-05,
      "loss": 0.6244,
      "step": 7494,
      "task_loss": 0.9464607238769531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.703309178352356,
      "epoch": 6.34,
      "learning_rate": 3.209142141515342e-05,
      "loss": 0.8082,
      "step": 7495,
      "task_loss": 0.6757782101631165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4824652373790741,
      "epoch": 6.34,
      "learning_rate": 3.208829054477145e-05,
      "loss": 0.705,
      "step": 7496,
      "task_loss": 0.32549816370010376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9337853193283081,
      "epoch": 6.34,
      "learning_rate": 3.208515967438948e-05,
      "loss": 0.8718,
      "step": 7497,
      "task_loss": 0.8378446102142334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9630289077758789,
      "epoch": 6.34,
      "learning_rate": 3.2082028804007514e-05,
      "loss": 0.96,
      "step": 7498,
      "task_loss": 0.5180336833000183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.039438247680664,
      "epoch": 6.34,
      "learning_rate": 3.207889793362555e-05,
      "loss": 0.7804,
      "step": 7499,
      "task_loss": 0.708196222782135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3987133502960205,
      "epoch": 6.34,
      "learning_rate": 3.2075767063243585e-05,
      "loss": 0.8874,
      "step": 7500,
      "task_loss": 1.122597575187683
    },
    {
      "epoch": 6.34,
      "eval_accuracy": 0.8859009900990099,
      "eval_loss": 0.5150541663169861,
      "eval_runtime": 207.5341,
      "eval_samples_per_second": 121.667,
      "eval_steps_per_second": 0.954,
      "step": 7500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6812906265258789,
      "epoch": 6.34,
      "learning_rate": 3.2072636192861617e-05,
      "loss": 0.6515,
      "step": 7501,
      "task_loss": 1.3381730318069458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8760244250297546,
      "epoch": 6.34,
      "learning_rate": 3.206950532247965e-05,
      "loss": 0.9656,
      "step": 7502,
      "task_loss": 0.3292783200740814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6205652356147766,
      "epoch": 6.34,
      "learning_rate": 3.206637445209769e-05,
      "loss": 0.6707,
      "step": 7503,
      "task_loss": 0.5079911947250366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9885909557342529,
      "epoch": 6.34,
      "learning_rate": 3.206324358171572e-05,
      "loss": 0.8933,
      "step": 7504,
      "task_loss": 0.49076223373413086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6667767763137817,
      "epoch": 6.34,
      "learning_rate": 3.206011271133375e-05,
      "loss": 0.7226,
      "step": 7505,
      "task_loss": 0.54465252161026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9210776686668396,
      "epoch": 6.34,
      "learning_rate": 3.205698184095179e-05,
      "loss": 0.7849,
      "step": 7506,
      "task_loss": 1.1767936944961548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6544913053512573,
      "epoch": 6.35,
      "learning_rate": 3.205385097056982e-05,
      "loss": 0.6687,
      "step": 7507,
      "task_loss": 0.3415253758430481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.76054447889328,
      "epoch": 6.35,
      "learning_rate": 3.205072010018785e-05,
      "loss": 0.7657,
      "step": 7508,
      "task_loss": 0.12800724804401398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6236101984977722,
      "epoch": 6.35,
      "learning_rate": 3.2047589229805884e-05,
      "loss": 0.7418,
      "step": 7509,
      "task_loss": 1.2994208335876465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0708763599395752,
      "epoch": 6.35,
      "learning_rate": 3.204445835942392e-05,
      "loss": 0.7895,
      "step": 7510,
      "task_loss": 0.8831343054771423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47562164068222046,
      "epoch": 6.35,
      "learning_rate": 3.2041327489041955e-05,
      "loss": 0.6625,
      "step": 7511,
      "task_loss": 0.6505880355834961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7993870377540588,
      "epoch": 6.35,
      "learning_rate": 3.2038196618659986e-05,
      "loss": 0.7345,
      "step": 7512,
      "task_loss": 0.9117836952209473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385242104530334,
      "epoch": 6.35,
      "learning_rate": 3.203506574827802e-05,
      "loss": 0.8261,
      "step": 7513,
      "task_loss": 0.5952461957931519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6708654761314392,
      "epoch": 6.35,
      "learning_rate": 3.203193487789606e-05,
      "loss": 0.7911,
      "step": 7514,
      "task_loss": 0.5502325296401978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4554188847541809,
      "epoch": 6.35,
      "learning_rate": 3.202880400751409e-05,
      "loss": 0.5195,
      "step": 7515,
      "task_loss": 0.698704719543457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6352314352989197,
      "epoch": 6.35,
      "learning_rate": 3.202567313713212e-05,
      "loss": 0.6974,
      "step": 7516,
      "task_loss": 0.7300940752029419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6675108075141907,
      "epoch": 6.35,
      "learning_rate": 3.202254226675016e-05,
      "loss": 0.6792,
      "step": 7517,
      "task_loss": 0.14790290594100952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6253761053085327,
      "epoch": 6.35,
      "learning_rate": 3.201941139636819e-05,
      "loss": 0.6829,
      "step": 7518,
      "task_loss": 0.8725154995918274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.809104859828949,
      "epoch": 6.36,
      "learning_rate": 3.201628052598622e-05,
      "loss": 0.8115,
      "step": 7519,
      "task_loss": 0.3916974663734436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6327226161956787,
      "epoch": 6.36,
      "learning_rate": 3.2013149655604254e-05,
      "loss": 0.9309,
      "step": 7520,
      "task_loss": 0.5607863068580627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7538047432899475,
      "epoch": 6.36,
      "learning_rate": 3.201001878522229e-05,
      "loss": 0.8589,
      "step": 7521,
      "task_loss": 0.9558371901512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9267904758453369,
      "epoch": 6.36,
      "learning_rate": 3.2006887914840325e-05,
      "loss": 0.8529,
      "step": 7522,
      "task_loss": 2.22011137008667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7496516704559326,
      "epoch": 6.36,
      "learning_rate": 3.200375704445836e-05,
      "loss": 0.7505,
      "step": 7523,
      "task_loss": 0.4661013185977936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9078434705734253,
      "epoch": 6.36,
      "learning_rate": 3.2000626174076395e-05,
      "loss": 0.965,
      "step": 7524,
      "task_loss": 1.5518735647201538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8179677128791809,
      "epoch": 6.36,
      "learning_rate": 3.1997495303694433e-05,
      "loss": 0.9207,
      "step": 7525,
      "task_loss": 0.7300041913986206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.718685507774353,
      "epoch": 6.36,
      "learning_rate": 3.1994364433312465e-05,
      "loss": 0.6681,
      "step": 7526,
      "task_loss": 1.075690746307373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5531846284866333,
      "epoch": 6.36,
      "learning_rate": 3.19912335629305e-05,
      "loss": 0.6441,
      "step": 7527,
      "task_loss": 0.3312350809574127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.664029061794281,
      "epoch": 6.36,
      "learning_rate": 3.1988102692548536e-05,
      "loss": 0.7701,
      "step": 7528,
      "task_loss": 0.5269252061843872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1983354091644287,
      "epoch": 6.36,
      "learning_rate": 3.198497182216657e-05,
      "loss": 0.823,
      "step": 7529,
      "task_loss": 1.5140810012817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.331059455871582,
      "epoch": 6.36,
      "learning_rate": 3.19818409517846e-05,
      "loss": 0.8758,
      "step": 7530,
      "task_loss": 0.5454875826835632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4719383120536804,
      "epoch": 6.37,
      "learning_rate": 3.197871008140263e-05,
      "loss": 0.4857,
      "step": 7531,
      "task_loss": 0.15604467689990997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40381938219070435,
      "epoch": 6.37,
      "learning_rate": 3.197557921102067e-05,
      "loss": 0.8323,
      "step": 7532,
      "task_loss": 0.5693575739860535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9504426717758179,
      "epoch": 6.37,
      "learning_rate": 3.19724483406387e-05,
      "loss": 0.8622,
      "step": 7533,
      "task_loss": 0.8538603782653809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9107181429862976,
      "epoch": 6.37,
      "learning_rate": 3.196931747025673e-05,
      "loss": 0.6421,
      "step": 7534,
      "task_loss": 0.21300949156284332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5069432258605957,
      "epoch": 6.37,
      "learning_rate": 3.1966186599874765e-05,
      "loss": 0.7239,
      "step": 7535,
      "task_loss": 0.9375752210617065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8242259621620178,
      "epoch": 6.37,
      "learning_rate": 3.19630557294928e-05,
      "loss": 0.9482,
      "step": 7536,
      "task_loss": 0.4123106896877289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6034528017044067,
      "epoch": 6.37,
      "learning_rate": 3.1959924859110835e-05,
      "loss": 0.7175,
      "step": 7537,
      "task_loss": 0.1559513360261917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2128949165344238,
      "epoch": 6.37,
      "learning_rate": 3.195679398872887e-05,
      "loss": 0.7635,
      "step": 7538,
      "task_loss": 1.4280129671096802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0972540378570557,
      "epoch": 6.37,
      "learning_rate": 3.19536631183469e-05,
      "loss": 0.9381,
      "step": 7539,
      "task_loss": 1.247320294380188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7718982100486755,
      "epoch": 6.37,
      "learning_rate": 3.195053224796494e-05,
      "loss": 0.7915,
      "step": 7540,
      "task_loss": 0.5747050046920776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4294615089893341,
      "epoch": 6.37,
      "learning_rate": 3.194740137758297e-05,
      "loss": 0.5128,
      "step": 7541,
      "task_loss": 0.866732120513916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.603005051612854,
      "epoch": 6.38,
      "learning_rate": 3.1944270507201e-05,
      "loss": 0.685,
      "step": 7542,
      "task_loss": 0.16332091391086578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6379014849662781,
      "epoch": 6.38,
      "learning_rate": 3.194113963681904e-05,
      "loss": 0.7306,
      "step": 7543,
      "task_loss": 0.636384904384613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.671053946018219,
      "epoch": 6.38,
      "learning_rate": 3.193800876643707e-05,
      "loss": 0.6512,
      "step": 7544,
      "task_loss": 0.5821993947029114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.662284791469574,
      "epoch": 6.38,
      "learning_rate": 3.19348778960551e-05,
      "loss": 0.8411,
      "step": 7545,
      "task_loss": 0.8194592595100403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9783964157104492,
      "epoch": 6.38,
      "learning_rate": 3.1931747025673135e-05,
      "loss": 0.8269,
      "step": 7546,
      "task_loss": 0.4949536621570587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6581668853759766,
      "epoch": 6.38,
      "learning_rate": 3.192861615529117e-05,
      "loss": 0.6584,
      "step": 7547,
      "task_loss": 1.1025019884109497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8151091933250427,
      "epoch": 6.38,
      "learning_rate": 3.1925485284909205e-05,
      "loss": 0.6556,
      "step": 7548,
      "task_loss": 1.0013774633407593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.014056921005249,
      "epoch": 6.38,
      "learning_rate": 3.192235441452724e-05,
      "loss": 0.906,
      "step": 7549,
      "task_loss": 0.8731791973114014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9717416763305664,
      "epoch": 6.38,
      "learning_rate": 3.191922354414527e-05,
      "loss": 0.5802,
      "step": 7550,
      "task_loss": 0.5659821629524231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0729018449783325,
      "epoch": 6.38,
      "learning_rate": 3.191609267376331e-05,
      "loss": 0.8608,
      "step": 7551,
      "task_loss": 1.0094596147537231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5544007420539856,
      "epoch": 6.38,
      "learning_rate": 3.191296180338134e-05,
      "loss": 0.7297,
      "step": 7552,
      "task_loss": 0.8668425679206848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7458093166351318,
      "epoch": 6.38,
      "learning_rate": 3.190983093299937e-05,
      "loss": 0.6445,
      "step": 7553,
      "task_loss": 0.6147090196609497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5068514347076416,
      "epoch": 6.39,
      "learning_rate": 3.190670006261741e-05,
      "loss": 0.737,
      "step": 7554,
      "task_loss": 0.9087813496589661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4570161998271942,
      "epoch": 6.39,
      "learning_rate": 3.190356919223544e-05,
      "loss": 0.7218,
      "step": 7555,
      "task_loss": 0.6515787839889526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7966903448104858,
      "epoch": 6.39,
      "learning_rate": 3.190043832185348e-05,
      "loss": 0.8077,
      "step": 7556,
      "task_loss": 0.8880345821380615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6884174346923828,
      "epoch": 6.39,
      "learning_rate": 3.189730745147151e-05,
      "loss": 0.8633,
      "step": 7557,
      "task_loss": 0.9999603033065796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7360155582427979,
      "epoch": 6.39,
      "learning_rate": 3.189417658108954e-05,
      "loss": 0.8232,
      "step": 7558,
      "task_loss": 1.0479848384857178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5156943798065186,
      "epoch": 6.39,
      "learning_rate": 3.189104571070758e-05,
      "loss": 0.8268,
      "step": 7559,
      "task_loss": 0.4795456826686859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.024117350578308,
      "epoch": 6.39,
      "learning_rate": 3.1887914840325614e-05,
      "loss": 0.7708,
      "step": 7560,
      "task_loss": 1.1907360553741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9101576805114746,
      "epoch": 6.39,
      "learning_rate": 3.1884783969943645e-05,
      "loss": 0.907,
      "step": 7561,
      "task_loss": 1.5590813159942627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8851885795593262,
      "epoch": 6.39,
      "learning_rate": 3.1881653099561684e-05,
      "loss": 0.6374,
      "step": 7562,
      "task_loss": 1.0053704977035522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8995898962020874,
      "epoch": 6.39,
      "learning_rate": 3.1878522229179716e-05,
      "loss": 0.9784,
      "step": 7563,
      "task_loss": 0.4449736177921295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8887133598327637,
      "epoch": 6.39,
      "learning_rate": 3.187539135879775e-05,
      "loss": 0.8521,
      "step": 7564,
      "task_loss": 1.1701650619506836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9051982164382935,
      "epoch": 6.39,
      "learning_rate": 3.1872260488415786e-05,
      "loss": 0.8651,
      "step": 7565,
      "task_loss": 1.275010108947754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2912986278533936,
      "epoch": 6.4,
      "learning_rate": 3.186912961803382e-05,
      "loss": 0.9843,
      "step": 7566,
      "task_loss": 1.215599775314331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0953575372695923,
      "epoch": 6.4,
      "learning_rate": 3.186599874765185e-05,
      "loss": 0.8963,
      "step": 7567,
      "task_loss": 0.5515112280845642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1782463788986206,
      "epoch": 6.4,
      "learning_rate": 3.186286787726988e-05,
      "loss": 0.8748,
      "step": 7568,
      "task_loss": 0.8249827027320862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1353119611740112,
      "epoch": 6.4,
      "learning_rate": 3.185973700688792e-05,
      "loss": 1.3275,
      "step": 7569,
      "task_loss": 0.7329065799713135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5609924793243408,
      "epoch": 6.4,
      "learning_rate": 3.185660613650595e-05,
      "loss": 0.7357,
      "step": 7570,
      "task_loss": 0.6496579647064209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.036138892173767,
      "epoch": 6.4,
      "learning_rate": 3.1853475266123983e-05,
      "loss": 0.9188,
      "step": 7571,
      "task_loss": 0.9693177342414856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8939152956008911,
      "epoch": 6.4,
      "learning_rate": 3.1850344395742015e-05,
      "loss": 0.8527,
      "step": 7572,
      "task_loss": 0.8829478025436401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5028553009033203,
      "epoch": 6.4,
      "learning_rate": 3.1847213525360054e-05,
      "loss": 0.8382,
      "step": 7573,
      "task_loss": 0.6834889650344849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0788118839263916,
      "epoch": 6.4,
      "learning_rate": 3.1844082654978086e-05,
      "loss": 0.8525,
      "step": 7574,
      "task_loss": 1.0270379781723022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0837304592132568,
      "epoch": 6.4,
      "learning_rate": 3.184095178459612e-05,
      "loss": 0.966,
      "step": 7575,
      "task_loss": 1.3593568801879883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7939642667770386,
      "epoch": 6.4,
      "learning_rate": 3.183782091421415e-05,
      "loss": 0.7942,
      "step": 7576,
      "task_loss": 0.5198790431022644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5254908800125122,
      "epoch": 6.4,
      "learning_rate": 3.183469004383219e-05,
      "loss": 0.7755,
      "step": 7577,
      "task_loss": 0.6223665475845337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4680120646953583,
      "epoch": 6.41,
      "learning_rate": 3.183155917345022e-05,
      "loss": 0.6707,
      "step": 7578,
      "task_loss": 0.7587383389472961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6698700189590454,
      "epoch": 6.41,
      "learning_rate": 3.182842830306825e-05,
      "loss": 0.6625,
      "step": 7579,
      "task_loss": 0.6195158958435059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.351672887802124,
      "epoch": 6.41,
      "learning_rate": 3.182529743268629e-05,
      "loss": 0.9536,
      "step": 7580,
      "task_loss": 1.8347722291946411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6328564286231995,
      "epoch": 6.41,
      "learning_rate": 3.182216656230432e-05,
      "loss": 0.6824,
      "step": 7581,
      "task_loss": 0.5620028376579285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4479998052120209,
      "epoch": 6.41,
      "learning_rate": 3.1819035691922353e-05,
      "loss": 0.583,
      "step": 7582,
      "task_loss": 0.7044345736503601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3250396251678467,
      "epoch": 6.41,
      "learning_rate": 3.1815904821540385e-05,
      "loss": 0.9398,
      "step": 7583,
      "task_loss": 1.016648292541504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0218809843063354,
      "epoch": 6.41,
      "learning_rate": 3.1812773951158424e-05,
      "loss": 0.7267,
      "step": 7584,
      "task_loss": 0.6241471171379089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8318659067153931,
      "epoch": 6.41,
      "learning_rate": 3.1809643080776456e-05,
      "loss": 0.7367,
      "step": 7585,
      "task_loss": 1.2073498964309692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6789474487304688,
      "epoch": 6.41,
      "learning_rate": 3.180651221039449e-05,
      "loss": 0.825,
      "step": 7586,
      "task_loss": 0.9279670715332031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8696539402008057,
      "epoch": 6.41,
      "learning_rate": 3.180338134001252e-05,
      "loss": 0.8243,
      "step": 7587,
      "task_loss": 1.3673352003097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8100711107254028,
      "epoch": 6.41,
      "learning_rate": 3.180025046963056e-05,
      "loss": 0.6907,
      "step": 7588,
      "task_loss": 0.9283299446105957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8278863430023193,
      "epoch": 6.41,
      "learning_rate": 3.179711959924859e-05,
      "loss": 0.8731,
      "step": 7589,
      "task_loss": 1.0366407632827759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8958315849304199,
      "epoch": 6.42,
      "learning_rate": 3.179398872886663e-05,
      "loss": 0.7144,
      "step": 7590,
      "task_loss": 1.1317579746246338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4662649929523468,
      "epoch": 6.42,
      "learning_rate": 3.179085785848466e-05,
      "loss": 0.6585,
      "step": 7591,
      "task_loss": 0.9184021353721619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5793616771697998,
      "epoch": 6.42,
      "learning_rate": 3.17877269881027e-05,
      "loss": 0.8722,
      "step": 7592,
      "task_loss": 0.34505495429039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.768463134765625,
      "epoch": 6.42,
      "learning_rate": 3.178459611772073e-05,
      "loss": 0.7462,
      "step": 7593,
      "task_loss": 0.5643362998962402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8710842132568359,
      "epoch": 6.42,
      "learning_rate": 3.178146524733876e-05,
      "loss": 0.9484,
      "step": 7594,
      "task_loss": 1.6717013120651245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6361879110336304,
      "epoch": 6.42,
      "learning_rate": 3.17783343769568e-05,
      "loss": 0.6518,
      "step": 7595,
      "task_loss": 1.3739758729934692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6814865469932556,
      "epoch": 6.42,
      "learning_rate": 3.177520350657483e-05,
      "loss": 0.9102,
      "step": 7596,
      "task_loss": 0.4365799129009247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2005712985992432,
      "epoch": 6.42,
      "learning_rate": 3.1772072636192864e-05,
      "loss": 1.0648,
      "step": 7597,
      "task_loss": 1.5192835330963135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44751280546188354,
      "epoch": 6.42,
      "learning_rate": 3.1768941765810896e-05,
      "loss": 0.7189,
      "step": 7598,
      "task_loss": 0.419102281332016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.708838939666748,
      "epoch": 6.42,
      "learning_rate": 3.1765810895428934e-05,
      "loss": 0.6969,
      "step": 7599,
      "task_loss": 1.6274259090423584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0263341665267944,
      "epoch": 6.42,
      "learning_rate": 3.1762680025046966e-05,
      "loss": 0.9435,
      "step": 7600,
      "task_loss": 1.2311675548553467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9407000541687012,
      "epoch": 6.42,
      "learning_rate": 3.1759549154665e-05,
      "loss": 0.538,
      "step": 7601,
      "task_loss": 2.0963380336761475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5310513377189636,
      "epoch": 6.43,
      "learning_rate": 3.1756418284283036e-05,
      "loss": 0.5617,
      "step": 7602,
      "task_loss": 0.5020774006843567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8507021069526672,
      "epoch": 6.43,
      "learning_rate": 3.175328741390107e-05,
      "loss": 0.979,
      "step": 7603,
      "task_loss": 0.4415615499019623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7347816824913025,
      "epoch": 6.43,
      "learning_rate": 3.17501565435191e-05,
      "loss": 0.777,
      "step": 7604,
      "task_loss": 0.9635474681854248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.008908987045288,
      "epoch": 6.43,
      "learning_rate": 3.174702567313713e-05,
      "loss": 0.9819,
      "step": 7605,
      "task_loss": 1.0376302003860474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6438332200050354,
      "epoch": 6.43,
      "learning_rate": 3.174389480275517e-05,
      "loss": 0.6052,
      "step": 7606,
      "task_loss": 0.6926084160804749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9981083869934082,
      "epoch": 6.43,
      "learning_rate": 3.17407639323732e-05,
      "loss": 0.7184,
      "step": 7607,
      "task_loss": 1.5815067291259766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8608183860778809,
      "epoch": 6.43,
      "learning_rate": 3.1737633061991234e-05,
      "loss": 0.6853,
      "step": 7608,
      "task_loss": 0.8194525241851807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9944292306900024,
      "epoch": 6.43,
      "learning_rate": 3.1734502191609266e-05,
      "loss": 0.7575,
      "step": 7609,
      "task_loss": 1.4851810932159424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5872108936309814,
      "epoch": 6.43,
      "learning_rate": 3.1731371321227304e-05,
      "loss": 0.8011,
      "step": 7610,
      "task_loss": 1.1443538665771484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.566986083984375,
      "epoch": 6.43,
      "learning_rate": 3.1728240450845336e-05,
      "loss": 0.6196,
      "step": 7611,
      "task_loss": 1.6337507963180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5238946080207825,
      "epoch": 6.43,
      "learning_rate": 3.172510958046337e-05,
      "loss": 0.7675,
      "step": 7612,
      "task_loss": 0.8925831317901611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9375196695327759,
      "epoch": 6.44,
      "learning_rate": 3.17219787100814e-05,
      "loss": 0.7234,
      "step": 7613,
      "task_loss": 0.8456355929374695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9920738339424133,
      "epoch": 6.44,
      "learning_rate": 3.171884783969944e-05,
      "loss": 0.9597,
      "step": 7614,
      "task_loss": 1.1556593179702759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9688533544540405,
      "epoch": 6.44,
      "learning_rate": 3.171571696931747e-05,
      "loss": 1.0826,
      "step": 7615,
      "task_loss": 0.993739902973175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7793323993682861,
      "epoch": 6.44,
      "learning_rate": 3.17125860989355e-05,
      "loss": 0.7977,
      "step": 7616,
      "task_loss": 1.2173138856887817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6903035044670105,
      "epoch": 6.44,
      "learning_rate": 3.170945522855354e-05,
      "loss": 0.7685,
      "step": 7617,
      "task_loss": 0.6263490915298462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.941961944103241,
      "epoch": 6.44,
      "learning_rate": 3.170632435817157e-05,
      "loss": 0.8258,
      "step": 7618,
      "task_loss": 1.0879722833633423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5605208873748779,
      "epoch": 6.44,
      "learning_rate": 3.1703193487789604e-05,
      "loss": 0.7409,
      "step": 7619,
      "task_loss": 0.9493563771247864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.666745662689209,
      "epoch": 6.44,
      "learning_rate": 3.1700062617407636e-05,
      "loss": 0.7948,
      "step": 7620,
      "task_loss": 1.4253982305526733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8872570395469666,
      "epoch": 6.44,
      "learning_rate": 3.1696931747025674e-05,
      "loss": 0.6138,
      "step": 7621,
      "task_loss": 0.4962390959262848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6745941638946533,
      "epoch": 6.44,
      "learning_rate": 3.1693800876643706e-05,
      "loss": 0.7934,
      "step": 7622,
      "task_loss": 1.2599090337753296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5424239635467529,
      "epoch": 6.44,
      "learning_rate": 3.1690670006261745e-05,
      "loss": 0.8059,
      "step": 7623,
      "task_loss": 1.1501002311706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9772013425827026,
      "epoch": 6.44,
      "learning_rate": 3.1687539135879776e-05,
      "loss": 0.6765,
      "step": 7624,
      "task_loss": 0.5244808793067932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5627895593643188,
      "epoch": 6.45,
      "learning_rate": 3.168440826549781e-05,
      "loss": 0.9064,
      "step": 7625,
      "task_loss": 0.6678546071052551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6590093374252319,
      "epoch": 6.45,
      "learning_rate": 3.168127739511585e-05,
      "loss": 0.617,
      "step": 7626,
      "task_loss": 0.8872880339622498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8041719198226929,
      "epoch": 6.45,
      "learning_rate": 3.167814652473388e-05,
      "loss": 0.8297,
      "step": 7627,
      "task_loss": 1.1659132242202759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9974463582038879,
      "epoch": 6.45,
      "learning_rate": 3.167501565435192e-05,
      "loss": 0.8277,
      "step": 7628,
      "task_loss": 1.4033927917480469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6049997806549072,
      "epoch": 6.45,
      "learning_rate": 3.167188478396995e-05,
      "loss": 0.6341,
      "step": 7629,
      "task_loss": 0.5362334847450256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7042418122291565,
      "epoch": 6.45,
      "learning_rate": 3.166875391358798e-05,
      "loss": 0.7639,
      "step": 7630,
      "task_loss": 0.37747564911842346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5127112865447998,
      "epoch": 6.45,
      "learning_rate": 3.166562304320601e-05,
      "loss": 0.6196,
      "step": 7631,
      "task_loss": 0.3362566828727722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6184456944465637,
      "epoch": 6.45,
      "learning_rate": 3.166249217282405e-05,
      "loss": 0.8701,
      "step": 7632,
      "task_loss": 0.8504531979560852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8691563606262207,
      "epoch": 6.45,
      "learning_rate": 3.165936130244208e-05,
      "loss": 0.616,
      "step": 7633,
      "task_loss": 0.26721906661987305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7801335453987122,
      "epoch": 6.45,
      "learning_rate": 3.1656230432060114e-05,
      "loss": 0.725,
      "step": 7634,
      "task_loss": 0.9962859749794006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7143505215644836,
      "epoch": 6.45,
      "learning_rate": 3.1653099561678146e-05,
      "loss": 0.7898,
      "step": 7635,
      "task_loss": 0.6744329929351807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9348138570785522,
      "epoch": 6.45,
      "learning_rate": 3.1649968691296185e-05,
      "loss": 0.7609,
      "step": 7636,
      "task_loss": 0.6552948355674744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4329158365726471,
      "epoch": 6.46,
      "learning_rate": 3.1646837820914217e-05,
      "loss": 0.712,
      "step": 7637,
      "task_loss": 0.029787909239530563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.827167809009552,
      "epoch": 6.46,
      "learning_rate": 3.164370695053225e-05,
      "loss": 0.7342,
      "step": 7638,
      "task_loss": 1.9862949848175049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9012694358825684,
      "epoch": 6.46,
      "learning_rate": 3.164057608015029e-05,
      "loss": 1.1292,
      "step": 7639,
      "task_loss": 0.3677302300930023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4041471481323242,
      "epoch": 6.46,
      "learning_rate": 3.163744520976832e-05,
      "loss": 0.6802,
      "step": 7640,
      "task_loss": 0.6890875697135925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9831558465957642,
      "epoch": 6.46,
      "learning_rate": 3.163431433938635e-05,
      "loss": 0.7098,
      "step": 7641,
      "task_loss": 1.2324531078338623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1411819458007812,
      "epoch": 6.46,
      "learning_rate": 3.163118346900438e-05,
      "loss": 0.7693,
      "step": 7642,
      "task_loss": 0.5828860402107239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1715357303619385,
      "epoch": 6.46,
      "learning_rate": 3.162805259862242e-05,
      "loss": 0.988,
      "step": 7643,
      "task_loss": 0.8240180015563965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6314629316329956,
      "epoch": 6.46,
      "learning_rate": 3.162492172824045e-05,
      "loss": 0.7242,
      "step": 7644,
      "task_loss": 0.5874351263046265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.830039381980896,
      "epoch": 6.46,
      "learning_rate": 3.1621790857858484e-05,
      "loss": 0.7398,
      "step": 7645,
      "task_loss": 0.841687798500061
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0663511753082275,
      "epoch": 6.46,
      "learning_rate": 3.1618659987476516e-05,
      "loss": 0.9648,
      "step": 7646,
      "task_loss": 0.630853533744812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9221290349960327,
      "epoch": 6.46,
      "learning_rate": 3.1615529117094555e-05,
      "loss": 0.7259,
      "step": 7647,
      "task_loss": 0.5431566834449768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8596539497375488,
      "epoch": 6.46,
      "learning_rate": 3.1612398246712586e-05,
      "loss": 0.595,
      "step": 7648,
      "task_loss": 0.20980525016784668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1265596151351929,
      "epoch": 6.47,
      "learning_rate": 3.160926737633062e-05,
      "loss": 0.758,
      "step": 7649,
      "task_loss": 0.5243829488754272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5225988626480103,
      "epoch": 6.47,
      "learning_rate": 3.160613650594865e-05,
      "loss": 0.7085,
      "step": 7650,
      "task_loss": 0.44991764426231384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6893805861473083,
      "epoch": 6.47,
      "learning_rate": 3.160300563556669e-05,
      "loss": 0.7527,
      "step": 7651,
      "task_loss": 0.5876893997192383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7877744436264038,
      "epoch": 6.47,
      "learning_rate": 3.159987476518472e-05,
      "loss": 0.7839,
      "step": 7652,
      "task_loss": 0.9410611391067505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4869353473186493,
      "epoch": 6.47,
      "learning_rate": 3.159674389480275e-05,
      "loss": 0.704,
      "step": 7653,
      "task_loss": 0.4039267897605896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9674853682518005,
      "epoch": 6.47,
      "learning_rate": 3.159361302442079e-05,
      "loss": 0.8921,
      "step": 7654,
      "task_loss": 0.44126829504966736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0483808517456055,
      "epoch": 6.47,
      "learning_rate": 3.159048215403882e-05,
      "loss": 0.918,
      "step": 7655,
      "task_loss": 1.101696252822876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9213892221450806,
      "epoch": 6.47,
      "learning_rate": 3.1587351283656854e-05,
      "loss": 0.6684,
      "step": 7656,
      "task_loss": 2.034076452255249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0082134008407593,
      "epoch": 6.47,
      "learning_rate": 3.158422041327489e-05,
      "loss": 1.0081,
      "step": 7657,
      "task_loss": 1.1376502513885498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0821309089660645,
      "epoch": 6.47,
      "learning_rate": 3.1581089542892925e-05,
      "loss": 0.9256,
      "step": 7658,
      "task_loss": 1.708998441696167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5553170442581177,
      "epoch": 6.47,
      "learning_rate": 3.157795867251096e-05,
      "loss": 0.5726,
      "step": 7659,
      "task_loss": 0.7550135850906372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5976896286010742,
      "epoch": 6.47,
      "learning_rate": 3.1574827802128995e-05,
      "loss": 0.7492,
      "step": 7660,
      "task_loss": 0.4778181314468384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46948477625846863,
      "epoch": 6.48,
      "learning_rate": 3.157169693174703e-05,
      "loss": 0.5647,
      "step": 7661,
      "task_loss": 1.0257878303527832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49179941415786743,
      "epoch": 6.48,
      "learning_rate": 3.1568566061365065e-05,
      "loss": 0.5881,
      "step": 7662,
      "task_loss": 0.4419666826725006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46895888447761536,
      "epoch": 6.48,
      "learning_rate": 3.15654351909831e-05,
      "loss": 0.5469,
      "step": 7663,
      "task_loss": 0.2538011372089386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8366434574127197,
      "epoch": 6.48,
      "learning_rate": 3.156230432060113e-05,
      "loss": 0.9224,
      "step": 7664,
      "task_loss": 1.8677151203155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0663557052612305,
      "epoch": 6.48,
      "learning_rate": 3.155917345021917e-05,
      "loss": 0.8315,
      "step": 7665,
      "task_loss": 1.2807142734527588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.749636173248291,
      "epoch": 6.48,
      "learning_rate": 3.15560425798372e-05,
      "loss": 0.7416,
      "step": 7666,
      "task_loss": 0.789298415184021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6270514726638794,
      "epoch": 6.48,
      "learning_rate": 3.155291170945523e-05,
      "loss": 0.5969,
      "step": 7667,
      "task_loss": 0.40874233841896057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9139413237571716,
      "epoch": 6.48,
      "learning_rate": 3.154978083907326e-05,
      "loss": 0.6524,
      "step": 7668,
      "task_loss": 0.9401371479034424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5629290342330933,
      "epoch": 6.48,
      "learning_rate": 3.15466499686913e-05,
      "loss": 0.6412,
      "step": 7669,
      "task_loss": 0.5256693959236145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7415757179260254,
      "epoch": 6.48,
      "learning_rate": 3.154351909830933e-05,
      "loss": 0.6117,
      "step": 7670,
      "task_loss": 0.9132529497146606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7528166770935059,
      "epoch": 6.48,
      "learning_rate": 3.1540388227927365e-05,
      "loss": 1.0208,
      "step": 7671,
      "task_loss": 0.6377136707305908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8992076516151428,
      "epoch": 6.48,
      "learning_rate": 3.15372573575454e-05,
      "loss": 0.8354,
      "step": 7672,
      "task_loss": 1.1065391302108765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4487900733947754,
      "epoch": 6.49,
      "learning_rate": 3.1534126487163435e-05,
      "loss": 0.6187,
      "step": 7673,
      "task_loss": 0.244768425822258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0532032251358032,
      "epoch": 6.49,
      "learning_rate": 3.153099561678147e-05,
      "loss": 0.9628,
      "step": 7674,
      "task_loss": 0.5893939137458801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6598324775695801,
      "epoch": 6.49,
      "learning_rate": 3.15278647463995e-05,
      "loss": 0.8505,
      "step": 7675,
      "task_loss": 0.6305468678474426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6039859652519226,
      "epoch": 6.49,
      "learning_rate": 3.152473387601754e-05,
      "loss": 0.7191,
      "step": 7676,
      "task_loss": 0.5010570883750916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9106802344322205,
      "epoch": 6.49,
      "learning_rate": 3.152160300563557e-05,
      "loss": 0.8253,
      "step": 7677,
      "task_loss": 0.5663142800331116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7352885007858276,
      "epoch": 6.49,
      "learning_rate": 3.15184721352536e-05,
      "loss": 0.8824,
      "step": 7678,
      "task_loss": 0.5396860241889954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2876198291778564,
      "epoch": 6.49,
      "learning_rate": 3.151534126487163e-05,
      "loss": 0.9093,
      "step": 7679,
      "task_loss": 1.0494147539138794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6980348825454712,
      "epoch": 6.49,
      "learning_rate": 3.151221039448967e-05,
      "loss": 0.7361,
      "step": 7680,
      "task_loss": 0.9117630124092102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46353551745414734,
      "epoch": 6.49,
      "learning_rate": 3.15090795241077e-05,
      "loss": 0.6334,
      "step": 7681,
      "task_loss": 0.36286160349845886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7133407592773438,
      "epoch": 6.49,
      "learning_rate": 3.1505948653725735e-05,
      "loss": 0.8921,
      "step": 7682,
      "task_loss": 0.8625688552856445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.513655424118042,
      "epoch": 6.49,
      "learning_rate": 3.1502817783343767e-05,
      "loss": 0.7353,
      "step": 7683,
      "task_loss": 0.10599762201309204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7369003295898438,
      "epoch": 6.5,
      "learning_rate": 3.1499686912961805e-05,
      "loss": 0.776,
      "step": 7684,
      "task_loss": 1.2413831949234009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8954565525054932,
      "epoch": 6.5,
      "learning_rate": 3.149655604257984e-05,
      "loss": 0.7492,
      "step": 7685,
      "task_loss": 1.06400728225708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6053361296653748,
      "epoch": 6.5,
      "learning_rate": 3.149342517219787e-05,
      "loss": 0.6993,
      "step": 7686,
      "task_loss": 0.5562010407447815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9251982569694519,
      "epoch": 6.5,
      "learning_rate": 3.14902943018159e-05,
      "loss": 0.8112,
      "step": 7687,
      "task_loss": 0.9100286960601807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7710068225860596,
      "epoch": 6.5,
      "learning_rate": 3.148716343143394e-05,
      "loss": 0.7348,
      "step": 7688,
      "task_loss": 0.6958635449409485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33464211225509644,
      "epoch": 6.5,
      "learning_rate": 3.148403256105197e-05,
      "loss": 0.6644,
      "step": 7689,
      "task_loss": 0.9942583441734314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8195614814758301,
      "epoch": 6.5,
      "learning_rate": 3.148090169067001e-05,
      "loss": 0.7457,
      "step": 7690,
      "task_loss": 1.2663259506225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2742037773132324,
      "epoch": 6.5,
      "learning_rate": 3.147777082028804e-05,
      "loss": 0.7492,
      "step": 7691,
      "task_loss": 1.9614146947860718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4903832674026489,
      "epoch": 6.5,
      "learning_rate": 3.147463994990607e-05,
      "loss": 0.7707,
      "step": 7692,
      "task_loss": 0.1800331324338913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9774162769317627,
      "epoch": 6.5,
      "learning_rate": 3.147150907952411e-05,
      "loss": 0.7508,
      "step": 7693,
      "task_loss": 0.8215064406394958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4994962811470032,
      "epoch": 6.5,
      "learning_rate": 3.146837820914214e-05,
      "loss": 0.5546,
      "step": 7694,
      "task_loss": 0.4344640374183655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5589737892150879,
      "epoch": 6.5,
      "learning_rate": 3.146524733876018e-05,
      "loss": 0.7766,
      "step": 7695,
      "task_loss": 0.491283118724823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48162007331848145,
      "epoch": 6.51,
      "learning_rate": 3.1462116468378214e-05,
      "loss": 0.8429,
      "step": 7696,
      "task_loss": 1.0376139879226685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.830075740814209,
      "epoch": 6.51,
      "learning_rate": 3.1458985597996245e-05,
      "loss": 0.8876,
      "step": 7697,
      "task_loss": 1.3519269227981567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5865181684494019,
      "epoch": 6.51,
      "learning_rate": 3.145585472761428e-05,
      "loss": 0.7435,
      "step": 7698,
      "task_loss": 1.0197758674621582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5128817558288574,
      "epoch": 6.51,
      "learning_rate": 3.1452723857232316e-05,
      "loss": 0.7003,
      "step": 7699,
      "task_loss": 0.3518710732460022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5181410312652588,
      "epoch": 6.51,
      "learning_rate": 3.144959298685035e-05,
      "loss": 0.5594,
      "step": 7700,
      "task_loss": 0.4581563174724579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0079748630523682,
      "epoch": 6.51,
      "learning_rate": 3.144646211646838e-05,
      "loss": 0.9808,
      "step": 7701,
      "task_loss": 0.9497845768928528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7430627346038818,
      "epoch": 6.51,
      "learning_rate": 3.144333124608642e-05,
      "loss": 0.6471,
      "step": 7702,
      "task_loss": 1.047404170036316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5883327722549438,
      "epoch": 6.51,
      "learning_rate": 3.144020037570445e-05,
      "loss": 0.781,
      "step": 7703,
      "task_loss": 0.6532547473907471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.750178873538971,
      "epoch": 6.51,
      "learning_rate": 3.143706950532248e-05,
      "loss": 0.9124,
      "step": 7704,
      "task_loss": 0.9133567810058594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9273213148117065,
      "epoch": 6.51,
      "learning_rate": 3.143393863494051e-05,
      "loss": 0.7678,
      "step": 7705,
      "task_loss": 0.7650607824325562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7744037508964539,
      "epoch": 6.51,
      "learning_rate": 3.143080776455855e-05,
      "loss": 0.6425,
      "step": 7706,
      "task_loss": 0.3944385051727295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5522055625915527,
      "epoch": 6.51,
      "learning_rate": 3.1427676894176584e-05,
      "loss": 0.6028,
      "step": 7707,
      "task_loss": 0.7533243298530579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8796084523200989,
      "epoch": 6.52,
      "learning_rate": 3.1424546023794615e-05,
      "loss": 0.9175,
      "step": 7708,
      "task_loss": 1.4236035346984863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0031269788742065,
      "epoch": 6.52,
      "learning_rate": 3.142141515341265e-05,
      "loss": 0.6703,
      "step": 7709,
      "task_loss": 0.8942893147468567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8623170852661133,
      "epoch": 6.52,
      "learning_rate": 3.1418284283030686e-05,
      "loss": 0.7519,
      "step": 7710,
      "task_loss": 1.4656397104263306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9584095478057861,
      "epoch": 6.52,
      "learning_rate": 3.141515341264872e-05,
      "loss": 0.9479,
      "step": 7711,
      "task_loss": 0.31307482719421387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9017452001571655,
      "epoch": 6.52,
      "learning_rate": 3.141202254226675e-05,
      "loss": 0.9284,
      "step": 7712,
      "task_loss": 0.9922993183135986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6785460710525513,
      "epoch": 6.52,
      "learning_rate": 3.140889167188479e-05,
      "loss": 0.673,
      "step": 7713,
      "task_loss": 0.4498891830444336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8160339593887329,
      "epoch": 6.52,
      "learning_rate": 3.140576080150282e-05,
      "loss": 0.7005,
      "step": 7714,
      "task_loss": 0.5157793164253235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6815577745437622,
      "epoch": 6.52,
      "learning_rate": 3.140262993112085e-05,
      "loss": 0.7451,
      "step": 7715,
      "task_loss": 0.7760279178619385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8612475395202637,
      "epoch": 6.52,
      "learning_rate": 3.139949906073888e-05,
      "loss": 0.7164,
      "step": 7716,
      "task_loss": 0.5599210858345032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32469642162323,
      "epoch": 6.52,
      "learning_rate": 3.139636819035692e-05,
      "loss": 0.71,
      "step": 7717,
      "task_loss": 0.15821290016174316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6784681081771851,
      "epoch": 6.52,
      "learning_rate": 3.1393237319974953e-05,
      "loss": 0.8183,
      "step": 7718,
      "task_loss": 0.47446200251579285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0839258432388306,
      "epoch": 6.52,
      "learning_rate": 3.1390106449592985e-05,
      "loss": 0.9523,
      "step": 7719,
      "task_loss": 1.6752817630767822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6625052094459534,
      "epoch": 6.53,
      "learning_rate": 3.138697557921102e-05,
      "loss": 0.7205,
      "step": 7720,
      "task_loss": 1.0914117097854614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9562808275222778,
      "epoch": 6.53,
      "learning_rate": 3.1383844708829056e-05,
      "loss": 0.9126,
      "step": 7721,
      "task_loss": 1.081510066986084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8557871580123901,
      "epoch": 6.53,
      "learning_rate": 3.138071383844709e-05,
      "loss": 0.9849,
      "step": 7722,
      "task_loss": 1.0480533838272095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3878188133239746,
      "epoch": 6.53,
      "learning_rate": 3.137758296806512e-05,
      "loss": 0.5018,
      "step": 7723,
      "task_loss": 0.17134755849838257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7676882147789001,
      "epoch": 6.53,
      "learning_rate": 3.137445209768316e-05,
      "loss": 0.7697,
      "step": 7724,
      "task_loss": 0.9138239026069641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0533292293548584,
      "epoch": 6.53,
      "learning_rate": 3.137132122730119e-05,
      "loss": 0.9483,
      "step": 7725,
      "task_loss": 1.0278276205062866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8130332231521606,
      "epoch": 6.53,
      "learning_rate": 3.136819035691923e-05,
      "loss": 0.6997,
      "step": 7726,
      "task_loss": 0.39819976687431335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0263824462890625,
      "epoch": 6.53,
      "learning_rate": 3.136505948653726e-05,
      "loss": 0.8113,
      "step": 7727,
      "task_loss": 0.9160223603248596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8794245719909668,
      "epoch": 6.53,
      "learning_rate": 3.136192861615529e-05,
      "loss": 0.6333,
      "step": 7728,
      "task_loss": 0.6194890737533569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4026062488555908,
      "epoch": 6.53,
      "learning_rate": 3.135879774577333e-05,
      "loss": 0.5676,
      "step": 7729,
      "task_loss": 1.026450753211975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7928111553192139,
      "epoch": 6.53,
      "learning_rate": 3.135566687539136e-05,
      "loss": 0.7768,
      "step": 7730,
      "task_loss": 0.20969247817993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7634894251823425,
      "epoch": 6.53,
      "learning_rate": 3.1352536005009394e-05,
      "loss": 0.7082,
      "step": 7731,
      "task_loss": 0.4123113751411438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5964085459709167,
      "epoch": 6.54,
      "learning_rate": 3.134940513462743e-05,
      "loss": 0.7565,
      "step": 7732,
      "task_loss": 0.8608435392379761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6422088742256165,
      "epoch": 6.54,
      "learning_rate": 3.1346274264245464e-05,
      "loss": 0.6775,
      "step": 7733,
      "task_loss": 0.4063192903995514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49834144115448,
      "epoch": 6.54,
      "learning_rate": 3.1343143393863496e-05,
      "loss": 0.6291,
      "step": 7734,
      "task_loss": 0.2229415476322174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5843074917793274,
      "epoch": 6.54,
      "learning_rate": 3.134001252348153e-05,
      "loss": 0.7315,
      "step": 7735,
      "task_loss": 0.4842022955417633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5895148515701294,
      "epoch": 6.54,
      "learning_rate": 3.1336881653099566e-05,
      "loss": 0.5233,
      "step": 7736,
      "task_loss": 1.0704126358032227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8733500242233276,
      "epoch": 6.54,
      "learning_rate": 3.13337507827176e-05,
      "loss": 0.7321,
      "step": 7737,
      "task_loss": 0.6463457942008972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0556710958480835,
      "epoch": 6.54,
      "learning_rate": 3.133061991233563e-05,
      "loss": 0.6531,
      "step": 7738,
      "task_loss": 0.5822784900665283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8000163435935974,
      "epoch": 6.54,
      "learning_rate": 3.132748904195367e-05,
      "loss": 0.6126,
      "step": 7739,
      "task_loss": 0.7553963661193848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5292446613311768,
      "epoch": 6.54,
      "learning_rate": 3.13243581715717e-05,
      "loss": 0.8158,
      "step": 7740,
      "task_loss": 0.6950765252113342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7849242687225342,
      "epoch": 6.54,
      "learning_rate": 3.132122730118973e-05,
      "loss": 0.7061,
      "step": 7741,
      "task_loss": 1.5388906002044678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3946203887462616,
      "epoch": 6.54,
      "learning_rate": 3.1318096430807764e-05,
      "loss": 0.5342,
      "step": 7742,
      "task_loss": 0.33375680446624756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4591425955295563,
      "epoch": 6.54,
      "learning_rate": 3.13149655604258e-05,
      "loss": 0.703,
      "step": 7743,
      "task_loss": 0.42968741059303284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9310051202774048,
      "epoch": 6.55,
      "learning_rate": 3.1311834690043834e-05,
      "loss": 0.6976,
      "step": 7744,
      "task_loss": 0.33928775787353516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7622404098510742,
      "epoch": 6.55,
      "learning_rate": 3.1308703819661866e-05,
      "loss": 0.8202,
      "step": 7745,
      "task_loss": 0.5207499265670776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1908997297286987,
      "epoch": 6.55,
      "learning_rate": 3.13055729492799e-05,
      "loss": 1.1874,
      "step": 7746,
      "task_loss": 0.6128979921340942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0953774452209473,
      "epoch": 6.55,
      "learning_rate": 3.1302442078897936e-05,
      "loss": 0.917,
      "step": 7747,
      "task_loss": 1.0828208923339844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7030486464500427,
      "epoch": 6.55,
      "learning_rate": 3.129931120851597e-05,
      "loss": 0.9153,
      "step": 7748,
      "task_loss": 1.5283172130584717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8423489332199097,
      "epoch": 6.55,
      "learning_rate": 3.1296180338134e-05,
      "loss": 0.9133,
      "step": 7749,
      "task_loss": 0.6184724569320679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.592064380645752,
      "epoch": 6.55,
      "learning_rate": 3.129304946775204e-05,
      "loss": 0.6677,
      "step": 7750,
      "task_loss": 1.16681969165802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6282076835632324,
      "epoch": 6.55,
      "learning_rate": 3.128991859737007e-05,
      "loss": 0.7233,
      "step": 7751,
      "task_loss": 0.34013813734054565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1212778091430664,
      "epoch": 6.55,
      "learning_rate": 3.12867877269881e-05,
      "loss": 0.8862,
      "step": 7752,
      "task_loss": 0.885981559753418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6421414613723755,
      "epoch": 6.55,
      "learning_rate": 3.1283656856606134e-05,
      "loss": 0.9333,
      "step": 7753,
      "task_loss": 0.8426740169525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.909177839756012,
      "epoch": 6.55,
      "learning_rate": 3.128052598622417e-05,
      "loss": 0.8068,
      "step": 7754,
      "task_loss": 0.9784224629402161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6276123523712158,
      "epoch": 6.56,
      "learning_rate": 3.1277395115842204e-05,
      "loss": 0.693,
      "step": 7755,
      "task_loss": 0.2930087149143219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6698158383369446,
      "epoch": 6.56,
      "learning_rate": 3.1274264245460236e-05,
      "loss": 0.805,
      "step": 7756,
      "task_loss": 1.1276750564575195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5771065950393677,
      "epoch": 6.56,
      "learning_rate": 3.1271133375078274e-05,
      "loss": 0.8536,
      "step": 7757,
      "task_loss": 0.8202257752418518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8355543613433838,
      "epoch": 6.56,
      "learning_rate": 3.1268002504696306e-05,
      "loss": 0.7671,
      "step": 7758,
      "task_loss": 0.7898392677307129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4973604679107666,
      "epoch": 6.56,
      "learning_rate": 3.126487163431434e-05,
      "loss": 0.5626,
      "step": 7759,
      "task_loss": 0.10328813642263412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6982392072677612,
      "epoch": 6.56,
      "learning_rate": 3.1261740763932376e-05,
      "loss": 0.8467,
      "step": 7760,
      "task_loss": 0.7997664213180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6570202708244324,
      "epoch": 6.56,
      "learning_rate": 3.125860989355041e-05,
      "loss": 0.8553,
      "step": 7761,
      "task_loss": 1.2264115810394287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6291763782501221,
      "epoch": 6.56,
      "learning_rate": 3.125547902316845e-05,
      "loss": 0.6786,
      "step": 7762,
      "task_loss": 0.45492851734161377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7704598903656006,
      "epoch": 6.56,
      "learning_rate": 3.125234815278648e-05,
      "loss": 0.7773,
      "step": 7763,
      "task_loss": 1.3052699565887451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5199309587478638,
      "epoch": 6.56,
      "learning_rate": 3.124921728240451e-05,
      "loss": 0.5639,
      "step": 7764,
      "task_loss": 0.6199285387992859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.649483859539032,
      "epoch": 6.56,
      "learning_rate": 3.124608641202255e-05,
      "loss": 0.9837,
      "step": 7765,
      "task_loss": 1.2204707860946655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6507588028907776,
      "epoch": 6.56,
      "learning_rate": 3.124295554164058e-05,
      "loss": 0.8115,
      "step": 7766,
      "task_loss": 0.28513821959495544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37810662388801575,
      "epoch": 6.57,
      "learning_rate": 3.123982467125861e-05,
      "loss": 0.7091,
      "step": 7767,
      "task_loss": 0.2752509117126465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6285630464553833,
      "epoch": 6.57,
      "learning_rate": 3.1236693800876644e-05,
      "loss": 0.797,
      "step": 7768,
      "task_loss": 0.301032692193985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37722986936569214,
      "epoch": 6.57,
      "learning_rate": 3.123356293049468e-05,
      "loss": 0.5529,
      "step": 7769,
      "task_loss": 0.026602042838931084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7910642027854919,
      "epoch": 6.57,
      "learning_rate": 3.1230432060112715e-05,
      "loss": 0.8099,
      "step": 7770,
      "task_loss": 0.5064657926559448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0066243410110474,
      "epoch": 6.57,
      "learning_rate": 3.1227301189730746e-05,
      "loss": 0.9155,
      "step": 7771,
      "task_loss": 1.0802581310272217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4929963946342468,
      "epoch": 6.57,
      "learning_rate": 3.122417031934878e-05,
      "loss": 0.6306,
      "step": 7772,
      "task_loss": 0.8994061350822449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6810818910598755,
      "epoch": 6.57,
      "learning_rate": 3.122103944896682e-05,
      "loss": 1.0018,
      "step": 7773,
      "task_loss": 1.4307273626327515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4641556441783905,
      "epoch": 6.57,
      "learning_rate": 3.121790857858485e-05,
      "loss": 0.7404,
      "step": 7774,
      "task_loss": 0.6032471060752869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7676602602005005,
      "epoch": 6.57,
      "learning_rate": 3.121477770820288e-05,
      "loss": 0.693,
      "step": 7775,
      "task_loss": 1.1913480758666992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6716569662094116,
      "epoch": 6.57,
      "learning_rate": 3.121164683782092e-05,
      "loss": 0.7558,
      "step": 7776,
      "task_loss": 0.5662922263145447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6996621489524841,
      "epoch": 6.57,
      "learning_rate": 3.120851596743895e-05,
      "loss": 0.6461,
      "step": 7777,
      "task_loss": 0.8868237137794495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6807137727737427,
      "epoch": 6.57,
      "learning_rate": 3.120538509705698e-05,
      "loss": 0.6815,
      "step": 7778,
      "task_loss": 2.1811330318450928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5409700870513916,
      "epoch": 6.58,
      "learning_rate": 3.1202254226675014e-05,
      "loss": 0.797,
      "step": 7779,
      "task_loss": 0.6231014728546143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9853704571723938,
      "epoch": 6.58,
      "learning_rate": 3.119912335629305e-05,
      "loss": 0.7112,
      "step": 7780,
      "task_loss": 0.6288038492202759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.817145824432373,
      "epoch": 6.58,
      "learning_rate": 3.1195992485911084e-05,
      "loss": 0.8283,
      "step": 7781,
      "task_loss": 0.42451825737953186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7505125999450684,
      "epoch": 6.58,
      "learning_rate": 3.1192861615529116e-05,
      "loss": 0.882,
      "step": 7782,
      "task_loss": 0.32465946674346924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0316979885101318,
      "epoch": 6.58,
      "learning_rate": 3.118973074514715e-05,
      "loss": 0.6993,
      "step": 7783,
      "task_loss": 1.2979589700698853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8815667629241943,
      "epoch": 6.58,
      "learning_rate": 3.1186599874765187e-05,
      "loss": 1.0177,
      "step": 7784,
      "task_loss": 1.1194361448287964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47384554147720337,
      "epoch": 6.58,
      "learning_rate": 3.118346900438322e-05,
      "loss": 0.6327,
      "step": 7785,
      "task_loss": 0.5807791948318481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8282086253166199,
      "epoch": 6.58,
      "learning_rate": 3.118033813400125e-05,
      "loss": 0.8522,
      "step": 7786,
      "task_loss": 0.4251169264316559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.5093570947647095,
      "epoch": 6.58,
      "learning_rate": 3.117720726361929e-05,
      "loss": 0.9348,
      "step": 7787,
      "task_loss": 2.3874728679656982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7717408537864685,
      "epoch": 6.58,
      "learning_rate": 3.117407639323732e-05,
      "loss": 0.7361,
      "step": 7788,
      "task_loss": 1.1861200332641602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4925551414489746,
      "epoch": 6.58,
      "learning_rate": 3.117094552285535e-05,
      "loss": 0.542,
      "step": 7789,
      "task_loss": 0.5556874871253967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9843547344207764,
      "epoch": 6.58,
      "learning_rate": 3.1167814652473384e-05,
      "loss": 0.8677,
      "step": 7790,
      "task_loss": 0.6794679760932922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5809696912765503,
      "epoch": 6.59,
      "learning_rate": 3.116468378209142e-05,
      "loss": 0.6588,
      "step": 7791,
      "task_loss": 0.9491599202156067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2462503910064697,
      "epoch": 6.59,
      "learning_rate": 3.1161552911709454e-05,
      "loss": 0.9286,
      "step": 7792,
      "task_loss": 1.3562273979187012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0422987937927246,
      "epoch": 6.59,
      "learning_rate": 3.115842204132749e-05,
      "loss": 0.7465,
      "step": 7793,
      "task_loss": 0.6310070753097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.012008786201477,
      "epoch": 6.59,
      "learning_rate": 3.1155291170945525e-05,
      "loss": 0.7571,
      "step": 7794,
      "task_loss": 0.5945205092430115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5800241231918335,
      "epoch": 6.59,
      "learning_rate": 3.1152160300563556e-05,
      "loss": 0.847,
      "step": 7795,
      "task_loss": 0.6979014873504639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6636587381362915,
      "epoch": 6.59,
      "learning_rate": 3.1149029430181595e-05,
      "loss": 0.6557,
      "step": 7796,
      "task_loss": 0.8113368153572083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5897580981254578,
      "epoch": 6.59,
      "learning_rate": 3.114589855979963e-05,
      "loss": 0.6969,
      "step": 7797,
      "task_loss": 0.4159582257270813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5598008632659912,
      "epoch": 6.59,
      "learning_rate": 3.1142767689417665e-05,
      "loss": 0.7063,
      "step": 7798,
      "task_loss": 0.5725383162498474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.445076048374176,
      "epoch": 6.59,
      "learning_rate": 3.11396368190357e-05,
      "loss": 0.7453,
      "step": 7799,
      "task_loss": 0.5173043012619019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8305970430374146,
      "epoch": 6.59,
      "learning_rate": 3.113650594865373e-05,
      "loss": 0.7592,
      "step": 7800,
      "task_loss": 0.2392357587814331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7252662181854248,
      "epoch": 6.59,
      "learning_rate": 3.113337507827176e-05,
      "loss": 0.6894,
      "step": 7801,
      "task_loss": 0.8649057745933533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5937643051147461,
      "epoch": 6.59,
      "learning_rate": 3.11302442078898e-05,
      "loss": 0.7478,
      "step": 7802,
      "task_loss": 1.286636471748352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7974721789360046,
      "epoch": 6.6,
      "learning_rate": 3.112711333750783e-05,
      "loss": 0.8662,
      "step": 7803,
      "task_loss": 1.4945555925369263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7067269086837769,
      "epoch": 6.6,
      "learning_rate": 3.112398246712586e-05,
      "loss": 0.7206,
      "step": 7804,
      "task_loss": 0.6560543179512024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9145022630691528,
      "epoch": 6.6,
      "learning_rate": 3.1120851596743895e-05,
      "loss": 0.8666,
      "step": 7805,
      "task_loss": 1.6974306106567383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1147735118865967,
      "epoch": 6.6,
      "learning_rate": 3.111772072636193e-05,
      "loss": 0.9254,
      "step": 7806,
      "task_loss": 1.7146272659301758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.055774211883545,
      "epoch": 6.6,
      "learning_rate": 3.1114589855979965e-05,
      "loss": 0.7625,
      "step": 7807,
      "task_loss": 1.614280343055725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8186135292053223,
      "epoch": 6.6,
      "learning_rate": 3.1111458985598e-05,
      "loss": 0.6446,
      "step": 7808,
      "task_loss": 0.6049314141273499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6119240522384644,
      "epoch": 6.6,
      "learning_rate": 3.110832811521603e-05,
      "loss": 0.5591,
      "step": 7809,
      "task_loss": 1.458935022354126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3257405757904053,
      "epoch": 6.6,
      "learning_rate": 3.110519724483407e-05,
      "loss": 0.8412,
      "step": 7810,
      "task_loss": 0.7480639219284058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.009911060333252,
      "epoch": 6.6,
      "learning_rate": 3.11020663744521e-05,
      "loss": 0.8068,
      "step": 7811,
      "task_loss": 0.907606840133667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3180341422557831,
      "epoch": 6.6,
      "learning_rate": 3.109893550407013e-05,
      "loss": 0.6078,
      "step": 7812,
      "task_loss": 0.45485252141952515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5428030490875244,
      "epoch": 6.6,
      "learning_rate": 3.109580463368817e-05,
      "loss": 0.6704,
      "step": 7813,
      "task_loss": 0.22354021668434143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4580204486846924,
      "epoch": 6.6,
      "learning_rate": 3.10926737633062e-05,
      "loss": 0.6615,
      "step": 7814,
      "task_loss": 0.0581025555729866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6748038530349731,
      "epoch": 6.61,
      "learning_rate": 3.108954289292423e-05,
      "loss": 0.6704,
      "step": 7815,
      "task_loss": 1.4242591857910156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4912005066871643,
      "epoch": 6.61,
      "learning_rate": 3.1086412022542265e-05,
      "loss": 0.6126,
      "step": 7816,
      "task_loss": 0.15230980515480042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.741539478302002,
      "epoch": 6.61,
      "learning_rate": 3.10832811521603e-05,
      "loss": 0.7237,
      "step": 7817,
      "task_loss": 2.1263716220855713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6776713132858276,
      "epoch": 6.61,
      "learning_rate": 3.1080150281778335e-05,
      "loss": 0.7817,
      "step": 7818,
      "task_loss": 0.9083625674247742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7384053468704224,
      "epoch": 6.61,
      "learning_rate": 3.107701941139637e-05,
      "loss": 0.7134,
      "step": 7819,
      "task_loss": 0.4966283440589905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7532395124435425,
      "epoch": 6.61,
      "learning_rate": 3.10738885410144e-05,
      "loss": 0.6733,
      "step": 7820,
      "task_loss": 1.1035606861114502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9999198317527771,
      "epoch": 6.61,
      "learning_rate": 3.107075767063244e-05,
      "loss": 0.8278,
      "step": 7821,
      "task_loss": 0.81703120470047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8103848695755005,
      "epoch": 6.61,
      "learning_rate": 3.106762680025047e-05,
      "loss": 0.8363,
      "step": 7822,
      "task_loss": 0.6550906300544739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6558685302734375,
      "epoch": 6.61,
      "learning_rate": 3.10644959298685e-05,
      "loss": 0.7581,
      "step": 7823,
      "task_loss": 0.6165711283683777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6580954790115356,
      "epoch": 6.61,
      "learning_rate": 3.106136505948654e-05,
      "loss": 0.6653,
      "step": 7824,
      "task_loss": 0.8322805166244507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38331976532936096,
      "epoch": 6.61,
      "learning_rate": 3.105823418910457e-05,
      "loss": 0.48,
      "step": 7825,
      "task_loss": 0.18065746128559113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7441970109939575,
      "epoch": 6.61,
      "learning_rate": 3.10551033187226e-05,
      "loss": 0.8265,
      "step": 7826,
      "task_loss": 1.5507702827453613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1339428424835205,
      "epoch": 6.62,
      "learning_rate": 3.105197244834064e-05,
      "loss": 0.9891,
      "step": 7827,
      "task_loss": 0.9072702527046204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7895769476890564,
      "epoch": 6.62,
      "learning_rate": 3.104884157795867e-05,
      "loss": 0.8018,
      "step": 7828,
      "task_loss": 1.771973729133606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8070446848869324,
      "epoch": 6.62,
      "learning_rate": 3.104571070757671e-05,
      "loss": 0.8209,
      "step": 7829,
      "task_loss": 0.6095823049545288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5976200103759766,
      "epoch": 6.62,
      "learning_rate": 3.104257983719474e-05,
      "loss": 0.8164,
      "step": 7830,
      "task_loss": 0.4563678503036499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8954372406005859,
      "epoch": 6.62,
      "learning_rate": 3.1039448966812775e-05,
      "loss": 0.6156,
      "step": 7831,
      "task_loss": 1.2633955478668213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8336849212646484,
      "epoch": 6.62,
      "learning_rate": 3.1036318096430814e-05,
      "loss": 0.727,
      "step": 7832,
      "task_loss": 0.34747079014778137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3035629987716675,
      "epoch": 6.62,
      "learning_rate": 3.1033187226048845e-05,
      "loss": 0.7095,
      "step": 7833,
      "task_loss": 0.8001317977905273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6860249042510986,
      "epoch": 6.62,
      "learning_rate": 3.103005635566688e-05,
      "loss": 0.9005,
      "step": 7834,
      "task_loss": 0.37612733244895935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8491510152816772,
      "epoch": 6.62,
      "learning_rate": 3.1026925485284916e-05,
      "loss": 0.801,
      "step": 7835,
      "task_loss": 1.0654646158218384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.573403537273407,
      "epoch": 6.62,
      "learning_rate": 3.102379461490295e-05,
      "loss": 0.8897,
      "step": 7836,
      "task_loss": 0.7413607239723206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1847662925720215,
      "epoch": 6.62,
      "learning_rate": 3.102066374452098e-05,
      "loss": 0.9027,
      "step": 7837,
      "task_loss": 0.7340397834777832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.494746208190918,
      "epoch": 6.63,
      "learning_rate": 3.101753287413901e-05,
      "loss": 0.95,
      "step": 7838,
      "task_loss": 0.8388433456420898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7944983243942261,
      "epoch": 6.63,
      "learning_rate": 3.101440200375705e-05,
      "loss": 0.8105,
      "step": 7839,
      "task_loss": 1.4507156610488892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7479832768440247,
      "epoch": 6.63,
      "learning_rate": 3.101127113337508e-05,
      "loss": 0.6821,
      "step": 7840,
      "task_loss": 0.9795768857002258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30935439467430115,
      "epoch": 6.63,
      "learning_rate": 3.100814026299311e-05,
      "loss": 0.6102,
      "step": 7841,
      "task_loss": 0.03303993120789528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6686610579490662,
      "epoch": 6.63,
      "learning_rate": 3.1005009392611145e-05,
      "loss": 0.7911,
      "step": 7842,
      "task_loss": 0.6055296659469604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7549334764480591,
      "epoch": 6.63,
      "learning_rate": 3.1001878522229184e-05,
      "loss": 0.7868,
      "step": 7843,
      "task_loss": 1.056333065032959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0769237279891968,
      "epoch": 6.63,
      "learning_rate": 3.0998747651847215e-05,
      "loss": 0.7515,
      "step": 7844,
      "task_loss": 1.344021201133728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1956653594970703,
      "epoch": 6.63,
      "learning_rate": 3.099561678146525e-05,
      "loss": 0.9729,
      "step": 7845,
      "task_loss": 1.0827137231826782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1090543270111084,
      "epoch": 6.63,
      "learning_rate": 3.099248591108328e-05,
      "loss": 1.0009,
      "step": 7846,
      "task_loss": 2.294351816177368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.164046287536621,
      "epoch": 6.63,
      "learning_rate": 3.098935504070132e-05,
      "loss": 0.77,
      "step": 7847,
      "task_loss": 0.5658764839172363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6703422665596008,
      "epoch": 6.63,
      "learning_rate": 3.098622417031935e-05,
      "loss": 0.7102,
      "step": 7848,
      "task_loss": 0.8571425080299377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7830971479415894,
      "epoch": 6.63,
      "learning_rate": 3.098309329993738e-05,
      "loss": 0.7118,
      "step": 7849,
      "task_loss": 0.9499332308769226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5924041867256165,
      "epoch": 6.64,
      "learning_rate": 3.097996242955542e-05,
      "loss": 0.5809,
      "step": 7850,
      "task_loss": 1.1958281993865967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.7045538425445557,
      "epoch": 6.64,
      "learning_rate": 3.097683155917345e-05,
      "loss": 0.8583,
      "step": 7851,
      "task_loss": 1.0171397924423218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0536372661590576,
      "epoch": 6.64,
      "learning_rate": 3.097370068879148e-05,
      "loss": 0.8929,
      "step": 7852,
      "task_loss": 1.4715747833251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4510791301727295,
      "epoch": 6.64,
      "learning_rate": 3.0970569818409515e-05,
      "loss": 0.9185,
      "step": 7853,
      "task_loss": 1.2247133255004883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6445608735084534,
      "epoch": 6.64,
      "learning_rate": 3.0967438948027554e-05,
      "loss": 0.7364,
      "step": 7854,
      "task_loss": 0.15796324610710144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5720125436782837,
      "epoch": 6.64,
      "learning_rate": 3.0964308077645585e-05,
      "loss": 0.6302,
      "step": 7855,
      "task_loss": 0.6526627540588379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8593996167182922,
      "epoch": 6.64,
      "learning_rate": 3.096117720726362e-05,
      "loss": 0.8428,
      "step": 7856,
      "task_loss": 1.5648798942565918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6933846473693848,
      "epoch": 6.64,
      "learning_rate": 3.095804633688165e-05,
      "loss": 0.6324,
      "step": 7857,
      "task_loss": 0.19046542048454285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8903942108154297,
      "epoch": 6.64,
      "learning_rate": 3.095491546649969e-05,
      "loss": 0.9121,
      "step": 7858,
      "task_loss": 0.36920106410980225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3940043449401855,
      "epoch": 6.64,
      "learning_rate": 3.095178459611772e-05,
      "loss": 0.9585,
      "step": 7859,
      "task_loss": 1.3199647665023804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.665700376033783,
      "epoch": 6.64,
      "learning_rate": 3.094865372573576e-05,
      "loss": 0.7214,
      "step": 7860,
      "task_loss": 1.0405535697937012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39294159412384033,
      "epoch": 6.64,
      "learning_rate": 3.094552285535379e-05,
      "loss": 0.5998,
      "step": 7861,
      "task_loss": 0.0675031766295433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.01967191696167,
      "epoch": 6.65,
      "learning_rate": 3.094239198497182e-05,
      "loss": 0.9219,
      "step": 7862,
      "task_loss": 0.9841682314872742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5606961250305176,
      "epoch": 6.65,
      "learning_rate": 3.093926111458986e-05,
      "loss": 0.7567,
      "step": 7863,
      "task_loss": 0.7634813189506531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0704057216644287,
      "epoch": 6.65,
      "learning_rate": 3.093613024420789e-05,
      "loss": 0.7604,
      "step": 7864,
      "task_loss": 1.0676367282867432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0188149213790894,
      "epoch": 6.65,
      "learning_rate": 3.093299937382593e-05,
      "loss": 0.8433,
      "step": 7865,
      "task_loss": 1.3246017694473267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5383800268173218,
      "epoch": 6.65,
      "learning_rate": 3.092986850344396e-05,
      "loss": 0.7557,
      "step": 7866,
      "task_loss": 0.18932032585144043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6851837635040283,
      "epoch": 6.65,
      "learning_rate": 3.0926737633061994e-05,
      "loss": 0.6274,
      "step": 7867,
      "task_loss": 1.1945297718048096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8965051174163818,
      "epoch": 6.65,
      "learning_rate": 3.0923606762680026e-05,
      "loss": 0.7455,
      "step": 7868,
      "task_loss": 0.8608350157737732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5254784822463989,
      "epoch": 6.65,
      "learning_rate": 3.0920475892298064e-05,
      "loss": 0.7449,
      "step": 7869,
      "task_loss": 0.7571254968643188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42447981238365173,
      "epoch": 6.65,
      "learning_rate": 3.0917345021916096e-05,
      "loss": 0.7027,
      "step": 7870,
      "task_loss": 1.397099494934082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0335148572921753,
      "epoch": 6.65,
      "learning_rate": 3.091421415153413e-05,
      "loss": 0.8585,
      "step": 7871,
      "task_loss": 1.294325351715088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41244882345199585,
      "epoch": 6.65,
      "learning_rate": 3.0911083281152166e-05,
      "loss": 0.7825,
      "step": 7872,
      "task_loss": 1.032364845275879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9099690914154053,
      "epoch": 6.65,
      "learning_rate": 3.09079524107702e-05,
      "loss": 0.7469,
      "step": 7873,
      "task_loss": 1.3128854036331177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9677103757858276,
      "epoch": 6.66,
      "learning_rate": 3.090482154038823e-05,
      "loss": 0.8604,
      "step": 7874,
      "task_loss": 0.5719103217124939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9494198560714722,
      "epoch": 6.66,
      "learning_rate": 3.090169067000626e-05,
      "loss": 0.8327,
      "step": 7875,
      "task_loss": 0.7604184746742249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4780595898628235,
      "epoch": 6.66,
      "learning_rate": 3.08985597996243e-05,
      "loss": 0.5692,
      "step": 7876,
      "task_loss": 0.19279123842716217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4833381772041321,
      "epoch": 6.66,
      "learning_rate": 3.089542892924233e-05,
      "loss": 0.5928,
      "step": 7877,
      "task_loss": 0.7064904570579529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9333354234695435,
      "epoch": 6.66,
      "learning_rate": 3.0892298058860364e-05,
      "loss": 0.779,
      "step": 7878,
      "task_loss": 1.0014985799789429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.642236590385437,
      "epoch": 6.66,
      "learning_rate": 3.0889167188478396e-05,
      "loss": 0.9117,
      "step": 7879,
      "task_loss": 1.2465085983276367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7298465967178345,
      "epoch": 6.66,
      "learning_rate": 3.0886036318096434e-05,
      "loss": 0.6163,
      "step": 7880,
      "task_loss": 0.23890121281147003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5414343476295471,
      "epoch": 6.66,
      "learning_rate": 3.0882905447714466e-05,
      "loss": 0.7035,
      "step": 7881,
      "task_loss": 0.7312673926353455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7427877187728882,
      "epoch": 6.66,
      "learning_rate": 3.08797745773325e-05,
      "loss": 0.6797,
      "step": 7882,
      "task_loss": 0.5666733980178833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5464044213294983,
      "epoch": 6.66,
      "learning_rate": 3.087664370695053e-05,
      "loss": 0.6418,
      "step": 7883,
      "task_loss": 0.23757542669773102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9232921600341797,
      "epoch": 6.66,
      "learning_rate": 3.087351283656857e-05,
      "loss": 0.8603,
      "step": 7884,
      "task_loss": 0.6532484889030457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5538132190704346,
      "epoch": 6.66,
      "learning_rate": 3.08703819661866e-05,
      "loss": 0.9106,
      "step": 7885,
      "task_loss": 1.3001362085342407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8099179863929749,
      "epoch": 6.67,
      "learning_rate": 3.086725109580463e-05,
      "loss": 0.7026,
      "step": 7886,
      "task_loss": 1.236095666885376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6212517023086548,
      "epoch": 6.67,
      "learning_rate": 3.086412022542267e-05,
      "loss": 0.7879,
      "step": 7887,
      "task_loss": 1.3866441249847412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5920131802558899,
      "epoch": 6.67,
      "learning_rate": 3.08609893550407e-05,
      "loss": 0.7572,
      "step": 7888,
      "task_loss": 0.9410519003868103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9802490472793579,
      "epoch": 6.67,
      "learning_rate": 3.0857858484658734e-05,
      "loss": 0.9189,
      "step": 7889,
      "task_loss": 1.3675380945205688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8461836576461792,
      "epoch": 6.67,
      "learning_rate": 3.0854727614276765e-05,
      "loss": 0.5765,
      "step": 7890,
      "task_loss": 1.3642176389694214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338706970214844,
      "epoch": 6.67,
      "learning_rate": 3.0851596743894804e-05,
      "loss": 0.5885,
      "step": 7891,
      "task_loss": 0.3238854706287384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1104888916015625,
      "epoch": 6.67,
      "learning_rate": 3.0848465873512836e-05,
      "loss": 0.7802,
      "step": 7892,
      "task_loss": 0.781108021736145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3980805575847626,
      "epoch": 6.67,
      "learning_rate": 3.084533500313087e-05,
      "loss": 0.7244,
      "step": 7893,
      "task_loss": 1.0138074159622192
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5404284000396729,
      "epoch": 6.67,
      "learning_rate": 3.0842204132748906e-05,
      "loss": 0.7778,
      "step": 7894,
      "task_loss": 1.1715208292007446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7018006443977356,
      "epoch": 6.67,
      "learning_rate": 3.083907326236694e-05,
      "loss": 0.6435,
      "step": 7895,
      "task_loss": 0.9346175193786621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37566906213760376,
      "epoch": 6.67,
      "learning_rate": 3.0835942391984976e-05,
      "loss": 0.678,
      "step": 7896,
      "task_loss": 0.5053325295448303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0852903127670288,
      "epoch": 6.67,
      "learning_rate": 3.083281152160301e-05,
      "loss": 0.9121,
      "step": 7897,
      "task_loss": 1.0978707075119019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9346021413803101,
      "epoch": 6.68,
      "learning_rate": 3.082968065122105e-05,
      "loss": 0.7328,
      "step": 7898,
      "task_loss": 0.9871256947517395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5615735054016113,
      "epoch": 6.68,
      "learning_rate": 3.082654978083908e-05,
      "loss": 0.7322,
      "step": 7899,
      "task_loss": 0.788532018661499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6284962296485901,
      "epoch": 6.68,
      "learning_rate": 3.082341891045711e-05,
      "loss": 0.6955,
      "step": 7900,
      "task_loss": 0.5042320489883423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7040247321128845,
      "epoch": 6.68,
      "learning_rate": 3.082028804007514e-05,
      "loss": 0.598,
      "step": 7901,
      "task_loss": 0.6746094226837158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9123935699462891,
      "epoch": 6.68,
      "learning_rate": 3.081715716969318e-05,
      "loss": 0.7724,
      "step": 7902,
      "task_loss": 0.8819447755813599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.367483913898468,
      "epoch": 6.68,
      "learning_rate": 3.081402629931121e-05,
      "loss": 0.6404,
      "step": 7903,
      "task_loss": 0.7807163000106812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9524089694023132,
      "epoch": 6.68,
      "learning_rate": 3.0810895428929244e-05,
      "loss": 1.0343,
      "step": 7904,
      "task_loss": 2.036872148513794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6188325881958008,
      "epoch": 6.68,
      "learning_rate": 3.0807764558547276e-05,
      "loss": 0.7849,
      "step": 7905,
      "task_loss": 1.083208441734314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6731878519058228,
      "epoch": 6.68,
      "learning_rate": 3.0804633688165315e-05,
      "loss": 0.8576,
      "step": 7906,
      "task_loss": 1.0257712602615356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6524299383163452,
      "epoch": 6.68,
      "learning_rate": 3.0801502817783346e-05,
      "loss": 0.6192,
      "step": 7907,
      "task_loss": 0.39575883746147156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9307807683944702,
      "epoch": 6.68,
      "learning_rate": 3.079837194740138e-05,
      "loss": 0.7677,
      "step": 7908,
      "task_loss": 0.38086172938346863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5724180936813354,
      "epoch": 6.69,
      "learning_rate": 3.079524107701942e-05,
      "loss": 0.6702,
      "step": 7909,
      "task_loss": 0.7285068035125732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6594997048377991,
      "epoch": 6.69,
      "learning_rate": 3.079211020663745e-05,
      "loss": 0.7587,
      "step": 7910,
      "task_loss": 1.1743316650390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6002024412155151,
      "epoch": 6.69,
      "learning_rate": 3.078897933625548e-05,
      "loss": 0.6248,
      "step": 7911,
      "task_loss": 0.37358155846595764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9696728587150574,
      "epoch": 6.69,
      "learning_rate": 3.078584846587351e-05,
      "loss": 0.7782,
      "step": 7912,
      "task_loss": 0.9270454049110413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9528603553771973,
      "epoch": 6.69,
      "learning_rate": 3.078271759549155e-05,
      "loss": 0.7149,
      "step": 7913,
      "task_loss": 0.5310961604118347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7027051448822021,
      "epoch": 6.69,
      "learning_rate": 3.077958672510958e-05,
      "loss": 0.8873,
      "step": 7914,
      "task_loss": 1.121349573135376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4320659339427948,
      "epoch": 6.69,
      "learning_rate": 3.0776455854727614e-05,
      "loss": 0.4677,
      "step": 7915,
      "task_loss": 1.2191030979156494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5533809065818787,
      "epoch": 6.69,
      "learning_rate": 3.0773324984345646e-05,
      "loss": 0.6047,
      "step": 7916,
      "task_loss": 0.6571025848388672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8710528612136841,
      "epoch": 6.69,
      "learning_rate": 3.0770194113963685e-05,
      "loss": 0.8873,
      "step": 7917,
      "task_loss": 0.5058302283287048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5362743139266968,
      "epoch": 6.69,
      "learning_rate": 3.0767063243581716e-05,
      "loss": 0.8926,
      "step": 7918,
      "task_loss": 0.10563885420560837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8363993763923645,
      "epoch": 6.69,
      "learning_rate": 3.076393237319975e-05,
      "loss": 0.6404,
      "step": 7919,
      "task_loss": 0.6310018301010132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8162299990653992,
      "epoch": 6.69,
      "learning_rate": 3.076080150281778e-05,
      "loss": 0.8566,
      "step": 7920,
      "task_loss": 1.2060855627059937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.255800724029541,
      "epoch": 6.7,
      "learning_rate": 3.075767063243582e-05,
      "loss": 0.8815,
      "step": 7921,
      "task_loss": 0.9523227214813232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0945072174072266,
      "epoch": 6.7,
      "learning_rate": 3.075453976205385e-05,
      "loss": 0.7355,
      "step": 7922,
      "task_loss": 0.4342915713787079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7952897548675537,
      "epoch": 6.7,
      "learning_rate": 3.075140889167188e-05,
      "loss": 0.6896,
      "step": 7923,
      "task_loss": 0.9575875997543335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1268901824951172,
      "epoch": 6.7,
      "learning_rate": 3.074827802128992e-05,
      "loss": 0.8557,
      "step": 7924,
      "task_loss": 0.2713778018951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4746420383453369,
      "epoch": 6.7,
      "learning_rate": 3.074514715090795e-05,
      "loss": 0.6247,
      "step": 7925,
      "task_loss": 0.6120726466178894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6747310161590576,
      "epoch": 6.7,
      "learning_rate": 3.0742016280525984e-05,
      "loss": 0.6992,
      "step": 7926,
      "task_loss": 0.6556189060211182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1576824188232422,
      "epoch": 6.7,
      "learning_rate": 3.073888541014402e-05,
      "loss": 0.5899,
      "step": 7927,
      "task_loss": 0.676166296005249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6947252750396729,
      "epoch": 6.7,
      "learning_rate": 3.0735754539762054e-05,
      "loss": 0.7123,
      "step": 7928,
      "task_loss": 0.8598650693893433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7326651811599731,
      "epoch": 6.7,
      "learning_rate": 3.0732623669380086e-05,
      "loss": 0.7179,
      "step": 7929,
      "task_loss": 0.48558229207992554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6701529026031494,
      "epoch": 6.7,
      "learning_rate": 3.0729492798998125e-05,
      "loss": 0.7749,
      "step": 7930,
      "task_loss": 0.9428117275238037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5405824184417725,
      "epoch": 6.7,
      "learning_rate": 3.0726361928616157e-05,
      "loss": 0.7439,
      "step": 7931,
      "task_loss": 0.4943445324897766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6988991498947144,
      "epoch": 6.7,
      "learning_rate": 3.0723231058234195e-05,
      "loss": 0.864,
      "step": 7932,
      "task_loss": 0.732299268245697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7395046353340149,
      "epoch": 6.71,
      "learning_rate": 3.072010018785223e-05,
      "loss": 0.7329,
      "step": 7933,
      "task_loss": 0.9162377715110779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3390333652496338,
      "epoch": 6.71,
      "learning_rate": 3.071696931747026e-05,
      "loss": 0.647,
      "step": 7934,
      "task_loss": 0.16739346086978912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5781220197677612,
      "epoch": 6.71,
      "learning_rate": 3.07138384470883e-05,
      "loss": 0.7209,
      "step": 7935,
      "task_loss": 1.6372970342636108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9666109085083008,
      "epoch": 6.71,
      "learning_rate": 3.071070757670633e-05,
      "loss": 0.7204,
      "step": 7936,
      "task_loss": 1.3068536520004272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.923848032951355,
      "epoch": 6.71,
      "learning_rate": 3.070757670632436e-05,
      "loss": 0.863,
      "step": 7937,
      "task_loss": 1.6657745838165283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8401018381118774,
      "epoch": 6.71,
      "learning_rate": 3.070444583594239e-05,
      "loss": 0.6106,
      "step": 7938,
      "task_loss": 0.26621219515800476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.084112524986267,
      "epoch": 6.71,
      "learning_rate": 3.070131496556043e-05,
      "loss": 0.7683,
      "step": 7939,
      "task_loss": 1.067142128944397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8905581831932068,
      "epoch": 6.71,
      "learning_rate": 3.069818409517846e-05,
      "loss": 0.8928,
      "step": 7940,
      "task_loss": 1.202677607536316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8540109395980835,
      "epoch": 6.71,
      "learning_rate": 3.0695053224796495e-05,
      "loss": 0.9002,
      "step": 7941,
      "task_loss": 1.053513765335083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.478132426738739,
      "epoch": 6.71,
      "learning_rate": 3.0691922354414526e-05,
      "loss": 0.5133,
      "step": 7942,
      "task_loss": 0.9483898878097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8751832246780396,
      "epoch": 6.71,
      "learning_rate": 3.0688791484032565e-05,
      "loss": 0.5966,
      "step": 7943,
      "task_loss": 0.6501158475875854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.699175238609314,
      "epoch": 6.71,
      "learning_rate": 3.06856606136506e-05,
      "loss": 1.0151,
      "step": 7944,
      "task_loss": 0.3583155572414398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7464189529418945,
      "epoch": 6.72,
      "learning_rate": 3.068252974326863e-05,
      "loss": 0.7482,
      "step": 7945,
      "task_loss": 0.7967494130134583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4984007477760315,
      "epoch": 6.72,
      "learning_rate": 3.067939887288667e-05,
      "loss": 0.7476,
      "step": 7946,
      "task_loss": 0.4930814802646637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3452970087528229,
      "epoch": 6.72,
      "learning_rate": 3.06762680025047e-05,
      "loss": 0.5505,
      "step": 7947,
      "task_loss": 0.4824996888637543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9079967141151428,
      "epoch": 6.72,
      "learning_rate": 3.067313713212273e-05,
      "loss": 0.756,
      "step": 7948,
      "task_loss": 1.1444380283355713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3337257206439972,
      "epoch": 6.72,
      "learning_rate": 3.067000626174076e-05,
      "loss": 0.5181,
      "step": 7949,
      "task_loss": 0.3130708634853363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4440925419330597,
      "epoch": 6.72,
      "learning_rate": 3.06668753913588e-05,
      "loss": 0.6898,
      "step": 7950,
      "task_loss": 0.48636943101882935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9903525114059448,
      "epoch": 6.72,
      "learning_rate": 3.066374452097683e-05,
      "loss": 0.9494,
      "step": 7951,
      "task_loss": 1.4414085149765015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.744814395904541,
      "epoch": 6.72,
      "learning_rate": 3.0660613650594865e-05,
      "loss": 0.7408,
      "step": 7952,
      "task_loss": 1.0941481590270996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5669673681259155,
      "epoch": 6.72,
      "learning_rate": 3.0657482780212896e-05,
      "loss": 0.7235,
      "step": 7953,
      "task_loss": 0.6772136092185974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5715273022651672,
      "epoch": 6.72,
      "learning_rate": 3.0654351909830935e-05,
      "loss": 0.7911,
      "step": 7954,
      "task_loss": 0.5386320948600769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7066366672515869,
      "epoch": 6.72,
      "learning_rate": 3.065122103944897e-05,
      "loss": 0.6468,
      "step": 7955,
      "task_loss": 0.6629272699356079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6540637016296387,
      "epoch": 6.72,
      "learning_rate": 3.0648090169067e-05,
      "loss": 0.6546,
      "step": 7956,
      "task_loss": 0.7783797383308411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3100660443305969,
      "epoch": 6.73,
      "learning_rate": 3.064495929868504e-05,
      "loss": 0.7583,
      "step": 7957,
      "task_loss": 0.5171807408332825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7717970609664917,
      "epoch": 6.73,
      "learning_rate": 3.064182842830307e-05,
      "loss": 0.7179,
      "step": 7958,
      "task_loss": 0.9658201932907104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8680041432380676,
      "epoch": 6.73,
      "learning_rate": 3.06386975579211e-05,
      "loss": 0.6671,
      "step": 7959,
      "task_loss": 1.0551222562789917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7201470732688904,
      "epoch": 6.73,
      "learning_rate": 3.063556668753913e-05,
      "loss": 0.5952,
      "step": 7960,
      "task_loss": 0.685112714767456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0383715629577637,
      "epoch": 6.73,
      "learning_rate": 3.063243581715717e-05,
      "loss": 0.8811,
      "step": 7961,
      "task_loss": 0.9338220357894897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6101997494697571,
      "epoch": 6.73,
      "learning_rate": 3.06293049467752e-05,
      "loss": 0.6698,
      "step": 7962,
      "task_loss": 0.09364841878414154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9403054714202881,
      "epoch": 6.73,
      "learning_rate": 3.062617407639324e-05,
      "loss": 0.7554,
      "step": 7963,
      "task_loss": 0.32351258397102356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9220346808433533,
      "epoch": 6.73,
      "learning_rate": 3.062304320601127e-05,
      "loss": 0.7014,
      "step": 7964,
      "task_loss": 0.7576712369918823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7538548111915588,
      "epoch": 6.73,
      "learning_rate": 3.0619912335629305e-05,
      "loss": 0.6788,
      "step": 7965,
      "task_loss": 1.0767817497253418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3589867055416107,
      "epoch": 6.73,
      "learning_rate": 3.0616781465247343e-05,
      "loss": 0.7294,
      "step": 7966,
      "task_loss": 0.5897250771522522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8686939477920532,
      "epoch": 6.73,
      "learning_rate": 3.0613650594865375e-05,
      "loss": 0.6761,
      "step": 7967,
      "task_loss": 0.874840497970581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42193278670310974,
      "epoch": 6.73,
      "learning_rate": 3.061051972448341e-05,
      "loss": 0.7367,
      "step": 7968,
      "task_loss": 0.832334578037262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8463811278343201,
      "epoch": 6.74,
      "learning_rate": 3.0607388854101446e-05,
      "loss": 0.6777,
      "step": 7969,
      "task_loss": 1.0389213562011719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5044190883636475,
      "epoch": 6.74,
      "learning_rate": 3.060425798371948e-05,
      "loss": 0.6571,
      "step": 7970,
      "task_loss": 0.4185419976711273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3555697798728943,
      "epoch": 6.74,
      "learning_rate": 3.060112711333751e-05,
      "loss": 0.5358,
      "step": 7971,
      "task_loss": 0.48405492305755615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.002551555633545,
      "epoch": 6.74,
      "learning_rate": 3.059799624295555e-05,
      "loss": 0.8214,
      "step": 7972,
      "task_loss": 0.8620414137840271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9709553718566895,
      "epoch": 6.74,
      "learning_rate": 3.059486537257358e-05,
      "loss": 0.7311,
      "step": 7973,
      "task_loss": 1.414740800857544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8744901418685913,
      "epoch": 6.74,
      "learning_rate": 3.059173450219161e-05,
      "loss": 0.8868,
      "step": 7974,
      "task_loss": 0.630386233329773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5999623537063599,
      "epoch": 6.74,
      "learning_rate": 3.058860363180964e-05,
      "loss": 0.7032,
      "step": 7975,
      "task_loss": 0.21744699776172638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0543558597564697,
      "epoch": 6.74,
      "learning_rate": 3.058547276142768e-05,
      "loss": 0.809,
      "step": 7976,
      "task_loss": 1.2337418794631958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5550273656845093,
      "epoch": 6.74,
      "learning_rate": 3.058234189104571e-05,
      "loss": 0.6174,
      "step": 7977,
      "task_loss": 0.26725032925605774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8222082257270813,
      "epoch": 6.74,
      "learning_rate": 3.0579211020663745e-05,
      "loss": 0.8687,
      "step": 7978,
      "task_loss": 1.0747005939483643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1381057500839233,
      "epoch": 6.74,
      "learning_rate": 3.057608015028178e-05,
      "loss": 0.9934,
      "step": 7979,
      "task_loss": 0.6794317960739136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7514306306838989,
      "epoch": 6.75,
      "learning_rate": 3.0572949279899815e-05,
      "loss": 0.7798,
      "step": 7980,
      "task_loss": 0.9214450120925903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1835412979125977,
      "epoch": 6.75,
      "learning_rate": 3.056981840951785e-05,
      "loss": 0.9492,
      "step": 7981,
      "task_loss": 1.094326376914978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5166473984718323,
      "epoch": 6.75,
      "learning_rate": 3.056668753913588e-05,
      "loss": 0.7134,
      "step": 7982,
      "task_loss": 0.2569558620452881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6642045974731445,
      "epoch": 6.75,
      "learning_rate": 3.056355666875392e-05,
      "loss": 1.0176,
      "step": 7983,
      "task_loss": 0.8207444548606873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20439884066581726,
      "epoch": 6.75,
      "learning_rate": 3.056042579837195e-05,
      "loss": 0.8197,
      "step": 7984,
      "task_loss": 0.25879883766174316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6247966289520264,
      "epoch": 6.75,
      "learning_rate": 3.055729492798998e-05,
      "loss": 0.6297,
      "step": 7985,
      "task_loss": 0.5506195425987244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4697665572166443,
      "epoch": 6.75,
      "learning_rate": 3.055416405760801e-05,
      "loss": 0.7849,
      "step": 7986,
      "task_loss": 1.2391473054885864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8071537017822266,
      "epoch": 6.75,
      "learning_rate": 3.055103318722605e-05,
      "loss": 0.9064,
      "step": 7987,
      "task_loss": 1.0094711780548096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7167580127716064,
      "epoch": 6.75,
      "learning_rate": 3.054790231684408e-05,
      "loss": 0.6624,
      "step": 7988,
      "task_loss": 1.3834856748580933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9525105357170105,
      "epoch": 6.75,
      "learning_rate": 3.0544771446462115e-05,
      "loss": 0.8786,
      "step": 7989,
      "task_loss": 0.6287370920181274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9671080708503723,
      "epoch": 6.75,
      "learning_rate": 3.054164057608015e-05,
      "loss": 0.8511,
      "step": 7990,
      "task_loss": 1.27701735496521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7852371335029602,
      "epoch": 6.75,
      "learning_rate": 3.0538509705698185e-05,
      "loss": 0.6646,
      "step": 7991,
      "task_loss": 0.41965723037719727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6298502087593079,
      "epoch": 6.76,
      "learning_rate": 3.053537883531622e-05,
      "loss": 0.7731,
      "step": 7992,
      "task_loss": 0.717761754989624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.813783586025238,
      "epoch": 6.76,
      "learning_rate": 3.053224796493425e-05,
      "loss": 0.6854,
      "step": 7993,
      "task_loss": 0.7985125184059143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41958165168762207,
      "epoch": 6.76,
      "learning_rate": 3.052911709455229e-05,
      "loss": 0.562,
      "step": 7994,
      "task_loss": 0.30338987708091736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8144826889038086,
      "epoch": 6.76,
      "learning_rate": 3.052598622417032e-05,
      "loss": 0.7757,
      "step": 7995,
      "task_loss": 1.9013867378234863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6854699850082397,
      "epoch": 6.76,
      "learning_rate": 3.052285535378835e-05,
      "loss": 0.7874,
      "step": 7996,
      "task_loss": 0.7759087681770325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5973459482192993,
      "epoch": 6.76,
      "learning_rate": 3.051972448340639e-05,
      "loss": 0.7179,
      "step": 7997,
      "task_loss": 0.7048553824424744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8944823741912842,
      "epoch": 6.76,
      "learning_rate": 3.0516593613024425e-05,
      "loss": 0.5908,
      "step": 7998,
      "task_loss": 1.3196204900741577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0855300426483154,
      "epoch": 6.76,
      "learning_rate": 3.0513462742642457e-05,
      "loss": 0.8099,
      "step": 7999,
      "task_loss": 0.5828117728233337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6271239519119263,
      "epoch": 6.76,
      "learning_rate": 3.051033187226049e-05,
      "loss": 0.7429,
      "step": 8000,
      "task_loss": 0.6456625461578369
    },
    {
      "epoch": 6.76,
      "eval_accuracy": 0.8897821782178218,
      "eval_loss": 0.48297107219696045,
      "eval_runtime": 206.9371,
      "eval_samples_per_second": 122.018,
      "eval_steps_per_second": 0.957,
      "step": 8000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9237237572669983,
      "epoch": 6.76,
      "learning_rate": 3.050720100187852e-05,
      "loss": 0.8892,
      "step": 8001,
      "task_loss": 1.4226126670837402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9296812415122986,
      "epoch": 6.76,
      "learning_rate": 3.050407013149656e-05,
      "loss": 0.6759,
      "step": 8002,
      "task_loss": 0.8763551115989685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2386844158172607,
      "epoch": 6.76,
      "learning_rate": 3.050093926111459e-05,
      "loss": 0.7346,
      "step": 8003,
      "task_loss": 1.128830909729004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6211484670639038,
      "epoch": 6.77,
      "learning_rate": 3.0497808390732622e-05,
      "loss": 0.786,
      "step": 8004,
      "task_loss": 0.8451536297798157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0221596956253052,
      "epoch": 6.77,
      "learning_rate": 3.0494677520350657e-05,
      "loss": 1.286,
      "step": 8005,
      "task_loss": 1.702332615852356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.818361759185791,
      "epoch": 6.77,
      "learning_rate": 3.0491546649968693e-05,
      "loss": 0.7531,
      "step": 8006,
      "task_loss": 1.2960338592529297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48814719915390015,
      "epoch": 6.77,
      "learning_rate": 3.0488415779586728e-05,
      "loss": 0.6556,
      "step": 8007,
      "task_loss": 0.9726532101631165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8058367967605591,
      "epoch": 6.77,
      "learning_rate": 3.048528490920476e-05,
      "loss": 0.7201,
      "step": 8008,
      "task_loss": 0.4125058948993683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8616460561752319,
      "epoch": 6.77,
      "learning_rate": 3.0482154038822798e-05,
      "loss": 0.8986,
      "step": 8009,
      "task_loss": 0.9930617809295654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6578724384307861,
      "epoch": 6.77,
      "learning_rate": 3.047902316844083e-05,
      "loss": 0.651,
      "step": 8010,
      "task_loss": 0.48877382278442383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5587406754493713,
      "epoch": 6.77,
      "learning_rate": 3.0475892298058862e-05,
      "loss": 0.7004,
      "step": 8011,
      "task_loss": 0.656059980392456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6491477489471436,
      "epoch": 6.77,
      "learning_rate": 3.0472761427676893e-05,
      "loss": 0.7857,
      "step": 8012,
      "task_loss": 0.9329527616500854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7311059832572937,
      "epoch": 6.77,
      "learning_rate": 3.0469630557294932e-05,
      "loss": 0.763,
      "step": 8013,
      "task_loss": 0.6288560032844543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4082827866077423,
      "epoch": 6.77,
      "learning_rate": 3.0466499686912964e-05,
      "loss": 0.6077,
      "step": 8014,
      "task_loss": 1.280840277671814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8919941186904907,
      "epoch": 6.77,
      "learning_rate": 3.0463368816530996e-05,
      "loss": 0.828,
      "step": 8015,
      "task_loss": 1.0084186792373657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.026086688041687,
      "epoch": 6.78,
      "learning_rate": 3.0460237946149027e-05,
      "loss": 0.8432,
      "step": 8016,
      "task_loss": 0.9882441759109497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5751664638519287,
      "epoch": 6.78,
      "learning_rate": 3.0457107075767066e-05,
      "loss": 0.8981,
      "step": 8017,
      "task_loss": 0.9066872000694275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8816987872123718,
      "epoch": 6.78,
      "learning_rate": 3.0453976205385098e-05,
      "loss": 0.7058,
      "step": 8018,
      "task_loss": 2.026719808578491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6403158903121948,
      "epoch": 6.78,
      "learning_rate": 3.045084533500313e-05,
      "loss": 0.7685,
      "step": 8019,
      "task_loss": 0.5499211549758911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8560663461685181,
      "epoch": 6.78,
      "learning_rate": 3.0447714464621168e-05,
      "loss": 0.7037,
      "step": 8020,
      "task_loss": 0.7716274857521057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6223645210266113,
      "epoch": 6.78,
      "learning_rate": 3.04445835942392e-05,
      "loss": 0.9315,
      "step": 8021,
      "task_loss": 0.5726089477539062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2201869487762451,
      "epoch": 6.78,
      "learning_rate": 3.0441452723857235e-05,
      "loss": 0.9437,
      "step": 8022,
      "task_loss": 1.5313386917114258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3757723569869995,
      "epoch": 6.78,
      "learning_rate": 3.0438321853475267e-05,
      "loss": 0.7427,
      "step": 8023,
      "task_loss": 0.131608247756958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7249765396118164,
      "epoch": 6.78,
      "learning_rate": 3.0435190983093302e-05,
      "loss": 0.647,
      "step": 8024,
      "task_loss": 0.7709258794784546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38551822304725647,
      "epoch": 6.78,
      "learning_rate": 3.0432060112711337e-05,
      "loss": 0.6214,
      "step": 8025,
      "task_loss": 0.5775653123855591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7031338810920715,
      "epoch": 6.78,
      "learning_rate": 3.042892924232937e-05,
      "loss": 0.6141,
      "step": 8026,
      "task_loss": 0.9211567640304565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6687856912612915,
      "epoch": 6.78,
      "learning_rate": 3.04257983719474e-05,
      "loss": 0.6799,
      "step": 8027,
      "task_loss": 0.9018639326095581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5962198972702026,
      "epoch": 6.79,
      "learning_rate": 3.042266750156544e-05,
      "loss": 0.6452,
      "step": 8028,
      "task_loss": 0.7247738838195801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6173904538154602,
      "epoch": 6.79,
      "learning_rate": 3.041953663118347e-05,
      "loss": 0.6996,
      "step": 8029,
      "task_loss": 1.1695126295089722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46292927861213684,
      "epoch": 6.79,
      "learning_rate": 3.0416405760801503e-05,
      "loss": 0.6325,
      "step": 8030,
      "task_loss": 0.8175317049026489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0278488397598267,
      "epoch": 6.79,
      "learning_rate": 3.041327489041954e-05,
      "loss": 0.8013,
      "step": 8031,
      "task_loss": 1.6823773384094238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8410451412200928,
      "epoch": 6.79,
      "learning_rate": 3.0410144020037573e-05,
      "loss": 0.6783,
      "step": 8032,
      "task_loss": 0.6385701298713684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6807041764259338,
      "epoch": 6.79,
      "learning_rate": 3.0407013149655605e-05,
      "loss": 0.7153,
      "step": 8033,
      "task_loss": 0.7458494901657104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7340676784515381,
      "epoch": 6.79,
      "learning_rate": 3.0403882279273637e-05,
      "loss": 0.9188,
      "step": 8034,
      "task_loss": 0.5032667517662048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5733375549316406,
      "epoch": 6.79,
      "learning_rate": 3.0400751408891675e-05,
      "loss": 0.6578,
      "step": 8035,
      "task_loss": 0.7333895564079285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5219876766204834,
      "epoch": 6.79,
      "learning_rate": 3.0397620538509707e-05,
      "loss": 0.7543,
      "step": 8036,
      "task_loss": 0.49722516536712646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6091053485870361,
      "epoch": 6.79,
      "learning_rate": 3.039448966812774e-05,
      "loss": 0.7147,
      "step": 8037,
      "task_loss": 0.3772902488708496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8725963830947876,
      "epoch": 6.79,
      "learning_rate": 3.0391358797745774e-05,
      "loss": 0.7597,
      "step": 8038,
      "task_loss": 0.9452968835830688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5433263182640076,
      "epoch": 6.79,
      "learning_rate": 3.038822792736381e-05,
      "loss": 0.5589,
      "step": 8039,
      "task_loss": 0.898946225643158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40997517108917236,
      "epoch": 6.8,
      "learning_rate": 3.0385097056981844e-05,
      "loss": 0.5757,
      "step": 8040,
      "task_loss": 0.26627999544143677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6392544507980347,
      "epoch": 6.8,
      "learning_rate": 3.0381966186599876e-05,
      "loss": 0.9314,
      "step": 8041,
      "task_loss": 0.8716665506362915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395082235336304,
      "epoch": 6.8,
      "learning_rate": 3.0378835316217908e-05,
      "loss": 0.9453,
      "step": 8042,
      "task_loss": 0.2828959822654724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009576678276062,
      "epoch": 6.8,
      "learning_rate": 3.0375704445835946e-05,
      "loss": 0.8073,
      "step": 8043,
      "task_loss": 0.13211873173713684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22153258323669434,
      "epoch": 6.8,
      "learning_rate": 3.0372573575453978e-05,
      "loss": 0.7349,
      "step": 8044,
      "task_loss": 0.022708099335432053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7816877365112305,
      "epoch": 6.8,
      "learning_rate": 3.036944270507201e-05,
      "loss": 0.5989,
      "step": 8045,
      "task_loss": 0.69509357213974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.660279393196106,
      "epoch": 6.8,
      "learning_rate": 3.036631183469005e-05,
      "loss": 0.7,
      "step": 8046,
      "task_loss": 0.8400467038154602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48076891899108887,
      "epoch": 6.8,
      "learning_rate": 3.036318096430808e-05,
      "loss": 0.4893,
      "step": 8047,
      "task_loss": 0.33777496218681335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7523253560066223,
      "epoch": 6.8,
      "learning_rate": 3.0360050093926112e-05,
      "loss": 0.9199,
      "step": 8048,
      "task_loss": 0.6466416120529175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8455725908279419,
      "epoch": 6.8,
      "learning_rate": 3.0356919223544144e-05,
      "loss": 0.9154,
      "step": 8049,
      "task_loss": 0.9433245062828064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5085881948471069,
      "epoch": 6.8,
      "learning_rate": 3.0353788353162182e-05,
      "loss": 0.671,
      "step": 8050,
      "task_loss": 0.9551513195037842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6140590906143188,
      "epoch": 6.81,
      "learning_rate": 3.0350657482780214e-05,
      "loss": 0.4832,
      "step": 8051,
      "task_loss": 0.5808295607566833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5937479138374329,
      "epoch": 6.81,
      "learning_rate": 3.0347526612398246e-05,
      "loss": 0.7683,
      "step": 8052,
      "task_loss": 0.278334379196167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1208174228668213,
      "epoch": 6.81,
      "learning_rate": 3.0344395742016278e-05,
      "loss": 0.7439,
      "step": 8053,
      "task_loss": 0.35838836431503296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164705514907837,
      "epoch": 6.81,
      "learning_rate": 3.0341264871634316e-05,
      "loss": 0.5578,
      "step": 8054,
      "task_loss": 0.41655007004737854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1441199779510498,
      "epoch": 6.81,
      "learning_rate": 3.0338134001252348e-05,
      "loss": 0.7915,
      "step": 8055,
      "task_loss": 1.2529029846191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7532901167869568,
      "epoch": 6.81,
      "learning_rate": 3.0335003130870383e-05,
      "loss": 0.6824,
      "step": 8056,
      "task_loss": 0.6256493330001831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7235993146896362,
      "epoch": 6.81,
      "learning_rate": 3.033187226048842e-05,
      "loss": 0.6404,
      "step": 8057,
      "task_loss": 1.219488501548767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7330193519592285,
      "epoch": 6.81,
      "learning_rate": 3.0328741390106454e-05,
      "loss": 0.6425,
      "step": 8058,
      "task_loss": 0.9485900402069092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7305917739868164,
      "epoch": 6.81,
      "learning_rate": 3.0325610519724485e-05,
      "loss": 0.8978,
      "step": 8059,
      "task_loss": 0.9874294996261597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43914830684661865,
      "epoch": 6.81,
      "learning_rate": 3.0322479649342517e-05,
      "loss": 0.7434,
      "step": 8060,
      "task_loss": 0.5397192239761353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9254952073097229,
      "epoch": 6.81,
      "learning_rate": 3.0319348778960556e-05,
      "loss": 0.6407,
      "step": 8061,
      "task_loss": 0.4717887043952942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5657081604003906,
      "epoch": 6.81,
      "learning_rate": 3.0316217908578588e-05,
      "loss": 0.5823,
      "step": 8062,
      "task_loss": 0.4082193374633789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8663035035133362,
      "epoch": 6.82,
      "learning_rate": 3.031308703819662e-05,
      "loss": 0.7511,
      "step": 8063,
      "task_loss": 0.333367258310318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338727831840515,
      "epoch": 6.82,
      "learning_rate": 3.030995616781465e-05,
      "loss": 0.6935,
      "step": 8064,
      "task_loss": 0.26723653078079224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.835747241973877,
      "epoch": 6.82,
      "learning_rate": 3.030682529743269e-05,
      "loss": 0.7865,
      "step": 8065,
      "task_loss": 0.30668482184410095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5296400785446167,
      "epoch": 6.82,
      "learning_rate": 3.030369442705072e-05,
      "loss": 0.5643,
      "step": 8066,
      "task_loss": 0.7632284164428711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0935466289520264,
      "epoch": 6.82,
      "learning_rate": 3.0300563556668753e-05,
      "loss": 0.8399,
      "step": 8067,
      "task_loss": 1.2540957927703857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6823038458824158,
      "epoch": 6.82,
      "learning_rate": 3.0297432686286792e-05,
      "loss": 0.7128,
      "step": 8068,
      "task_loss": 0.5011739134788513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8162461519241333,
      "epoch": 6.82,
      "learning_rate": 3.0294301815904824e-05,
      "loss": 0.7604,
      "step": 8069,
      "task_loss": 0.8056613206863403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8828133344650269,
      "epoch": 6.82,
      "learning_rate": 3.0291170945522855e-05,
      "loss": 0.7626,
      "step": 8070,
      "task_loss": 0.6984111666679382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7993190288543701,
      "epoch": 6.82,
      "learning_rate": 3.0288040075140887e-05,
      "loss": 0.8338,
      "step": 8071,
      "task_loss": 1.2695109844207764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6803023219108582,
      "epoch": 6.82,
      "learning_rate": 3.0284909204758926e-05,
      "loss": 0.5586,
      "step": 8072,
      "task_loss": 0.889339804649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9348542094230652,
      "epoch": 6.82,
      "learning_rate": 3.0281778334376957e-05,
      "loss": 0.5859,
      "step": 8073,
      "task_loss": 1.1599030494689941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6622951030731201,
      "epoch": 6.82,
      "learning_rate": 3.0278647463994993e-05,
      "loss": 0.704,
      "step": 8074,
      "task_loss": 0.6952185034751892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4221195876598358,
      "epoch": 6.83,
      "learning_rate": 3.0275516593613024e-05,
      "loss": 0.7246,
      "step": 8075,
      "task_loss": 0.09200258553028107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6214673519134521,
      "epoch": 6.83,
      "learning_rate": 3.0272385723231063e-05,
      "loss": 0.5805,
      "step": 8076,
      "task_loss": 0.2958487868309021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6279910206794739,
      "epoch": 6.83,
      "learning_rate": 3.0269254852849095e-05,
      "loss": 0.7605,
      "step": 8077,
      "task_loss": 1.1846754550933838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5997483134269714,
      "epoch": 6.83,
      "learning_rate": 3.0266123982467127e-05,
      "loss": 0.5975,
      "step": 8078,
      "task_loss": 0.8923358917236328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41756176948547363,
      "epoch": 6.83,
      "learning_rate": 3.026299311208516e-05,
      "loss": 0.517,
      "step": 8079,
      "task_loss": 0.4644472002983093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8176606893539429,
      "epoch": 6.83,
      "learning_rate": 3.0259862241703197e-05,
      "loss": 0.8192,
      "step": 8080,
      "task_loss": 1.1819168329238892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.496995210647583,
      "epoch": 6.83,
      "learning_rate": 3.025673137132123e-05,
      "loss": 0.8047,
      "step": 8081,
      "task_loss": 1.1424791812896729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5884836912155151,
      "epoch": 6.83,
      "learning_rate": 3.025360050093926e-05,
      "loss": 0.721,
      "step": 8082,
      "task_loss": 0.16091178357601166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7213292121887207,
      "epoch": 6.83,
      "learning_rate": 3.02504696305573e-05,
      "loss": 0.7508,
      "step": 8083,
      "task_loss": 0.9519731402397156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7509251832962036,
      "epoch": 6.83,
      "learning_rate": 3.024733876017533e-05,
      "loss": 0.8102,
      "step": 8084,
      "task_loss": 0.32930588722229004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6221021413803101,
      "epoch": 6.83,
      "learning_rate": 3.0244207889793363e-05,
      "loss": 0.7495,
      "step": 8085,
      "task_loss": 0.47216105461120605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1614248752593994,
      "epoch": 6.83,
      "learning_rate": 3.0241077019411394e-05,
      "loss": 0.7163,
      "step": 8086,
      "task_loss": 0.3392457365989685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7467561364173889,
      "epoch": 6.84,
      "learning_rate": 3.0237946149029433e-05,
      "loss": 0.7562,
      "step": 8087,
      "task_loss": 0.8653516173362732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8870803117752075,
      "epoch": 6.84,
      "learning_rate": 3.0234815278647465e-05,
      "loss": 0.7209,
      "step": 8088,
      "task_loss": 1.201331377029419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1293883323669434,
      "epoch": 6.84,
      "learning_rate": 3.02316844082655e-05,
      "loss": 0.8251,
      "step": 8089,
      "task_loss": 0.6805856227874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44928741455078125,
      "epoch": 6.84,
      "learning_rate": 3.022855353788353e-05,
      "loss": 0.5991,
      "step": 8090,
      "task_loss": 0.3053816854953766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9375143647193909,
      "epoch": 6.84,
      "learning_rate": 3.0225422667501567e-05,
      "loss": 0.678,
      "step": 8091,
      "task_loss": 0.5342874526977539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.095868706703186,
      "epoch": 6.84,
      "learning_rate": 3.0222291797119602e-05,
      "loss": 0.6937,
      "step": 8092,
      "task_loss": 1.068865180015564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1896491050720215,
      "epoch": 6.84,
      "learning_rate": 3.0219160926737634e-05,
      "loss": 0.8264,
      "step": 8093,
      "task_loss": 1.094529151916504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3949718475341797,
      "epoch": 6.84,
      "learning_rate": 3.0216030056355672e-05,
      "loss": 0.6326,
      "step": 8094,
      "task_loss": 0.26016366481781006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8403114080429077,
      "epoch": 6.84,
      "learning_rate": 3.0212899185973704e-05,
      "loss": 0.6749,
      "step": 8095,
      "task_loss": 0.9010891318321228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.218662977218628,
      "epoch": 6.84,
      "learning_rate": 3.0209768315591736e-05,
      "loss": 0.7953,
      "step": 8096,
      "task_loss": 1.3011195659637451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6501017212867737,
      "epoch": 6.84,
      "learning_rate": 3.0206637445209768e-05,
      "loss": 0.767,
      "step": 8097,
      "task_loss": 1.2222459316253662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37962090969085693,
      "epoch": 6.84,
      "learning_rate": 3.0203506574827806e-05,
      "loss": 0.8464,
      "step": 8098,
      "task_loss": 0.46347737312316895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4342881441116333,
      "epoch": 6.85,
      "learning_rate": 3.0200375704445838e-05,
      "loss": 0.575,
      "step": 8099,
      "task_loss": 0.5659269690513611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6970057487487793,
      "epoch": 6.85,
      "learning_rate": 3.019724483406387e-05,
      "loss": 0.7103,
      "step": 8100,
      "task_loss": 0.7415133714675903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.750408411026001,
      "epoch": 6.85,
      "learning_rate": 3.01941139636819e-05,
      "loss": 0.706,
      "step": 8101,
      "task_loss": 1.009749412536621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48656606674194336,
      "epoch": 6.85,
      "learning_rate": 3.019098309329994e-05,
      "loss": 0.7165,
      "step": 8102,
      "task_loss": 0.10548720508813858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4877772331237793,
      "epoch": 6.85,
      "learning_rate": 3.0187852222917972e-05,
      "loss": 0.7569,
      "step": 8103,
      "task_loss": 0.46117982268333435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8384486436843872,
      "epoch": 6.85,
      "learning_rate": 3.0184721352536004e-05,
      "loss": 0.8825,
      "step": 8104,
      "task_loss": 1.1143828630447388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48359155654907227,
      "epoch": 6.85,
      "learning_rate": 3.0181590482154042e-05,
      "loss": 0.6549,
      "step": 8105,
      "task_loss": 1.1718418598175049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6476954221725464,
      "epoch": 6.85,
      "learning_rate": 3.0178459611772074e-05,
      "loss": 0.69,
      "step": 8106,
      "task_loss": 1.077156662940979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5791364312171936,
      "epoch": 6.85,
      "learning_rate": 3.017532874139011e-05,
      "loss": 0.5217,
      "step": 8107,
      "task_loss": 1.1798210144042969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49661535024642944,
      "epoch": 6.85,
      "learning_rate": 3.017219787100814e-05,
      "loss": 0.6446,
      "step": 8108,
      "task_loss": 0.47959649562835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8737447261810303,
      "epoch": 6.85,
      "learning_rate": 3.0169067000626176e-05,
      "loss": 0.8257,
      "step": 8109,
      "task_loss": 0.605752170085907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6892181634902954,
      "epoch": 6.85,
      "learning_rate": 3.016593613024421e-05,
      "loss": 0.8022,
      "step": 8110,
      "task_loss": 1.0716580152511597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.533786416053772,
      "epoch": 6.86,
      "learning_rate": 3.0162805259862243e-05,
      "loss": 0.5668,
      "step": 8111,
      "task_loss": 0.5489543676376343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.358297199010849,
      "epoch": 6.86,
      "learning_rate": 3.0159674389480275e-05,
      "loss": 0.4699,
      "step": 8112,
      "task_loss": 0.21350440382957458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7502490878105164,
      "epoch": 6.86,
      "learning_rate": 3.0156543519098313e-05,
      "loss": 0.8523,
      "step": 8113,
      "task_loss": 1.2638576030731201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1174057722091675,
      "epoch": 6.86,
      "learning_rate": 3.0153412648716345e-05,
      "loss": 0.9291,
      "step": 8114,
      "task_loss": 0.6267266869544983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6000711917877197,
      "epoch": 6.86,
      "learning_rate": 3.0150281778334377e-05,
      "loss": 0.7008,
      "step": 8115,
      "task_loss": 0.4242357611656189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4282722473144531,
      "epoch": 6.86,
      "learning_rate": 3.014715090795241e-05,
      "loss": 0.5128,
      "step": 8116,
      "task_loss": 0.20809897780418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5432948470115662,
      "epoch": 6.86,
      "learning_rate": 3.0144020037570447e-05,
      "loss": 0.5729,
      "step": 8117,
      "task_loss": 0.6642740368843079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6813332438468933,
      "epoch": 6.86,
      "learning_rate": 3.014088916718848e-05,
      "loss": 0.5339,
      "step": 8118,
      "task_loss": 0.6386902928352356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7495070695877075,
      "epoch": 6.86,
      "learning_rate": 3.013775829680651e-05,
      "loss": 0.691,
      "step": 8119,
      "task_loss": 1.0432173013687134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.867213249206543,
      "epoch": 6.86,
      "learning_rate": 3.013462742642455e-05,
      "loss": 0.8185,
      "step": 8120,
      "task_loss": 0.5247995853424072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6872918605804443,
      "epoch": 6.86,
      "learning_rate": 3.013149655604258e-05,
      "loss": 0.851,
      "step": 8121,
      "task_loss": 1.199689269065857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1007130146026611,
      "epoch": 6.87,
      "learning_rate": 3.0128365685660613e-05,
      "loss": 0.9843,
      "step": 8122,
      "task_loss": 1.346502661705017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1710999011993408,
      "epoch": 6.87,
      "learning_rate": 3.0125234815278648e-05,
      "loss": 0.7872,
      "step": 8123,
      "task_loss": 1.1223171949386597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5320358276367188,
      "epoch": 6.87,
      "learning_rate": 3.0122103944896683e-05,
      "loss": 0.8741,
      "step": 8124,
      "task_loss": 1.6718436479568481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8973795175552368,
      "epoch": 6.87,
      "learning_rate": 3.011897307451472e-05,
      "loss": 0.7065,
      "step": 8125,
      "task_loss": 1.1133089065551758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.511543869972229,
      "epoch": 6.87,
      "learning_rate": 3.011584220413275e-05,
      "loss": 0.7786,
      "step": 8126,
      "task_loss": 0.8603947162628174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3682222366333008,
      "epoch": 6.87,
      "learning_rate": 3.0112711333750782e-05,
      "loss": 0.9627,
      "step": 8127,
      "task_loss": 1.8120564222335815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8137875199317932,
      "epoch": 6.87,
      "learning_rate": 3.010958046336882e-05,
      "loss": 0.7197,
      "step": 8128,
      "task_loss": 0.32752174139022827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.500300645828247,
      "epoch": 6.87,
      "learning_rate": 3.0106449592986852e-05,
      "loss": 0.9798,
      "step": 8129,
      "task_loss": 0.8861093521118164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.052286982536316,
      "epoch": 6.87,
      "learning_rate": 3.0103318722604884e-05,
      "loss": 0.7519,
      "step": 8130,
      "task_loss": 0.22675620019435883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5926276445388794,
      "epoch": 6.87,
      "learning_rate": 3.0100187852222923e-05,
      "loss": 0.7451,
      "step": 8131,
      "task_loss": 0.9217538237571716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44961124658584595,
      "epoch": 6.87,
      "learning_rate": 3.0097056981840955e-05,
      "loss": 0.6769,
      "step": 8132,
      "task_loss": 1.1424063444137573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7701340913772583,
      "epoch": 6.87,
      "learning_rate": 3.0093926111458986e-05,
      "loss": 0.6738,
      "step": 8133,
      "task_loss": 0.5107067823410034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7953731417655945,
      "epoch": 6.88,
      "learning_rate": 3.0090795241077018e-05,
      "loss": 0.8647,
      "step": 8134,
      "task_loss": 1.1185576915740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8900073766708374,
      "epoch": 6.88,
      "learning_rate": 3.0087664370695057e-05,
      "loss": 0.9396,
      "step": 8135,
      "task_loss": 1.2536497116088867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.290150910615921,
      "epoch": 6.88,
      "learning_rate": 3.008453350031309e-05,
      "loss": 0.4616,
      "step": 8136,
      "task_loss": 0.03775976225733757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7434871196746826,
      "epoch": 6.88,
      "learning_rate": 3.008140262993112e-05,
      "loss": 0.6697,
      "step": 8137,
      "task_loss": 1.5524439811706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5607860088348389,
      "epoch": 6.88,
      "learning_rate": 3.0078271759549152e-05,
      "loss": 0.629,
      "step": 8138,
      "task_loss": 1.0289041996002197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.68821120262146,
      "epoch": 6.88,
      "learning_rate": 3.007514088916719e-05,
      "loss": 0.7939,
      "step": 8139,
      "task_loss": 0.7378551363945007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4222099184989929,
      "epoch": 6.88,
      "learning_rate": 3.0072010018785222e-05,
      "loss": 0.5754,
      "step": 8140,
      "task_loss": 0.11441431939601898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6319394707679749,
      "epoch": 6.88,
      "learning_rate": 3.0068879148403258e-05,
      "loss": 0.6199,
      "step": 8141,
      "task_loss": 0.33578261733055115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40427738428115845,
      "epoch": 6.88,
      "learning_rate": 3.0065748278021293e-05,
      "loss": 0.683,
      "step": 8142,
      "task_loss": 0.33525505661964417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1200283765792847,
      "epoch": 6.88,
      "learning_rate": 3.0062617407639328e-05,
      "loss": 0.7952,
      "step": 8143,
      "task_loss": 0.7649474740028381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.717497706413269,
      "epoch": 6.88,
      "learning_rate": 3.005948653725736e-05,
      "loss": 0.6227,
      "step": 8144,
      "task_loss": 0.4384651780128479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6021300554275513,
      "epoch": 6.88,
      "learning_rate": 3.005635566687539e-05,
      "loss": 0.5159,
      "step": 8145,
      "task_loss": 0.7214975953102112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3607124090194702,
      "epoch": 6.89,
      "learning_rate": 3.005322479649343e-05,
      "loss": 1.3385,
      "step": 8146,
      "task_loss": 0.8320221900939941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.760191023349762,
      "epoch": 6.89,
      "learning_rate": 3.0050093926111462e-05,
      "loss": 0.907,
      "step": 8147,
      "task_loss": 0.4087485373020172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5911930799484253,
      "epoch": 6.89,
      "learning_rate": 3.0046963055729494e-05,
      "loss": 0.7048,
      "step": 8148,
      "task_loss": 0.8148401379585266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2542433738708496,
      "epoch": 6.89,
      "learning_rate": 3.0043832185347525e-05,
      "loss": 0.5525,
      "step": 8149,
      "task_loss": 0.1834975630044937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7280491590499878,
      "epoch": 6.89,
      "learning_rate": 3.0040701314965564e-05,
      "loss": 0.7083,
      "step": 8150,
      "task_loss": 0.43500208854675293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1002658605575562,
      "epoch": 6.89,
      "learning_rate": 3.0037570444583596e-05,
      "loss": 0.7584,
      "step": 8151,
      "task_loss": 1.1981797218322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5944511890411377,
      "epoch": 6.89,
      "learning_rate": 3.0034439574201627e-05,
      "loss": 0.6571,
      "step": 8152,
      "task_loss": 0.3961486518383026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.925670862197876,
      "epoch": 6.89,
      "learning_rate": 3.003130870381966e-05,
      "loss": 0.7483,
      "step": 8153,
      "task_loss": 1.40053129196167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8908116221427917,
      "epoch": 6.89,
      "learning_rate": 3.0028177833437698e-05,
      "loss": 0.6894,
      "step": 8154,
      "task_loss": 0.8426689505577087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7713844180107117,
      "epoch": 6.89,
      "learning_rate": 3.002504696305573e-05,
      "loss": 0.7339,
      "step": 8155,
      "task_loss": 0.5364183187484741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8727474808692932,
      "epoch": 6.89,
      "learning_rate": 3.002191609267376e-05,
      "loss": 0.7457,
      "step": 8156,
      "task_loss": 1.03933584690094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9055630564689636,
      "epoch": 6.89,
      "learning_rate": 3.00187852222918e-05,
      "loss": 0.8085,
      "step": 8157,
      "task_loss": 0.40826719999313354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7499237656593323,
      "epoch": 6.9,
      "learning_rate": 3.001565435190983e-05,
      "loss": 0.6406,
      "step": 8158,
      "task_loss": 0.6746458411216736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9516542553901672,
      "epoch": 6.9,
      "learning_rate": 3.0012523481527867e-05,
      "loss": 0.9132,
      "step": 8159,
      "task_loss": 1.0802339315414429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6690530180931091,
      "epoch": 6.9,
      "learning_rate": 3.00093926111459e-05,
      "loss": 0.7874,
      "step": 8160,
      "task_loss": 0.5628272294998169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4926019310951233,
      "epoch": 6.9,
      "learning_rate": 3.0006261740763937e-05,
      "loss": 0.704,
      "step": 8161,
      "task_loss": 0.3775377571582794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5091313123703003,
      "epoch": 6.9,
      "learning_rate": 3.000313087038197e-05,
      "loss": 0.8095,
      "step": 8162,
      "task_loss": 0.43810921907424927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7398466467857361,
      "epoch": 6.9,
      "learning_rate": 3e-05,
      "loss": 0.935,
      "step": 8163,
      "task_loss": 0.5929480195045471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6470872759819031,
      "epoch": 6.9,
      "learning_rate": 2.9996869129618033e-05,
      "loss": 0.8357,
      "step": 8164,
      "task_loss": 0.8429592847824097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3146915137767792,
      "epoch": 6.9,
      "learning_rate": 2.999373825923607e-05,
      "loss": 0.8045,
      "step": 8165,
      "task_loss": 0.3597647547721863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5323036909103394,
      "epoch": 6.9,
      "learning_rate": 2.9990607388854103e-05,
      "loss": 0.8836,
      "step": 8166,
      "task_loss": 0.8081330060958862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5580652356147766,
      "epoch": 6.9,
      "learning_rate": 2.9987476518472135e-05,
      "loss": 0.675,
      "step": 8167,
      "task_loss": 0.5136520862579346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4934103488922119,
      "epoch": 6.9,
      "learning_rate": 2.9984345648090173e-05,
      "loss": 0.6918,
      "step": 8168,
      "task_loss": 0.6341977715492249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6579170227050781,
      "epoch": 6.9,
      "learning_rate": 2.9981214777708205e-05,
      "loss": 0.673,
      "step": 8169,
      "task_loss": 0.36020103096961975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7303563356399536,
      "epoch": 6.91,
      "learning_rate": 2.9978083907326237e-05,
      "loss": 0.7982,
      "step": 8170,
      "task_loss": 0.8560694456100464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7556244730949402,
      "epoch": 6.91,
      "learning_rate": 2.997495303694427e-05,
      "loss": 0.8048,
      "step": 8171,
      "task_loss": 1.2690606117248535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6643710136413574,
      "epoch": 6.91,
      "learning_rate": 2.9971822166562307e-05,
      "loss": 0.7317,
      "step": 8172,
      "task_loss": 1.2174793481826782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9286907911300659,
      "epoch": 6.91,
      "learning_rate": 2.996869129618034e-05,
      "loss": 0.759,
      "step": 8173,
      "task_loss": 1.6725319623947144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.751425862312317,
      "epoch": 6.91,
      "learning_rate": 2.9965560425798374e-05,
      "loss": 1.0685,
      "step": 8174,
      "task_loss": 1.7011208534240723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1028659343719482,
      "epoch": 6.91,
      "learning_rate": 2.9962429555416406e-05,
      "loss": 0.7433,
      "step": 8175,
      "task_loss": 0.8444010615348816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.641750693321228,
      "epoch": 6.91,
      "learning_rate": 2.995929868503444e-05,
      "loss": 0.5713,
      "step": 8176,
      "task_loss": 0.20041301846504211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5542474389076233,
      "epoch": 6.91,
      "learning_rate": 2.9956167814652476e-05,
      "loss": 0.6544,
      "step": 8177,
      "task_loss": 2.169489622116089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23805931210517883,
      "epoch": 6.91,
      "learning_rate": 2.9953036944270508e-05,
      "loss": 0.6769,
      "step": 8178,
      "task_loss": 0.17125765979290009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5415460467338562,
      "epoch": 6.91,
      "learning_rate": 2.9949906073888547e-05,
      "loss": 0.6884,
      "step": 8179,
      "task_loss": 0.856005847454071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43035173416137695,
      "epoch": 6.91,
      "learning_rate": 2.994677520350658e-05,
      "loss": 0.587,
      "step": 8180,
      "task_loss": 0.47426703572273254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.645392656326294,
      "epoch": 6.91,
      "learning_rate": 2.994364433312461e-05,
      "loss": 0.7043,
      "step": 8181,
      "task_loss": 0.9160101413726807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7390706539154053,
      "epoch": 6.92,
      "learning_rate": 2.9940513462742642e-05,
      "loss": 0.7232,
      "step": 8182,
      "task_loss": 1.2234392166137695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0875803232192993,
      "epoch": 6.92,
      "learning_rate": 2.993738259236068e-05,
      "loss": 0.9898,
      "step": 8183,
      "task_loss": 1.7948362827301025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.828230619430542,
      "epoch": 6.92,
      "learning_rate": 2.9934251721978712e-05,
      "loss": 0.7672,
      "step": 8184,
      "task_loss": 1.5015982389450073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6170579195022583,
      "epoch": 6.92,
      "learning_rate": 2.9931120851596744e-05,
      "loss": 0.5868,
      "step": 8185,
      "task_loss": 0.4825744330883026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6344759464263916,
      "epoch": 6.92,
      "learning_rate": 2.9927989981214776e-05,
      "loss": 0.6704,
      "step": 8186,
      "task_loss": 1.2865689992904663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5876890420913696,
      "epoch": 6.92,
      "learning_rate": 2.9924859110832814e-05,
      "loss": 0.6273,
      "step": 8187,
      "task_loss": 0.39338040351867676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8761193752288818,
      "epoch": 6.92,
      "learning_rate": 2.9921728240450846e-05,
      "loss": 0.5556,
      "step": 8188,
      "task_loss": 0.6660030484199524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9153162837028503,
      "epoch": 6.92,
      "learning_rate": 2.9918597370068878e-05,
      "loss": 0.7838,
      "step": 8189,
      "task_loss": 1.0175247192382812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48799681663513184,
      "epoch": 6.92,
      "learning_rate": 2.9915466499686916e-05,
      "loss": 0.6237,
      "step": 8190,
      "task_loss": 1.434092402458191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.690570592880249,
      "epoch": 6.92,
      "learning_rate": 2.9912335629304948e-05,
      "loss": 0.6039,
      "step": 8191,
      "task_loss": 0.5776435732841492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7775385975837708,
      "epoch": 6.92,
      "learning_rate": 2.9909204758922983e-05,
      "loss": 0.8117,
      "step": 8192,
      "task_loss": 0.6183419227600098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8063658475875854,
      "epoch": 6.93,
      "learning_rate": 2.9906073888541015e-05,
      "loss": 0.7125,
      "step": 8193,
      "task_loss": 0.9301208257675171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.043213129043579,
      "epoch": 6.93,
      "learning_rate": 2.990294301815905e-05,
      "loss": 0.7671,
      "step": 8194,
      "task_loss": 0.44110265374183655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9006463289260864,
      "epoch": 6.93,
      "learning_rate": 2.9899812147777086e-05,
      "loss": 0.6351,
      "step": 8195,
      "task_loss": 0.33605489134788513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0061187744140625,
      "epoch": 6.93,
      "learning_rate": 2.9896681277395117e-05,
      "loss": 0.851,
      "step": 8196,
      "task_loss": 0.979409396648407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2800246477127075,
      "epoch": 6.93,
      "learning_rate": 2.989355040701315e-05,
      "loss": 0.8479,
      "step": 8197,
      "task_loss": 0.9758844971656799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3742014765739441,
      "epoch": 6.93,
      "learning_rate": 2.9890419536631188e-05,
      "loss": 0.624,
      "step": 8198,
      "task_loss": 0.31285858154296875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5720573663711548,
      "epoch": 6.93,
      "learning_rate": 2.988728866624922e-05,
      "loss": 0.681,
      "step": 8199,
      "task_loss": 0.8196434378623962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7024637460708618,
      "epoch": 6.93,
      "learning_rate": 2.988415779586725e-05,
      "loss": 0.7405,
      "step": 8200,
      "task_loss": 0.6470819115638733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4066734313964844,
      "epoch": 6.93,
      "learning_rate": 2.9881026925485283e-05,
      "loss": 0.8415,
      "step": 8201,
      "task_loss": 0.56482994556427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6262194514274597,
      "epoch": 6.93,
      "learning_rate": 2.987789605510332e-05,
      "loss": 0.5962,
      "step": 8202,
      "task_loss": 0.932586669921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.343085765838623,
      "epoch": 6.93,
      "learning_rate": 2.9874765184721353e-05,
      "loss": 0.784,
      "step": 8203,
      "task_loss": 1.5496526956558228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4097750186920166,
      "epoch": 6.93,
      "learning_rate": 2.9871634314339385e-05,
      "loss": 0.5638,
      "step": 8204,
      "task_loss": 0.2551794648170471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221184492111206,
      "epoch": 6.94,
      "learning_rate": 2.9868503443957424e-05,
      "loss": 0.7039,
      "step": 8205,
      "task_loss": 0.13172177970409393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4865038990974426,
      "epoch": 6.94,
      "learning_rate": 2.9865372573575455e-05,
      "loss": 0.6925,
      "step": 8206,
      "task_loss": 1.3061773777008057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3441685438156128,
      "epoch": 6.94,
      "learning_rate": 2.9862241703193487e-05,
      "loss": 0.5736,
      "step": 8207,
      "task_loss": 0.3088807463645935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3105846047401428,
      "epoch": 6.94,
      "learning_rate": 2.9859110832811522e-05,
      "loss": 0.6129,
      "step": 8208,
      "task_loss": 0.380891889333725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8546575307846069,
      "epoch": 6.94,
      "learning_rate": 2.9855979962429558e-05,
      "loss": 0.9135,
      "step": 8209,
      "task_loss": 0.8510474562644958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6784946322441101,
      "epoch": 6.94,
      "learning_rate": 2.9852849092047593e-05,
      "loss": 0.8152,
      "step": 8210,
      "task_loss": 1.6679670810699463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8533382415771484,
      "epoch": 6.94,
      "learning_rate": 2.9849718221665625e-05,
      "loss": 0.7434,
      "step": 8211,
      "task_loss": 1.4586001634597778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5104595422744751,
      "epoch": 6.94,
      "learning_rate": 2.9846587351283656e-05,
      "loss": 0.7085,
      "step": 8212,
      "task_loss": 0.5304948091506958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37429988384246826,
      "epoch": 6.94,
      "learning_rate": 2.9843456480901695e-05,
      "loss": 0.6383,
      "step": 8213,
      "task_loss": 0.4654366374015808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.677433431148529,
      "epoch": 6.94,
      "learning_rate": 2.9840325610519727e-05,
      "loss": 0.6886,
      "step": 8214,
      "task_loss": 0.29723504185676575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0450596809387207,
      "epoch": 6.94,
      "learning_rate": 2.983719474013776e-05,
      "loss": 0.7517,
      "step": 8215,
      "task_loss": 0.929245114326477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5493571162223816,
      "epoch": 6.94,
      "learning_rate": 2.9834063869755797e-05,
      "loss": 0.6758,
      "step": 8216,
      "task_loss": 0.3659208118915558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.714011549949646,
      "epoch": 6.95,
      "learning_rate": 2.983093299937383e-05,
      "loss": 0.6651,
      "step": 8217,
      "task_loss": 0.9543878436088562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7503427863121033,
      "epoch": 6.95,
      "learning_rate": 2.982780212899186e-05,
      "loss": 0.6965,
      "step": 8218,
      "task_loss": 1.2316817045211792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.563043475151062,
      "epoch": 6.95,
      "learning_rate": 2.9824671258609892e-05,
      "loss": 0.6107,
      "step": 8219,
      "task_loss": 0.4723999798297882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6685945391654968,
      "epoch": 6.95,
      "learning_rate": 2.982154038822793e-05,
      "loss": 0.9951,
      "step": 8220,
      "task_loss": 0.45323818922042847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9790596961975098,
      "epoch": 6.95,
      "learning_rate": 2.9818409517845963e-05,
      "loss": 0.6466,
      "step": 8221,
      "task_loss": 1.1610949039459229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7536357641220093,
      "epoch": 6.95,
      "learning_rate": 2.9815278647463994e-05,
      "loss": 0.717,
      "step": 8222,
      "task_loss": 0.8096750378608704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7741275429725647,
      "epoch": 6.95,
      "learning_rate": 2.9812147777082026e-05,
      "loss": 0.7821,
      "step": 8223,
      "task_loss": 1.2198443412780762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009340047836304,
      "epoch": 6.95,
      "learning_rate": 2.9809016906700065e-05,
      "loss": 0.6107,
      "step": 8224,
      "task_loss": 0.32648107409477234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.656183123588562,
      "epoch": 6.95,
      "learning_rate": 2.9805886036318097e-05,
      "loss": 0.8437,
      "step": 8225,
      "task_loss": 0.3111511766910553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7237969040870667,
      "epoch": 6.95,
      "learning_rate": 2.9802755165936132e-05,
      "loss": 0.8842,
      "step": 8226,
      "task_loss": 0.4510647654533386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0425610542297363,
      "epoch": 6.95,
      "learning_rate": 2.9799624295554167e-05,
      "loss": 0.8608,
      "step": 8227,
      "task_loss": 0.9519915580749512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7855206727981567,
      "epoch": 6.95,
      "learning_rate": 2.9796493425172202e-05,
      "loss": 0.6707,
      "step": 8228,
      "task_loss": 0.661739706993103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7616167664527893,
      "epoch": 6.96,
      "learning_rate": 2.9793362554790234e-05,
      "loss": 0.8077,
      "step": 8229,
      "task_loss": 0.6744396686553955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0198662281036377,
      "epoch": 6.96,
      "learning_rate": 2.9790231684408266e-05,
      "loss": 0.9171,
      "step": 8230,
      "task_loss": 0.6151405572891235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9492737650871277,
      "epoch": 6.96,
      "learning_rate": 2.9787100814026304e-05,
      "loss": 0.7138,
      "step": 8231,
      "task_loss": 1.049807071685791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7409478425979614,
      "epoch": 6.96,
      "learning_rate": 2.9783969943644336e-05,
      "loss": 0.726,
      "step": 8232,
      "task_loss": 1.4285073280334473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49430251121520996,
      "epoch": 6.96,
      "learning_rate": 2.9780839073262368e-05,
      "loss": 0.4874,
      "step": 8233,
      "task_loss": 0.24297265708446503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8631232380867004,
      "epoch": 6.96,
      "learning_rate": 2.97777082028804e-05,
      "loss": 0.6819,
      "step": 8234,
      "task_loss": 0.7193951606750488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9551374316215515,
      "epoch": 6.96,
      "learning_rate": 2.9774577332498438e-05,
      "loss": 0.8133,
      "step": 8235,
      "task_loss": 0.9354220628738403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6289761662483215,
      "epoch": 6.96,
      "learning_rate": 2.977144646211647e-05,
      "loss": 0.6106,
      "step": 8236,
      "task_loss": 0.41213613748550415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7536382675170898,
      "epoch": 6.96,
      "learning_rate": 2.97683155917345e-05,
      "loss": 0.6939,
      "step": 8237,
      "task_loss": 1.4889625310897827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.591346263885498,
      "epoch": 6.96,
      "learning_rate": 2.9765184721352533e-05,
      "loss": 0.7047,
      "step": 8238,
      "task_loss": 0.529362142086029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5472671985626221,
      "epoch": 6.96,
      "learning_rate": 2.9762053850970572e-05,
      "loss": 0.7262,
      "step": 8239,
      "task_loss": 0.36773988604545593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8629181385040283,
      "epoch": 6.96,
      "learning_rate": 2.9758922980588604e-05,
      "loss": 0.8885,
      "step": 8240,
      "task_loss": 0.34048375487327576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611582398414612,
      "epoch": 6.97,
      "learning_rate": 2.975579211020664e-05,
      "loss": 0.7634,
      "step": 8241,
      "task_loss": 0.23405542969703674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5249444246292114,
      "epoch": 6.97,
      "learning_rate": 2.9752661239824674e-05,
      "loss": 0.5929,
      "step": 8242,
      "task_loss": 0.8978744745254517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4134767949581146,
      "epoch": 6.97,
      "learning_rate": 2.9749530369442706e-05,
      "loss": 0.8335,
      "step": 8243,
      "task_loss": 0.11002688854932785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4800195693969727,
      "epoch": 6.97,
      "learning_rate": 2.974639949906074e-05,
      "loss": 0.7747,
      "step": 8244,
      "task_loss": 1.490763545036316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.893944501876831,
      "epoch": 6.97,
      "learning_rate": 2.9743268628678773e-05,
      "loss": 0.7661,
      "step": 8245,
      "task_loss": 1.4952266216278076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8417910933494568,
      "epoch": 6.97,
      "learning_rate": 2.974013775829681e-05,
      "loss": 0.7907,
      "step": 8246,
      "task_loss": 1.0339423418045044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8535694479942322,
      "epoch": 6.97,
      "learning_rate": 2.9737006887914843e-05,
      "loss": 0.7274,
      "step": 8247,
      "task_loss": 0.5682619214057922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2043683528900146,
      "epoch": 6.97,
      "learning_rate": 2.9733876017532875e-05,
      "loss": 0.8688,
      "step": 8248,
      "task_loss": 0.928697407245636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.502396285533905,
      "epoch": 6.97,
      "learning_rate": 2.9730745147150907e-05,
      "loss": 0.6291,
      "step": 8249,
      "task_loss": 1.0411654710769653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0455117225646973,
      "epoch": 6.97,
      "learning_rate": 2.9727614276768945e-05,
      "loss": 0.9488,
      "step": 8250,
      "task_loss": 1.4214110374450684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5337565541267395,
      "epoch": 6.97,
      "learning_rate": 2.9724483406386977e-05,
      "loss": 0.5707,
      "step": 8251,
      "task_loss": 0.39270198345184326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.050272822380066,
      "epoch": 6.97,
      "learning_rate": 2.972135253600501e-05,
      "loss": 0.8119,
      "step": 8252,
      "task_loss": 1.0450643301010132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8007222414016724,
      "epoch": 6.98,
      "learning_rate": 2.9718221665623047e-05,
      "loss": 0.6158,
      "step": 8253,
      "task_loss": 0.19106417894363403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6590077877044678,
      "epoch": 6.98,
      "learning_rate": 2.971509079524108e-05,
      "loss": 0.6862,
      "step": 8254,
      "task_loss": 1.2598692178726196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8908135294914246,
      "epoch": 6.98,
      "learning_rate": 2.971195992485911e-05,
      "loss": 0.7687,
      "step": 8255,
      "task_loss": 1.0055832862854004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9464797973632812,
      "epoch": 6.98,
      "learning_rate": 2.9708829054477143e-05,
      "loss": 0.7208,
      "step": 8256,
      "task_loss": 1.1358431577682495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36312586069107056,
      "epoch": 6.98,
      "learning_rate": 2.970569818409518e-05,
      "loss": 0.7463,
      "step": 8257,
      "task_loss": 0.10128264129161835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0695358514785767,
      "epoch": 6.98,
      "learning_rate": 2.9702567313713213e-05,
      "loss": 0.9328,
      "step": 8258,
      "task_loss": 0.917073130607605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4656471610069275,
      "epoch": 6.98,
      "learning_rate": 2.9699436443331248e-05,
      "loss": 0.8154,
      "step": 8259,
      "task_loss": 2.1287946701049805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6003868579864502,
      "epoch": 6.98,
      "learning_rate": 2.969630557294928e-05,
      "loss": 1.2113,
      "step": 8260,
      "task_loss": 1.5413974523544312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7342080473899841,
      "epoch": 6.98,
      "learning_rate": 2.9693174702567315e-05,
      "loss": 0.7261,
      "step": 8261,
      "task_loss": 0.8838079571723938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8852670788764954,
      "epoch": 6.98,
      "learning_rate": 2.969004383218535e-05,
      "loss": 0.9114,
      "step": 8262,
      "task_loss": 1.424656629562378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33947497606277466,
      "epoch": 6.98,
      "learning_rate": 2.9686912961803382e-05,
      "loss": 0.6364,
      "step": 8263,
      "task_loss": 0.5398897528648376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.866936445236206,
      "epoch": 6.99,
      "learning_rate": 2.968378209142142e-05,
      "loss": 0.8708,
      "step": 8264,
      "task_loss": 0.8721164464950562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6497496366500854,
      "epoch": 6.99,
      "learning_rate": 2.9680651221039453e-05,
      "loss": 0.8662,
      "step": 8265,
      "task_loss": 0.6810654401779175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6576759219169617,
      "epoch": 6.99,
      "learning_rate": 2.9677520350657484e-05,
      "loss": 0.6315,
      "step": 8266,
      "task_loss": 0.42672035098075867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8447191715240479,
      "epoch": 6.99,
      "learning_rate": 2.9674389480275516e-05,
      "loss": 0.6699,
      "step": 8267,
      "task_loss": 0.9529343843460083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8710964322090149,
      "epoch": 6.99,
      "learning_rate": 2.9671258609893555e-05,
      "loss": 0.6928,
      "step": 8268,
      "task_loss": 0.9233689308166504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3517892360687256,
      "epoch": 6.99,
      "learning_rate": 2.9668127739511586e-05,
      "loss": 0.5104,
      "step": 8269,
      "task_loss": 0.07728548347949982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6382412314414978,
      "epoch": 6.99,
      "learning_rate": 2.9664996869129618e-05,
      "loss": 0.6561,
      "step": 8270,
      "task_loss": 0.8234065771102905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6031219363212585,
      "epoch": 6.99,
      "learning_rate": 2.966186599874765e-05,
      "loss": 0.6734,
      "step": 8271,
      "task_loss": 0.5661101341247559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0777146816253662,
      "epoch": 6.99,
      "learning_rate": 2.965873512836569e-05,
      "loss": 0.8744,
      "step": 8272,
      "task_loss": 1.0266369581222534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25994181632995605,
      "epoch": 6.99,
      "learning_rate": 2.965560425798372e-05,
      "loss": 0.7299,
      "step": 8273,
      "task_loss": 0.5192921757698059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3277108371257782,
      "epoch": 6.99,
      "learning_rate": 2.9652473387601752e-05,
      "loss": 0.6538,
      "step": 8274,
      "task_loss": 0.6769075989723206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9310105443000793,
      "epoch": 6.99,
      "learning_rate": 2.9649342517219787e-05,
      "loss": 0.8215,
      "step": 8275,
      "task_loss": 1.0044070482254028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6757031679153442,
      "epoch": 7.0,
      "learning_rate": 2.9646211646837822e-05,
      "loss": 0.8455,
      "step": 8276,
      "task_loss": 0.9293089509010315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3385341167449951,
      "epoch": 7.0,
      "learning_rate": 2.9643080776455858e-05,
      "loss": 0.72,
      "step": 8277,
      "task_loss": 1.0852843523025513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8529776930809021,
      "epoch": 7.0,
      "learning_rate": 2.963994990607389e-05,
      "loss": 0.6461,
      "step": 8278,
      "task_loss": 0.6830036640167236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.512182354927063,
      "epoch": 7.0,
      "learning_rate": 2.9636819035691925e-05,
      "loss": 0.7253,
      "step": 8279,
      "task_loss": 0.43033504486083984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6444985270500183,
      "epoch": 7.0,
      "learning_rate": 2.963368816530996e-05,
      "loss": 0.7773,
      "step": 8280,
      "task_loss": 0.35942596197128296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205936908721924,
      "epoch": 7.0,
      "learning_rate": 2.963055729492799e-05,
      "loss": 0.9441,
      "step": 8281,
      "task_loss": 0.41733843088150024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.732996940612793,
      "epoch": 7.0,
      "learning_rate": 2.9627426424546023e-05,
      "loss": 1.12,
      "step": 8282,
      "task_loss": 1.7237622737884521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5007354617118835,
      "epoch": 7.0,
      "learning_rate": 2.9624295554164062e-05,
      "loss": 0.6771,
      "step": 8283,
      "task_loss": 0.5290696620941162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7311705350875854,
      "epoch": 7.0,
      "learning_rate": 2.9621164683782094e-05,
      "loss": 0.7748,
      "step": 8284,
      "task_loss": 1.049642562866211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8961499929428101,
      "epoch": 7.0,
      "learning_rate": 2.9618033813400125e-05,
      "loss": 1.0042,
      "step": 8285,
      "task_loss": 0.6140655279159546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6043975353240967,
      "epoch": 7.0,
      "learning_rate": 2.9614902943018157e-05,
      "loss": 0.6335,
      "step": 8286,
      "task_loss": 1.2655041217803955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0003442764282227,
      "epoch": 7.01,
      "learning_rate": 2.9611772072636196e-05,
      "loss": 0.628,
      "step": 8287,
      "task_loss": 1.1508104801177979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4548141658306122,
      "epoch": 7.01,
      "learning_rate": 2.9608641202254228e-05,
      "loss": 0.5567,
      "step": 8288,
      "task_loss": 0.12835673987865448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5635116100311279,
      "epoch": 7.01,
      "learning_rate": 2.960551033187226e-05,
      "loss": 0.5521,
      "step": 8289,
      "task_loss": 0.8541569709777832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.501203715801239,
      "epoch": 7.01,
      "learning_rate": 2.9602379461490298e-05,
      "loss": 0.6824,
      "step": 8290,
      "task_loss": 0.4687481224536896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.305403709411621,
      "epoch": 7.01,
      "learning_rate": 2.959924859110833e-05,
      "loss": 0.9124,
      "step": 8291,
      "task_loss": 1.7101144790649414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7404775619506836,
      "epoch": 7.01,
      "learning_rate": 2.959611772072636e-05,
      "loss": 0.6127,
      "step": 8292,
      "task_loss": 0.787891685962677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3041313588619232,
      "epoch": 7.01,
      "learning_rate": 2.9592986850344397e-05,
      "loss": 0.5077,
      "step": 8293,
      "task_loss": 0.20365099608898163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6780048608779907,
      "epoch": 7.01,
      "learning_rate": 2.9589855979962432e-05,
      "loss": 0.698,
      "step": 8294,
      "task_loss": 1.301695466041565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45375165343284607,
      "epoch": 7.01,
      "learning_rate": 2.9586725109580467e-05,
      "loss": 0.5657,
      "step": 8295,
      "task_loss": 0.07930853962898254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7668604254722595,
      "epoch": 7.01,
      "learning_rate": 2.95835942391985e-05,
      "loss": 0.8544,
      "step": 8296,
      "task_loss": 0.24958106875419617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8030464053153992,
      "epoch": 7.01,
      "learning_rate": 2.958046336881653e-05,
      "loss": 0.6824,
      "step": 8297,
      "task_loss": 1.2833049297332764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6652414798736572,
      "epoch": 7.01,
      "learning_rate": 2.957733249843457e-05,
      "loss": 0.5697,
      "step": 8298,
      "task_loss": 0.2099601775407791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4663553237915039,
      "epoch": 7.02,
      "learning_rate": 2.95742016280526e-05,
      "loss": 0.8593,
      "step": 8299,
      "task_loss": 0.60401451587677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.175383448600769,
      "epoch": 7.02,
      "learning_rate": 2.9571070757670633e-05,
      "loss": 0.8234,
      "step": 8300,
      "task_loss": 1.2107056379318237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6785612106323242,
      "epoch": 7.02,
      "learning_rate": 2.956793988728867e-05,
      "loss": 0.9465,
      "step": 8301,
      "task_loss": 0.9491071105003357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1463512182235718,
      "epoch": 7.02,
      "learning_rate": 2.9564809016906703e-05,
      "loss": 0.6308,
      "step": 8302,
      "task_loss": 0.7252556085586548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7106937766075134,
      "epoch": 7.02,
      "learning_rate": 2.9561678146524735e-05,
      "loss": 0.6775,
      "step": 8303,
      "task_loss": 0.8139784336090088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5031838417053223,
      "epoch": 7.02,
      "learning_rate": 2.9558547276142767e-05,
      "loss": 0.5506,
      "step": 8304,
      "task_loss": 0.7641212344169617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2974848747253418,
      "epoch": 7.02,
      "learning_rate": 2.9555416405760805e-05,
      "loss": 0.7862,
      "step": 8305,
      "task_loss": 1.3614537715911865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8155326247215271,
      "epoch": 7.02,
      "learning_rate": 2.9552285535378837e-05,
      "loss": 0.6008,
      "step": 8306,
      "task_loss": 0.6444891691207886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9127753973007202,
      "epoch": 7.02,
      "learning_rate": 2.954915466499687e-05,
      "loss": 0.9032,
      "step": 8307,
      "task_loss": 0.7909960746765137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.578173041343689,
      "epoch": 7.02,
      "learning_rate": 2.95460237946149e-05,
      "loss": 0.755,
      "step": 8308,
      "task_loss": 0.7292129397392273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8236485719680786,
      "epoch": 7.02,
      "learning_rate": 2.954289292423294e-05,
      "loss": 0.6184,
      "step": 8309,
      "task_loss": 0.6418868899345398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5954790115356445,
      "epoch": 7.02,
      "learning_rate": 2.953976205385097e-05,
      "loss": 0.6159,
      "step": 8310,
      "task_loss": 0.5928274393081665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5394206047058105,
      "epoch": 7.03,
      "learning_rate": 2.9536631183469006e-05,
      "loss": 0.5195,
      "step": 8311,
      "task_loss": 0.5669342875480652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4728372097015381,
      "epoch": 7.03,
      "learning_rate": 2.9533500313087038e-05,
      "loss": 0.5634,
      "step": 8312,
      "task_loss": 0.7026256322860718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6519684195518494,
      "epoch": 7.03,
      "learning_rate": 2.9530369442705076e-05,
      "loss": 0.7188,
      "step": 8313,
      "task_loss": 0.5890498757362366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4128437042236328,
      "epoch": 7.03,
      "learning_rate": 2.9527238572323108e-05,
      "loss": 0.5977,
      "step": 8314,
      "task_loss": 1.1083765029907227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1980838775634766,
      "epoch": 7.03,
      "learning_rate": 2.952410770194114e-05,
      "loss": 0.7537,
      "step": 8315,
      "task_loss": 2.2525205612182617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9620577096939087,
      "epoch": 7.03,
      "learning_rate": 2.952097683155918e-05,
      "loss": 0.753,
      "step": 8316,
      "task_loss": 0.8067613244056702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6200445890426636,
      "epoch": 7.03,
      "learning_rate": 2.951784596117721e-05,
      "loss": 0.7674,
      "step": 8317,
      "task_loss": 0.36662977933883667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26172181963920593,
      "epoch": 7.03,
      "learning_rate": 2.9514715090795242e-05,
      "loss": 0.6551,
      "step": 8318,
      "task_loss": 0.08137420564889908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6700535416603088,
      "epoch": 7.03,
      "learning_rate": 2.9511584220413274e-05,
      "loss": 0.7798,
      "step": 8319,
      "task_loss": 0.3775390088558197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6234840154647827,
      "epoch": 7.03,
      "learning_rate": 2.9508453350031312e-05,
      "loss": 0.6224,
      "step": 8320,
      "task_loss": 0.6887292861938477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.883590579032898,
      "epoch": 7.03,
      "learning_rate": 2.9505322479649344e-05,
      "loss": 0.5723,
      "step": 8321,
      "task_loss": 0.9843320846557617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.863947331905365,
      "epoch": 7.03,
      "learning_rate": 2.9502191609267376e-05,
      "loss": 0.6382,
      "step": 8322,
      "task_loss": 1.0454102754592896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8319348096847534,
      "epoch": 7.04,
      "learning_rate": 2.9499060738885408e-05,
      "loss": 0.7675,
      "step": 8323,
      "task_loss": 1.7220377922058105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8638874292373657,
      "epoch": 7.04,
      "learning_rate": 2.9495929868503446e-05,
      "loss": 0.6589,
      "step": 8324,
      "task_loss": 0.7224755883216858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6129441261291504,
      "epoch": 7.04,
      "learning_rate": 2.9492798998121478e-05,
      "loss": 0.8373,
      "step": 8325,
      "task_loss": 0.1667366772890091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4078971743583679,
      "epoch": 7.04,
      "learning_rate": 2.9489668127739513e-05,
      "loss": 0.4557,
      "step": 8326,
      "task_loss": 0.5577316880226135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7338078022003174,
      "epoch": 7.04,
      "learning_rate": 2.9486537257357548e-05,
      "loss": 0.62,
      "step": 8327,
      "task_loss": 1.645006537437439
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7689014673233032,
      "epoch": 7.04,
      "learning_rate": 2.948340638697558e-05,
      "loss": 0.6687,
      "step": 8328,
      "task_loss": 1.5956709384918213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47535979747772217,
      "epoch": 7.04,
      "learning_rate": 2.9480275516593615e-05,
      "loss": 0.5085,
      "step": 8329,
      "task_loss": 0.49476632475852966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9519761204719543,
      "epoch": 7.04,
      "learning_rate": 2.9477144646211647e-05,
      "loss": 0.7381,
      "step": 8330,
      "task_loss": 1.0267894268035889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6099039316177368,
      "epoch": 7.04,
      "learning_rate": 2.9474013775829686e-05,
      "loss": 0.7073,
      "step": 8331,
      "task_loss": 0.3174267113208771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7507873773574829,
      "epoch": 7.04,
      "learning_rate": 2.9470882905447717e-05,
      "loss": 0.5932,
      "step": 8332,
      "task_loss": 1.1417258977890015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.586452066898346,
      "epoch": 7.04,
      "learning_rate": 2.946775203506575e-05,
      "loss": 0.5817,
      "step": 8333,
      "task_loss": 0.13202017545700073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6832911968231201,
      "epoch": 7.04,
      "learning_rate": 2.946462116468378e-05,
      "loss": 0.6446,
      "step": 8334,
      "task_loss": 0.5949323177337646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3632161617279053,
      "epoch": 7.05,
      "learning_rate": 2.946149029430182e-05,
      "loss": 0.8136,
      "step": 8335,
      "task_loss": 0.5176236629486084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7284740209579468,
      "epoch": 7.05,
      "learning_rate": 2.945835942391985e-05,
      "loss": 0.888,
      "step": 8336,
      "task_loss": 1.9483602046966553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6673047542572021,
      "epoch": 7.05,
      "learning_rate": 2.9455228553537883e-05,
      "loss": 0.5825,
      "step": 8337,
      "task_loss": 0.3788047730922699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7463514804840088,
      "epoch": 7.05,
      "learning_rate": 2.945209768315592e-05,
      "loss": 0.5966,
      "step": 8338,
      "task_loss": 0.719331681728363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9642539024353027,
      "epoch": 7.05,
      "learning_rate": 2.9448966812773953e-05,
      "loss": 0.7568,
      "step": 8339,
      "task_loss": 1.693311333656311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5490775108337402,
      "epoch": 7.05,
      "learning_rate": 2.9445835942391985e-05,
      "loss": 0.6322,
      "step": 8340,
      "task_loss": 0.42148587107658386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5579831600189209,
      "epoch": 7.05,
      "learning_rate": 2.9442705072010017e-05,
      "loss": 0.7151,
      "step": 8341,
      "task_loss": 0.9865814447402954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.257936716079712,
      "epoch": 7.05,
      "learning_rate": 2.9439574201628056e-05,
      "loss": 0.9567,
      "step": 8342,
      "task_loss": 1.1076250076293945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6079378724098206,
      "epoch": 7.05,
      "learning_rate": 2.9436443331246087e-05,
      "loss": 0.5286,
      "step": 8343,
      "task_loss": 0.6095579862594604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37184450030326843,
      "epoch": 7.05,
      "learning_rate": 2.9433312460864122e-05,
      "loss": 0.5806,
      "step": 8344,
      "task_loss": 0.8754131197929382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5585755109786987,
      "epoch": 7.05,
      "learning_rate": 2.9430181590482154e-05,
      "loss": 0.6811,
      "step": 8345,
      "task_loss": 0.691850483417511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4130551218986511,
      "epoch": 7.05,
      "learning_rate": 2.942705072010019e-05,
      "loss": 0.6256,
      "step": 8346,
      "task_loss": 0.9425588846206665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.909311830997467,
      "epoch": 7.06,
      "learning_rate": 2.9423919849718225e-05,
      "loss": 0.7332,
      "step": 8347,
      "task_loss": 0.9789543151855469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.397413432598114,
      "epoch": 7.06,
      "learning_rate": 2.9420788979336256e-05,
      "loss": 0.786,
      "step": 8348,
      "task_loss": 0.36813005805015564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.805423378944397,
      "epoch": 7.06,
      "learning_rate": 2.9417658108954288e-05,
      "loss": 0.657,
      "step": 8349,
      "task_loss": 0.9609295725822449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0089960098266602,
      "epoch": 7.06,
      "learning_rate": 2.9414527238572327e-05,
      "loss": 0.604,
      "step": 8350,
      "task_loss": 1.1505802869796753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8323147296905518,
      "epoch": 7.06,
      "learning_rate": 2.941139636819036e-05,
      "loss": 0.6513,
      "step": 8351,
      "task_loss": 0.9915481209754944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8365718126296997,
      "epoch": 7.06,
      "learning_rate": 2.940826549780839e-05,
      "loss": 0.7836,
      "step": 8352,
      "task_loss": 0.7775787711143494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4506862163543701,
      "epoch": 7.06,
      "learning_rate": 2.940513462742643e-05,
      "loss": 0.495,
      "step": 8353,
      "task_loss": 0.5949183702468872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.670773983001709,
      "epoch": 7.06,
      "learning_rate": 2.940200375704446e-05,
      "loss": 0.652,
      "step": 8354,
      "task_loss": 0.6408771872520447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6360841393470764,
      "epoch": 7.06,
      "learning_rate": 2.9398872886662492e-05,
      "loss": 0.7203,
      "step": 8355,
      "task_loss": 0.2654729187488556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6759210228919983,
      "epoch": 7.06,
      "learning_rate": 2.9395742016280524e-05,
      "loss": 0.6082,
      "step": 8356,
      "task_loss": 1.006055474281311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5370023250579834,
      "epoch": 7.06,
      "learning_rate": 2.9392611145898563e-05,
      "loss": 0.7687,
      "step": 8357,
      "task_loss": 1.113146424293518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44977694749832153,
      "epoch": 7.07,
      "learning_rate": 2.9389480275516595e-05,
      "loss": 0.5649,
      "step": 8358,
      "task_loss": 1.1804192066192627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6669475436210632,
      "epoch": 7.07,
      "learning_rate": 2.9386349405134626e-05,
      "loss": 0.8261,
      "step": 8359,
      "task_loss": 1.0568162202835083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5299201607704163,
      "epoch": 7.07,
      "learning_rate": 2.938321853475266e-05,
      "loss": 0.5451,
      "step": 8360,
      "task_loss": 0.8611422777175903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6079142093658447,
      "epoch": 7.07,
      "learning_rate": 2.9380087664370697e-05,
      "loss": 0.6003,
      "step": 8361,
      "task_loss": 1.270713448524475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45716309547424316,
      "epoch": 7.07,
      "learning_rate": 2.9376956793988732e-05,
      "loss": 0.6947,
      "step": 8362,
      "task_loss": 0.19058650732040405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5224007964134216,
      "epoch": 7.07,
      "learning_rate": 2.9373825923606764e-05,
      "loss": 0.7694,
      "step": 8363,
      "task_loss": 0.14001256227493286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5531502366065979,
      "epoch": 7.07,
      "learning_rate": 2.93706950532248e-05,
      "loss": 0.7021,
      "step": 8364,
      "task_loss": 0.7022714018821716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.535232663154602,
      "epoch": 7.07,
      "learning_rate": 2.9367564182842834e-05,
      "loss": 0.5145,
      "step": 8365,
      "task_loss": 0.6700655817985535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4933353066444397,
      "epoch": 7.07,
      "learning_rate": 2.9364433312460866e-05,
      "loss": 0.4529,
      "step": 8366,
      "task_loss": 0.304262638092041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36001619696617126,
      "epoch": 7.07,
      "learning_rate": 2.9361302442078897e-05,
      "loss": 0.4356,
      "step": 8367,
      "task_loss": 0.09022704511880875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4008488655090332,
      "epoch": 7.07,
      "learning_rate": 2.9358171571696936e-05,
      "loss": 0.5768,
      "step": 8368,
      "task_loss": 0.8851678371429443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6072884798049927,
      "epoch": 7.07,
      "learning_rate": 2.9355040701314968e-05,
      "loss": 0.6185,
      "step": 8369,
      "task_loss": 0.653599739074707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9832698106765747,
      "epoch": 7.08,
      "learning_rate": 2.9351909830933e-05,
      "loss": 0.7962,
      "step": 8370,
      "task_loss": 0.8289151191711426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9965639114379883,
      "epoch": 7.08,
      "learning_rate": 2.934877896055103e-05,
      "loss": 0.6321,
      "step": 8371,
      "task_loss": 1.637667179107666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6466943025588989,
      "epoch": 7.08,
      "learning_rate": 2.934564809016907e-05,
      "loss": 0.7185,
      "step": 8372,
      "task_loss": 1.939172625541687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7484586238861084,
      "epoch": 7.08,
      "learning_rate": 2.9342517219787102e-05,
      "loss": 0.8285,
      "step": 8373,
      "task_loss": 1.6172107458114624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4636559784412384,
      "epoch": 7.08,
      "learning_rate": 2.9339386349405134e-05,
      "loss": 0.7622,
      "step": 8374,
      "task_loss": 0.39617785811424255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6572720408439636,
      "epoch": 7.08,
      "learning_rate": 2.9336255479023172e-05,
      "loss": 0.5843,
      "step": 8375,
      "task_loss": 0.09491807222366333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5226950645446777,
      "epoch": 7.08,
      "learning_rate": 2.9333124608641204e-05,
      "loss": 0.6463,
      "step": 8376,
      "task_loss": 0.9544906616210938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6478410959243774,
      "epoch": 7.08,
      "learning_rate": 2.9329993738259236e-05,
      "loss": 0.6844,
      "step": 8377,
      "task_loss": 0.8824155926704407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7192875742912292,
      "epoch": 7.08,
      "learning_rate": 2.932686286787727e-05,
      "loss": 0.6068,
      "step": 8378,
      "task_loss": 1.0658384561538696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7030977010726929,
      "epoch": 7.08,
      "learning_rate": 2.9323731997495306e-05,
      "loss": 0.7623,
      "step": 8379,
      "task_loss": 1.1669188737869263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8288366794586182,
      "epoch": 7.08,
      "learning_rate": 2.932060112711334e-05,
      "loss": 0.7088,
      "step": 8380,
      "task_loss": 2.2414560317993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7514395713806152,
      "epoch": 7.08,
      "learning_rate": 2.9317470256731373e-05,
      "loss": 0.6024,
      "step": 8381,
      "task_loss": 1.1083250045776367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1825751066207886,
      "epoch": 7.09,
      "learning_rate": 2.9314339386349405e-05,
      "loss": 0.8349,
      "step": 8382,
      "task_loss": 1.11164391040802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3609377145767212,
      "epoch": 7.09,
      "learning_rate": 2.9311208515967443e-05,
      "loss": 0.6968,
      "step": 8383,
      "task_loss": 1.25571870803833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.769501805305481,
      "epoch": 7.09,
      "learning_rate": 2.9308077645585475e-05,
      "loss": 0.5197,
      "step": 8384,
      "task_loss": 1.4435622692108154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46155059337615967,
      "epoch": 7.09,
      "learning_rate": 2.9304946775203507e-05,
      "loss": 0.5953,
      "step": 8385,
      "task_loss": 0.8137142658233643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5700051784515381,
      "epoch": 7.09,
      "learning_rate": 2.930181590482154e-05,
      "loss": 0.7934,
      "step": 8386,
      "task_loss": 0.4249722957611084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0433627367019653,
      "epoch": 7.09,
      "learning_rate": 2.9298685034439577e-05,
      "loss": 0.8478,
      "step": 8387,
      "task_loss": 0.6368272304534912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5494570732116699,
      "epoch": 7.09,
      "learning_rate": 2.929555416405761e-05,
      "loss": 0.6659,
      "step": 8388,
      "task_loss": 0.4476962983608246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6525925397872925,
      "epoch": 7.09,
      "learning_rate": 2.929242329367564e-05,
      "loss": 0.5141,
      "step": 8389,
      "task_loss": 1.2259167432785034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0710070133209229,
      "epoch": 7.09,
      "learning_rate": 2.928929242329368e-05,
      "loss": 0.7469,
      "step": 8390,
      "task_loss": 0.9697255492210388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0444247722625732,
      "epoch": 7.09,
      "learning_rate": 2.928616155291171e-05,
      "loss": 0.7506,
      "step": 8391,
      "task_loss": 1.4048583507537842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1489598751068115,
      "epoch": 7.09,
      "learning_rate": 2.9283030682529743e-05,
      "loss": 0.9545,
      "step": 8392,
      "task_loss": 1.3230764865875244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7074766755104065,
      "epoch": 7.09,
      "learning_rate": 2.9279899812147778e-05,
      "loss": 0.7927,
      "step": 8393,
      "task_loss": 0.7097452282905579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3774504065513611,
      "epoch": 7.1,
      "learning_rate": 2.9276768941765813e-05,
      "loss": 0.6719,
      "step": 8394,
      "task_loss": 0.967192530632019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4025534391403198,
      "epoch": 7.1,
      "learning_rate": 2.9273638071383845e-05,
      "loss": 0.5521,
      "step": 8395,
      "task_loss": 0.4960082769393921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8260334730148315,
      "epoch": 7.1,
      "learning_rate": 2.927050720100188e-05,
      "loss": 0.82,
      "step": 8396,
      "task_loss": 0.7959938049316406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45791202783584595,
      "epoch": 7.1,
      "learning_rate": 2.9267376330619912e-05,
      "loss": 0.6592,
      "step": 8397,
      "task_loss": 1.0171210765838623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9668603539466858,
      "epoch": 7.1,
      "learning_rate": 2.926424546023795e-05,
      "loss": 0.7642,
      "step": 8398,
      "task_loss": 1.804939866065979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6358003616333008,
      "epoch": 7.1,
      "learning_rate": 2.9261114589855982e-05,
      "loss": 0.9043,
      "step": 8399,
      "task_loss": 1.1619596481323242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7378454208374023,
      "epoch": 7.1,
      "learning_rate": 2.9257983719474014e-05,
      "loss": 0.7915,
      "step": 8400,
      "task_loss": 0.4507439136505127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0098702907562256,
      "epoch": 7.1,
      "learning_rate": 2.9254852849092053e-05,
      "loss": 0.7411,
      "step": 8401,
      "task_loss": 0.6980133652687073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7672312259674072,
      "epoch": 7.1,
      "learning_rate": 2.9251721978710084e-05,
      "loss": 0.7011,
      "step": 8402,
      "task_loss": 1.281646728515625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45192790031433105,
      "epoch": 7.1,
      "learning_rate": 2.9248591108328116e-05,
      "loss": 0.6997,
      "step": 8403,
      "task_loss": 0.7668692469596863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5556004047393799,
      "epoch": 7.1,
      "learning_rate": 2.9245460237946148e-05,
      "loss": 0.6969,
      "step": 8404,
      "task_loss": 0.2961523234844208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5933274626731873,
      "epoch": 7.1,
      "learning_rate": 2.9242329367564186e-05,
      "loss": 0.6935,
      "step": 8405,
      "task_loss": 0.7611309885978699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4950964152812958,
      "epoch": 7.11,
      "learning_rate": 2.9239198497182218e-05,
      "loss": 0.876,
      "step": 8406,
      "task_loss": 0.8504976630210876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6239908933639526,
      "epoch": 7.11,
      "learning_rate": 2.923606762680025e-05,
      "loss": 0.6772,
      "step": 8407,
      "task_loss": 1.0180819034576416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7426325678825378,
      "epoch": 7.11,
      "learning_rate": 2.9232936756418282e-05,
      "loss": 0.8633,
      "step": 8408,
      "task_loss": 1.7080402374267578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5002589225769043,
      "epoch": 7.11,
      "learning_rate": 2.922980588603632e-05,
      "loss": 0.5745,
      "step": 8409,
      "task_loss": 1.1212892532348633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3810337781906128,
      "epoch": 7.11,
      "learning_rate": 2.9226675015654352e-05,
      "loss": 0.475,
      "step": 8410,
      "task_loss": 0.2896597981452942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8141155242919922,
      "epoch": 7.11,
      "learning_rate": 2.9223544145272387e-05,
      "loss": 0.6559,
      "step": 8411,
      "task_loss": 0.29846805334091187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7127605676651001,
      "epoch": 7.11,
      "learning_rate": 2.9220413274890423e-05,
      "loss": 0.5718,
      "step": 8412,
      "task_loss": 0.5656725764274597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.657057523727417,
      "epoch": 7.11,
      "learning_rate": 2.9217282404508454e-05,
      "loss": 0.7406,
      "step": 8413,
      "task_loss": 0.9394055604934692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.835350513458252,
      "epoch": 7.11,
      "learning_rate": 2.921415153412649e-05,
      "loss": 0.8557,
      "step": 8414,
      "task_loss": 0.6517860293388367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4607698917388916,
      "epoch": 7.11,
      "learning_rate": 2.921102066374452e-05,
      "loss": 0.6641,
      "step": 8415,
      "task_loss": 0.297634094953537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.432747483253479,
      "epoch": 7.11,
      "learning_rate": 2.920788979336256e-05,
      "loss": 0.4862,
      "step": 8416,
      "task_loss": 0.7287262678146362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6560622453689575,
      "epoch": 7.11,
      "learning_rate": 2.920475892298059e-05,
      "loss": 0.5433,
      "step": 8417,
      "task_loss": 0.6486332416534424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.62632155418396,
      "epoch": 7.12,
      "learning_rate": 2.9201628052598623e-05,
      "loss": 0.6921,
      "step": 8418,
      "task_loss": 0.32609447836875916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7859692573547363,
      "epoch": 7.12,
      "learning_rate": 2.9198497182216655e-05,
      "loss": 0.7793,
      "step": 8419,
      "task_loss": 0.6105086803436279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6712459325790405,
      "epoch": 7.12,
      "learning_rate": 2.9195366311834694e-05,
      "loss": 0.713,
      "step": 8420,
      "task_loss": 0.813909649848938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7596548199653625,
      "epoch": 7.12,
      "learning_rate": 2.9192235441452725e-05,
      "loss": 0.8128,
      "step": 8421,
      "task_loss": 0.9687859416007996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0775786638259888,
      "epoch": 7.12,
      "learning_rate": 2.9189104571070757e-05,
      "loss": 0.7493,
      "step": 8422,
      "task_loss": 1.224519968032837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293587684631348,
      "epoch": 7.12,
      "learning_rate": 2.918597370068879e-05,
      "loss": 0.7208,
      "step": 8423,
      "task_loss": 0.5532387495040894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7482473254203796,
      "epoch": 7.12,
      "learning_rate": 2.9182842830306828e-05,
      "loss": 0.7144,
      "step": 8424,
      "task_loss": 0.22691401839256287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5333763360977173,
      "epoch": 7.12,
      "learning_rate": 2.917971195992486e-05,
      "loss": 0.7015,
      "step": 8425,
      "task_loss": 1.2896177768707275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5384747385978699,
      "epoch": 7.12,
      "learning_rate": 2.917658108954289e-05,
      "loss": 0.6517,
      "step": 8426,
      "task_loss": 0.44909995794296265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5467045307159424,
      "epoch": 7.12,
      "learning_rate": 2.917345021916093e-05,
      "loss": 0.5937,
      "step": 8427,
      "task_loss": 0.6755611896514893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4871315658092499,
      "epoch": 7.12,
      "learning_rate": 2.917031934877896e-05,
      "loss": 0.7896,
      "step": 8428,
      "task_loss": 0.47339949011802673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0428558588027954,
      "epoch": 7.13,
      "learning_rate": 2.9167188478396997e-05,
      "loss": 0.8464,
      "step": 8429,
      "task_loss": 1.4831196069717407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4885130524635315,
      "epoch": 7.13,
      "learning_rate": 2.916405760801503e-05,
      "loss": 0.6141,
      "step": 8430,
      "task_loss": 0.8234672546386719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5767615437507629,
      "epoch": 7.13,
      "learning_rate": 2.9160926737633064e-05,
      "loss": 0.7512,
      "step": 8431,
      "task_loss": 0.200160950422287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7338234186172485,
      "epoch": 7.13,
      "learning_rate": 2.91577958672511e-05,
      "loss": 0.5182,
      "step": 8432,
      "task_loss": 0.7331130504608154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9372183084487915,
      "epoch": 7.13,
      "learning_rate": 2.915466499686913e-05,
      "loss": 0.6776,
      "step": 8433,
      "task_loss": 0.8087535500526428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5369473695755005,
      "epoch": 7.13,
      "learning_rate": 2.9151534126487162e-05,
      "loss": 0.5728,
      "step": 8434,
      "task_loss": 1.1643040180206299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3704882860183716,
      "epoch": 7.13,
      "learning_rate": 2.91484032561052e-05,
      "loss": 0.6093,
      "step": 8435,
      "task_loss": 0.49414217472076416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7320324182510376,
      "epoch": 7.13,
      "learning_rate": 2.9145272385723233e-05,
      "loss": 0.685,
      "step": 8436,
      "task_loss": 0.42644914984703064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.680963397026062,
      "epoch": 7.13,
      "learning_rate": 2.9142141515341264e-05,
      "loss": 0.726,
      "step": 8437,
      "task_loss": 0.5905590057373047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4458405077457428,
      "epoch": 7.13,
      "learning_rate": 2.9139010644959303e-05,
      "loss": 0.8117,
      "step": 8438,
      "task_loss": 0.9344676733016968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7073341012001038,
      "epoch": 7.13,
      "learning_rate": 2.9135879774577335e-05,
      "loss": 0.5159,
      "step": 8439,
      "task_loss": 0.5714548230171204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8468595147132874,
      "epoch": 7.13,
      "learning_rate": 2.9132748904195367e-05,
      "loss": 0.6911,
      "step": 8440,
      "task_loss": 0.8470777273178101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6917262077331543,
      "epoch": 7.14,
      "learning_rate": 2.91296180338134e-05,
      "loss": 0.9045,
      "step": 8441,
      "task_loss": 1.0598526000976562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9073841571807861,
      "epoch": 7.14,
      "learning_rate": 2.9126487163431437e-05,
      "loss": 0.7491,
      "step": 8442,
      "task_loss": 1.443321704864502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7316235899925232,
      "epoch": 7.14,
      "learning_rate": 2.912335629304947e-05,
      "loss": 0.7873,
      "step": 8443,
      "task_loss": 0.9511703848838806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22676518559455872,
      "epoch": 7.14,
      "learning_rate": 2.91202254226675e-05,
      "loss": 0.656,
      "step": 8444,
      "task_loss": 0.3447759747505188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8178427815437317,
      "epoch": 7.14,
      "learning_rate": 2.9117094552285536e-05,
      "loss": 0.7211,
      "step": 8445,
      "task_loss": 1.5397361516952515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5460292100906372,
      "epoch": 7.14,
      "learning_rate": 2.911396368190357e-05,
      "loss": 0.7662,
      "step": 8446,
      "task_loss": 0.6354162693023682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0405540466308594,
      "epoch": 7.14,
      "learning_rate": 2.9110832811521606e-05,
      "loss": 0.7107,
      "step": 8447,
      "task_loss": 0.9243070483207703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6672730445861816,
      "epoch": 7.14,
      "learning_rate": 2.9107701941139638e-05,
      "loss": 0.64,
      "step": 8448,
      "task_loss": 1.2669674158096313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3988312780857086,
      "epoch": 7.14,
      "learning_rate": 2.9104571070757673e-05,
      "loss": 0.5405,
      "step": 8449,
      "task_loss": 0.2477552592754364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.626816987991333,
      "epoch": 7.14,
      "learning_rate": 2.9101440200375708e-05,
      "loss": 0.7124,
      "step": 8450,
      "task_loss": 1.1811225414276123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5239540934562683,
      "epoch": 7.14,
      "learning_rate": 2.909830932999374e-05,
      "loss": 0.5216,
      "step": 8451,
      "task_loss": 0.4284743666648865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4397891759872437,
      "epoch": 7.14,
      "learning_rate": 2.909517845961177e-05,
      "loss": 0.7303,
      "step": 8452,
      "task_loss": 0.9282432794570923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5073019862174988,
      "epoch": 7.15,
      "learning_rate": 2.909204758922981e-05,
      "loss": 0.5231,
      "step": 8453,
      "task_loss": 0.1532255858182907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43695682287216187,
      "epoch": 7.15,
      "learning_rate": 2.9088916718847842e-05,
      "loss": 0.6329,
      "step": 8454,
      "task_loss": 0.8769485950469971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.900570273399353,
      "epoch": 7.15,
      "learning_rate": 2.9085785848465874e-05,
      "loss": 0.8067,
      "step": 8455,
      "task_loss": 0.8334083557128906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34340232610702515,
      "epoch": 7.15,
      "learning_rate": 2.9082654978083906e-05,
      "loss": 0.6261,
      "step": 8456,
      "task_loss": 0.3603319525718689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3870607614517212,
      "epoch": 7.15,
      "learning_rate": 2.9079524107701944e-05,
      "loss": 0.9039,
      "step": 8457,
      "task_loss": 0.9872869849205017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.667678713798523,
      "epoch": 7.15,
      "learning_rate": 2.9076393237319976e-05,
      "loss": 0.6988,
      "step": 8458,
      "task_loss": 0.3934127986431122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7701703310012817,
      "epoch": 7.15,
      "learning_rate": 2.9073262366938008e-05,
      "loss": 0.7724,
      "step": 8459,
      "task_loss": 0.5397769212722778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7447539567947388,
      "epoch": 7.15,
      "learning_rate": 2.9070131496556046e-05,
      "loss": 0.9174,
      "step": 8460,
      "task_loss": 0.41293102502822876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4428827464580536,
      "epoch": 7.15,
      "learning_rate": 2.9067000626174078e-05,
      "loss": 0.5962,
      "step": 8461,
      "task_loss": 0.6082631945610046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9418858289718628,
      "epoch": 7.15,
      "learning_rate": 2.906386975579211e-05,
      "loss": 0.6971,
      "step": 8462,
      "task_loss": 0.30975010991096497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.8305273056030273,
      "epoch": 7.15,
      "learning_rate": 2.9060738885410145e-05,
      "loss": 1.1781,
      "step": 8463,
      "task_loss": 1.665222406387329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0035510063171387,
      "epoch": 7.15,
      "learning_rate": 2.905760801502818e-05,
      "loss": 0.6248,
      "step": 8464,
      "task_loss": 0.7656728029251099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36049604415893555,
      "epoch": 7.16,
      "learning_rate": 2.9054477144646215e-05,
      "loss": 0.6226,
      "step": 8465,
      "task_loss": 0.7675876021385193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5711262822151184,
      "epoch": 7.16,
      "learning_rate": 2.9051346274264247e-05,
      "loss": 0.6191,
      "step": 8466,
      "task_loss": 0.3874540627002716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3112791180610657,
      "epoch": 7.16,
      "learning_rate": 2.904821540388228e-05,
      "loss": 0.4258,
      "step": 8467,
      "task_loss": 0.492402046918869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5945789813995361,
      "epoch": 7.16,
      "learning_rate": 2.9045084533500317e-05,
      "loss": 0.6672,
      "step": 8468,
      "task_loss": 0.2650187015533447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.344730257987976,
      "epoch": 7.16,
      "learning_rate": 2.904195366311835e-05,
      "loss": 0.7544,
      "step": 8469,
      "task_loss": 1.241779088973999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31430190801620483,
      "epoch": 7.16,
      "learning_rate": 2.903882279273638e-05,
      "loss": 0.5576,
      "step": 8470,
      "task_loss": 0.21608427166938782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0115684270858765,
      "epoch": 7.16,
      "learning_rate": 2.9035691922354413e-05,
      "loss": 0.8615,
      "step": 8471,
      "task_loss": 0.4113961160182953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7125699520111084,
      "epoch": 7.16,
      "learning_rate": 2.903256105197245e-05,
      "loss": 0.6906,
      "step": 8472,
      "task_loss": 0.8146806955337524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5456189513206482,
      "epoch": 7.16,
      "learning_rate": 2.9029430181590483e-05,
      "loss": 0.689,
      "step": 8473,
      "task_loss": 0.3977053463459015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9667834043502808,
      "epoch": 7.16,
      "learning_rate": 2.9026299311208515e-05,
      "loss": 0.8636,
      "step": 8474,
      "task_loss": 1.616628885269165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7576895952224731,
      "epoch": 7.16,
      "learning_rate": 2.9023168440826553e-05,
      "loss": 0.6685,
      "step": 8475,
      "task_loss": 0.888723611831665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7220460772514343,
      "epoch": 7.16,
      "learning_rate": 2.9020037570444585e-05,
      "loss": 0.9097,
      "step": 8476,
      "task_loss": 0.9115903973579407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6380133032798767,
      "epoch": 7.17,
      "learning_rate": 2.9016906700062617e-05,
      "loss": 0.8118,
      "step": 8477,
      "task_loss": 1.0588537454605103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7529407143592834,
      "epoch": 7.17,
      "learning_rate": 2.9013775829680652e-05,
      "loss": 0.8688,
      "step": 8478,
      "task_loss": 1.2142201662063599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45243969559669495,
      "epoch": 7.17,
      "learning_rate": 2.9010644959298687e-05,
      "loss": 0.672,
      "step": 8479,
      "task_loss": 0.7506532669067383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5928336381912231,
      "epoch": 7.17,
      "learning_rate": 2.900751408891672e-05,
      "loss": 0.6921,
      "step": 8480,
      "task_loss": 0.44101956486701965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5681997537612915,
      "epoch": 7.17,
      "learning_rate": 2.9004383218534754e-05,
      "loss": 0.6181,
      "step": 8481,
      "task_loss": 0.5914584994316101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5081037282943726,
      "epoch": 7.17,
      "learning_rate": 2.9001252348152786e-05,
      "loss": 0.7344,
      "step": 8482,
      "task_loss": 0.9676117897033691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9501303434371948,
      "epoch": 7.17,
      "learning_rate": 2.8998121477770825e-05,
      "loss": 0.7678,
      "step": 8483,
      "task_loss": 2.2637195587158203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1668572425842285,
      "epoch": 7.17,
      "learning_rate": 2.8994990607388856e-05,
      "loss": 0.8538,
      "step": 8484,
      "task_loss": 0.5309388637542725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6079646944999695,
      "epoch": 7.17,
      "learning_rate": 2.8991859737006888e-05,
      "loss": 0.8673,
      "step": 8485,
      "task_loss": 0.789552628993988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.724735677242279,
      "epoch": 7.17,
      "learning_rate": 2.8988728866624927e-05,
      "loss": 0.7105,
      "step": 8486,
      "task_loss": 0.4593677222728729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3990280330181122,
      "epoch": 7.17,
      "learning_rate": 2.898559799624296e-05,
      "loss": 0.678,
      "step": 8487,
      "task_loss": 0.5321353673934937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.470764696598053,
      "epoch": 7.17,
      "learning_rate": 2.898246712586099e-05,
      "loss": 0.7046,
      "step": 8488,
      "task_loss": 0.505430281162262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8476776480674744,
      "epoch": 7.18,
      "learning_rate": 2.8979336255479022e-05,
      "loss": 0.7409,
      "step": 8489,
      "task_loss": 0.5985147356987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.734761655330658,
      "epoch": 7.18,
      "learning_rate": 2.897620538509706e-05,
      "loss": 0.6901,
      "step": 8490,
      "task_loss": 0.5357382297515869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.05806303024292,
      "epoch": 7.18,
      "learning_rate": 2.8973074514715092e-05,
      "loss": 0.8784,
      "step": 8491,
      "task_loss": 1.0840471982955933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.336719810962677,
      "epoch": 7.18,
      "learning_rate": 2.8969943644333124e-05,
      "loss": 0.6815,
      "step": 8492,
      "task_loss": 0.5295722484588623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.555902361869812,
      "epoch": 7.18,
      "learning_rate": 2.8966812773951156e-05,
      "loss": 0.8378,
      "step": 8493,
      "task_loss": 0.7135011553764343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6154170036315918,
      "epoch": 7.18,
      "learning_rate": 2.8963681903569195e-05,
      "loss": 0.5791,
      "step": 8494,
      "task_loss": 0.8280824422836304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5383581519126892,
      "epoch": 7.18,
      "learning_rate": 2.8960551033187226e-05,
      "loss": 0.4512,
      "step": 8495,
      "task_loss": 0.310337632894516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4695965051651001,
      "epoch": 7.18,
      "learning_rate": 2.895742016280526e-05,
      "loss": 0.5653,
      "step": 8496,
      "task_loss": 0.25509247183799744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3477236032485962,
      "epoch": 7.18,
      "learning_rate": 2.8954289292423297e-05,
      "loss": 0.7507,
      "step": 8497,
      "task_loss": 0.06938290596008301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9905865788459778,
      "epoch": 7.18,
      "learning_rate": 2.895115842204133e-05,
      "loss": 0.681,
      "step": 8498,
      "task_loss": 0.4209606349468231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6659349203109741,
      "epoch": 7.18,
      "learning_rate": 2.8948027551659364e-05,
      "loss": 0.7803,
      "step": 8499,
      "task_loss": 1.0511351823806763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7859931588172913,
      "epoch": 7.19,
      "learning_rate": 2.8944896681277395e-05,
      "loss": 0.6759,
      "step": 8500,
      "task_loss": 0.7900732755661011
    },
    {
      "epoch": 7.19,
      "eval_accuracy": 0.8925940594059406,
      "eval_loss": 0.4681185483932495,
      "eval_runtime": 207.4777,
      "eval_samples_per_second": 121.7,
      "eval_steps_per_second": 0.954,
      "step": 8500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3277024030685425,
      "epoch": 7.19,
      "learning_rate": 2.8941765810895434e-05,
      "loss": 0.9429,
      "step": 8501,
      "task_loss": 1.782302975654602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6645029783248901,
      "epoch": 7.19,
      "learning_rate": 2.8938634940513466e-05,
      "loss": 0.8263,
      "step": 8502,
      "task_loss": 0.45978352427482605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43341535329818726,
      "epoch": 7.19,
      "learning_rate": 2.8935504070131498e-05,
      "loss": 0.5745,
      "step": 8503,
      "task_loss": 0.10814512521028519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7202534079551697,
      "epoch": 7.19,
      "learning_rate": 2.893237319974953e-05,
      "loss": 0.7292,
      "step": 8504,
      "task_loss": 1.259522795677185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1052767038345337,
      "epoch": 7.19,
      "learning_rate": 2.8929242329367568e-05,
      "loss": 0.8795,
      "step": 8505,
      "task_loss": 0.647347092628479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0731115341186523,
      "epoch": 7.19,
      "learning_rate": 2.89261114589856e-05,
      "loss": 0.7004,
      "step": 8506,
      "task_loss": 0.9314419031143188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9268348217010498,
      "epoch": 7.19,
      "learning_rate": 2.892298058860363e-05,
      "loss": 0.8548,
      "step": 8507,
      "task_loss": 1.020493745803833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4610937833786011,
      "epoch": 7.19,
      "learning_rate": 2.8919849718221663e-05,
      "loss": 0.6173,
      "step": 8508,
      "task_loss": 0.025457588955760002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.695428729057312,
      "epoch": 7.19,
      "learning_rate": 2.8916718847839702e-05,
      "loss": 0.6977,
      "step": 8509,
      "task_loss": 0.5885156989097595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5256944298744202,
      "epoch": 7.19,
      "learning_rate": 2.8913587977457734e-05,
      "loss": 0.5892,
      "step": 8510,
      "task_loss": 0.9806305170059204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9952657222747803,
      "epoch": 7.19,
      "learning_rate": 2.8910457107075765e-05,
      "loss": 1.005,
      "step": 8511,
      "task_loss": 1.8869261741638184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9615174531936646,
      "epoch": 7.2,
      "learning_rate": 2.8907326236693804e-05,
      "loss": 0.7454,
      "step": 8512,
      "task_loss": 1.0767946243286133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8628499507904053,
      "epoch": 7.2,
      "learning_rate": 2.8904195366311836e-05,
      "loss": 0.7568,
      "step": 8513,
      "task_loss": 0.48640450835227966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0952292680740356,
      "epoch": 7.2,
      "learning_rate": 2.890106449592987e-05,
      "loss": 0.8394,
      "step": 8514,
      "task_loss": 1.017411470413208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3835301995277405,
      "epoch": 7.2,
      "learning_rate": 2.8897933625547903e-05,
      "loss": 0.5673,
      "step": 8515,
      "task_loss": 0.7085422873497009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6088808178901672,
      "epoch": 7.2,
      "learning_rate": 2.8894802755165938e-05,
      "loss": 0.7571,
      "step": 8516,
      "task_loss": 0.6759728789329529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7588416337966919,
      "epoch": 7.2,
      "learning_rate": 2.8891671884783973e-05,
      "loss": 0.555,
      "step": 8517,
      "task_loss": 0.9012501835823059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.616608738899231,
      "epoch": 7.2,
      "learning_rate": 2.8888541014402005e-05,
      "loss": 0.6008,
      "step": 8518,
      "task_loss": 0.24728742241859436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41181379556655884,
      "epoch": 7.2,
      "learning_rate": 2.8885410144020037e-05,
      "loss": 0.4826,
      "step": 8519,
      "task_loss": 0.4661071300506592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5657882690429688,
      "epoch": 7.2,
      "learning_rate": 2.8882279273638075e-05,
      "loss": 0.6705,
      "step": 8520,
      "task_loss": 0.6164771318435669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8003948926925659,
      "epoch": 7.2,
      "learning_rate": 2.8879148403256107e-05,
      "loss": 0.7084,
      "step": 8521,
      "task_loss": 0.4315544068813324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6952469348907471,
      "epoch": 7.2,
      "learning_rate": 2.887601753287414e-05,
      "loss": 0.8236,
      "step": 8522,
      "task_loss": 0.7669837474822998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7853109240531921,
      "epoch": 7.2,
      "learning_rate": 2.8872886662492177e-05,
      "loss": 0.7232,
      "step": 8523,
      "task_loss": 0.8910977840423584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5437528491020203,
      "epoch": 7.21,
      "learning_rate": 2.886975579211021e-05,
      "loss": 0.5924,
      "step": 8524,
      "task_loss": 0.7517634630203247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7424126267433167,
      "epoch": 7.21,
      "learning_rate": 2.886662492172824e-05,
      "loss": 0.7227,
      "step": 8525,
      "task_loss": 0.19784097373485565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9888759255409241,
      "epoch": 7.21,
      "learning_rate": 2.8863494051346273e-05,
      "loss": 0.6339,
      "step": 8526,
      "task_loss": 1.0070085525512695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9545824527740479,
      "epoch": 7.21,
      "learning_rate": 2.886036318096431e-05,
      "loss": 0.6815,
      "step": 8527,
      "task_loss": 0.5094006061553955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4287201464176178,
      "epoch": 7.21,
      "learning_rate": 2.8857232310582343e-05,
      "loss": 0.7248,
      "step": 8528,
      "task_loss": 0.5410181879997253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6023178100585938,
      "epoch": 7.21,
      "learning_rate": 2.8854101440200375e-05,
      "loss": 0.6076,
      "step": 8529,
      "task_loss": 0.12837500870227814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6872901320457458,
      "epoch": 7.21,
      "learning_rate": 2.885097056981841e-05,
      "loss": 0.7372,
      "step": 8530,
      "task_loss": 1.489762783050537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6673352718353271,
      "epoch": 7.21,
      "learning_rate": 2.8847839699436445e-05,
      "loss": 0.8286,
      "step": 8531,
      "task_loss": 0.5886353850364685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7891655564308167,
      "epoch": 7.21,
      "learning_rate": 2.884470882905448e-05,
      "loss": 0.6106,
      "step": 8532,
      "task_loss": 0.8517605662345886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9494723081588745,
      "epoch": 7.21,
      "learning_rate": 2.8841577958672512e-05,
      "loss": 0.8706,
      "step": 8533,
      "task_loss": 1.5992943048477173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41990435123443604,
      "epoch": 7.21,
      "learning_rate": 2.883844708829055e-05,
      "loss": 0.62,
      "step": 8534,
      "task_loss": 0.12419299781322479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1201229095458984,
      "epoch": 7.21,
      "learning_rate": 2.8835316217908582e-05,
      "loss": 0.7099,
      "step": 8535,
      "task_loss": 0.6658726334571838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.698501706123352,
      "epoch": 7.22,
      "learning_rate": 2.8832185347526614e-05,
      "loss": 0.7413,
      "step": 8536,
      "task_loss": 0.4935651123523712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.6590805053710938,
      "epoch": 7.22,
      "learning_rate": 2.8829054477144646e-05,
      "loss": 0.8073,
      "step": 8537,
      "task_loss": 0.8711647391319275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8418596386909485,
      "epoch": 7.22,
      "learning_rate": 2.8825923606762684e-05,
      "loss": 0.7221,
      "step": 8538,
      "task_loss": 0.8303602337837219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6755740642547607,
      "epoch": 7.22,
      "learning_rate": 2.8822792736380716e-05,
      "loss": 0.7884,
      "step": 8539,
      "task_loss": 1.5591596364974976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6425141096115112,
      "epoch": 7.22,
      "learning_rate": 2.8819661865998748e-05,
      "loss": 0.5688,
      "step": 8540,
      "task_loss": 0.7017989754676819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6662578582763672,
      "epoch": 7.22,
      "learning_rate": 2.881653099561678e-05,
      "loss": 0.6663,
      "step": 8541,
      "task_loss": 0.36611446738243103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6353689432144165,
      "epoch": 7.22,
      "learning_rate": 2.881340012523482e-05,
      "loss": 0.7029,
      "step": 8542,
      "task_loss": 0.876526951789856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9469740986824036,
      "epoch": 7.22,
      "learning_rate": 2.881026925485285e-05,
      "loss": 0.798,
      "step": 8543,
      "task_loss": 0.5206006765365601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8707156181335449,
      "epoch": 7.22,
      "learning_rate": 2.8807138384470882e-05,
      "loss": 0.7124,
      "step": 8544,
      "task_loss": 0.551642894744873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4961901307106018,
      "epoch": 7.22,
      "learning_rate": 2.8804007514088917e-05,
      "loss": 0.5875,
      "step": 8545,
      "task_loss": 0.24061128497123718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8031316995620728,
      "epoch": 7.22,
      "learning_rate": 2.8800876643706952e-05,
      "loss": 0.7292,
      "step": 8546,
      "task_loss": 1.6597280502319336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4622085392475128,
      "epoch": 7.22,
      "learning_rate": 2.8797745773324984e-05,
      "loss": 0.6205,
      "step": 8547,
      "task_loss": 0.764066219329834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40466898679733276,
      "epoch": 7.23,
      "learning_rate": 2.879461490294302e-05,
      "loss": 0.5354,
      "step": 8548,
      "task_loss": 0.8652380108833313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.905463457107544,
      "epoch": 7.23,
      "learning_rate": 2.8791484032561054e-05,
      "loss": 0.7787,
      "step": 8549,
      "task_loss": 0.7638587951660156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43188029527664185,
      "epoch": 7.23,
      "learning_rate": 2.878835316217909e-05,
      "loss": 0.5996,
      "step": 8550,
      "task_loss": 0.45867919921875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5483752489089966,
      "epoch": 7.23,
      "learning_rate": 2.878522229179712e-05,
      "loss": 0.6033,
      "step": 8551,
      "task_loss": 0.9483766555786133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5407836437225342,
      "epoch": 7.23,
      "learning_rate": 2.8782091421415153e-05,
      "loss": 0.7058,
      "step": 8552,
      "task_loss": 1.0136126279830933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.781080961227417,
      "epoch": 7.23,
      "learning_rate": 2.877896055103319e-05,
      "loss": 0.6439,
      "step": 8553,
      "task_loss": 0.1750170737504959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48610514402389526,
      "epoch": 7.23,
      "learning_rate": 2.8775829680651223e-05,
      "loss": 0.6416,
      "step": 8554,
      "task_loss": 0.2671133577823639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8188432455062866,
      "epoch": 7.23,
      "learning_rate": 2.8772698810269255e-05,
      "loss": 0.8145,
      "step": 8555,
      "task_loss": 0.6973693370819092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5930465459823608,
      "epoch": 7.23,
      "learning_rate": 2.8769567939887287e-05,
      "loss": 0.7252,
      "step": 8556,
      "task_loss": 0.6312101483345032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44140899181365967,
      "epoch": 7.23,
      "learning_rate": 2.8766437069505326e-05,
      "loss": 0.6576,
      "step": 8557,
      "task_loss": 1.2635352611541748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5833554267883301,
      "epoch": 7.23,
      "learning_rate": 2.8763306199123357e-05,
      "loss": 0.5322,
      "step": 8558,
      "task_loss": 0.5675053000450134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.783807635307312,
      "epoch": 7.23,
      "learning_rate": 2.876017532874139e-05,
      "loss": 0.656,
      "step": 8559,
      "task_loss": 0.8085671067237854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6929118037223816,
      "epoch": 7.24,
      "learning_rate": 2.8757044458359428e-05,
      "loss": 0.6761,
      "step": 8560,
      "task_loss": 0.47090795636177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6358998417854309,
      "epoch": 7.24,
      "learning_rate": 2.875391358797746e-05,
      "loss": 0.6954,
      "step": 8561,
      "task_loss": 0.9831289052963257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7212762832641602,
      "epoch": 7.24,
      "learning_rate": 2.875078271759549e-05,
      "loss": 0.8575,
      "step": 8562,
      "task_loss": 0.5489591956138611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6051925420761108,
      "epoch": 7.24,
      "learning_rate": 2.8747651847213526e-05,
      "loss": 0.5902,
      "step": 8563,
      "task_loss": 0.40009844303131104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8441596031188965,
      "epoch": 7.24,
      "learning_rate": 2.874452097683156e-05,
      "loss": 0.746,
      "step": 8564,
      "task_loss": 1.2800731658935547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6737219095230103,
      "epoch": 7.24,
      "learning_rate": 2.8741390106449593e-05,
      "loss": 0.8575,
      "step": 8565,
      "task_loss": 0.6792552471160889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6885948777198792,
      "epoch": 7.24,
      "learning_rate": 2.873825923606763e-05,
      "loss": 0.7695,
      "step": 8566,
      "task_loss": 0.4158936142921448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2824878692626953,
      "epoch": 7.24,
      "learning_rate": 2.873512836568566e-05,
      "loss": 0.4979,
      "step": 8567,
      "task_loss": 0.507425844669342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42805615067481995,
      "epoch": 7.24,
      "learning_rate": 2.87319974953037e-05,
      "loss": 0.6108,
      "step": 8568,
      "task_loss": 0.23912085592746735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6319940090179443,
      "epoch": 7.24,
      "learning_rate": 2.872886662492173e-05,
      "loss": 0.5127,
      "step": 8569,
      "task_loss": 0.6711313724517822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8848299384117126,
      "epoch": 7.24,
      "learning_rate": 2.8725735754539762e-05,
      "loss": 0.635,
      "step": 8570,
      "task_loss": 0.79273521900177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.606544017791748,
      "epoch": 7.24,
      "learning_rate": 2.87226048841578e-05,
      "loss": 0.6605,
      "step": 8571,
      "task_loss": 0.9383052587509155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5888261795043945,
      "epoch": 7.25,
      "learning_rate": 2.8719474013775833e-05,
      "loss": 0.5737,
      "step": 8572,
      "task_loss": 0.27636510133743286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5159081220626831,
      "epoch": 7.25,
      "learning_rate": 2.8716343143393865e-05,
      "loss": 0.5438,
      "step": 8573,
      "task_loss": 1.3573548793792725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.206367015838623,
      "epoch": 7.25,
      "learning_rate": 2.8713212273011896e-05,
      "loss": 0.9802,
      "step": 8574,
      "task_loss": 1.0719966888427734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.626648485660553,
      "epoch": 7.25,
      "learning_rate": 2.8710081402629935e-05,
      "loss": 0.7844,
      "step": 8575,
      "task_loss": 0.6997456550598145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6875728964805603,
      "epoch": 7.25,
      "learning_rate": 2.8706950532247967e-05,
      "loss": 0.9363,
      "step": 8576,
      "task_loss": 0.16816899180412292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7307252883911133,
      "epoch": 7.25,
      "learning_rate": 2.8703819661866e-05,
      "loss": 0.6178,
      "step": 8577,
      "task_loss": 0.16525757312774658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9495736360549927,
      "epoch": 7.25,
      "learning_rate": 2.870068879148403e-05,
      "loss": 0.705,
      "step": 8578,
      "task_loss": 1.8565824031829834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3775675892829895,
      "epoch": 7.25,
      "learning_rate": 2.869755792110207e-05,
      "loss": 0.7291,
      "step": 8579,
      "task_loss": 0.6085376143455505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2472071647644043,
      "epoch": 7.25,
      "learning_rate": 2.86944270507201e-05,
      "loss": 0.8601,
      "step": 8580,
      "task_loss": 1.4585493803024292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7883668541908264,
      "epoch": 7.25,
      "learning_rate": 2.8691296180338136e-05,
      "loss": 0.7706,
      "step": 8581,
      "task_loss": 0.6570387482643127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0099949836730957,
      "epoch": 7.25,
      "learning_rate": 2.8688165309956168e-05,
      "loss": 0.7893,
      "step": 8582,
      "task_loss": 1.5854765176773071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4164952337741852,
      "epoch": 7.26,
      "learning_rate": 2.8685034439574203e-05,
      "loss": 0.6529,
      "step": 8583,
      "task_loss": 0.3964788317680359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0894207954406738,
      "epoch": 7.26,
      "learning_rate": 2.8681903569192238e-05,
      "loss": 0.7001,
      "step": 8584,
      "task_loss": 1.3682140111923218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21114501357078552,
      "epoch": 7.26,
      "learning_rate": 2.867877269881027e-05,
      "loss": 0.4646,
      "step": 8585,
      "task_loss": 0.1588110625743866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7123158574104309,
      "epoch": 7.26,
      "learning_rate": 2.8675641828428308e-05,
      "loss": 0.7487,
      "step": 8586,
      "task_loss": 2.1601977348327637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41852647066116333,
      "epoch": 7.26,
      "learning_rate": 2.867251095804634e-05,
      "loss": 0.5308,
      "step": 8587,
      "task_loss": 0.12753839790821075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5859882831573486,
      "epoch": 7.26,
      "learning_rate": 2.8669380087664372e-05,
      "loss": 0.4887,
      "step": 8588,
      "task_loss": 0.6195494532585144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1636831760406494,
      "epoch": 7.26,
      "learning_rate": 2.8666249217282404e-05,
      "loss": 0.5949,
      "step": 8589,
      "task_loss": 1.6840858459472656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9895098209381104,
      "epoch": 7.26,
      "learning_rate": 2.8663118346900442e-05,
      "loss": 0.7433,
      "step": 8590,
      "task_loss": 0.7413873672485352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3906145691871643,
      "epoch": 7.26,
      "learning_rate": 2.8659987476518474e-05,
      "loss": 0.5211,
      "step": 8591,
      "task_loss": 0.5584813356399536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7019374370574951,
      "epoch": 7.26,
      "learning_rate": 2.8656856606136506e-05,
      "loss": 0.7515,
      "step": 8592,
      "task_loss": 0.4632842540740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4681006073951721,
      "epoch": 7.26,
      "learning_rate": 2.8653725735754537e-05,
      "loss": 0.4514,
      "step": 8593,
      "task_loss": 0.4330950379371643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6910254955291748,
      "epoch": 7.26,
      "learning_rate": 2.8650594865372576e-05,
      "loss": 0.6996,
      "step": 8594,
      "task_loss": 1.2528157234191895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49568241834640503,
      "epoch": 7.27,
      "learning_rate": 2.8647463994990608e-05,
      "loss": 0.6496,
      "step": 8595,
      "task_loss": 0.4488910138607025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8397867679595947,
      "epoch": 7.27,
      "learning_rate": 2.864433312460864e-05,
      "loss": 0.7036,
      "step": 8596,
      "task_loss": 0.7110047936439514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7903435230255127,
      "epoch": 7.27,
      "learning_rate": 2.8641202254226678e-05,
      "loss": 0.9848,
      "step": 8597,
      "task_loss": 0.7439081072807312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37117475271224976,
      "epoch": 7.27,
      "learning_rate": 2.863807138384471e-05,
      "loss": 0.5159,
      "step": 8598,
      "task_loss": 0.16953514516353607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6604053974151611,
      "epoch": 7.27,
      "learning_rate": 2.8634940513462745e-05,
      "loss": 0.6401,
      "step": 8599,
      "task_loss": 0.9172648787498474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6670671105384827,
      "epoch": 7.27,
      "learning_rate": 2.8631809643080777e-05,
      "loss": 0.718,
      "step": 8600,
      "task_loss": 1.6450773477554321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5137817859649658,
      "epoch": 7.27,
      "learning_rate": 2.8628678772698815e-05,
      "loss": 0.6417,
      "step": 8601,
      "task_loss": 0.18667013943195343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5208088755607605,
      "epoch": 7.27,
      "learning_rate": 2.8625547902316847e-05,
      "loss": 0.613,
      "step": 8602,
      "task_loss": 0.2738474905490875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9315210580825806,
      "epoch": 7.27,
      "learning_rate": 2.862241703193488e-05,
      "loss": 0.7548,
      "step": 8603,
      "task_loss": 1.2455719709396362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7936480641365051,
      "epoch": 7.27,
      "learning_rate": 2.861928616155291e-05,
      "loss": 0.5376,
      "step": 8604,
      "task_loss": 0.6613881587982178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.019195318222046,
      "epoch": 7.27,
      "learning_rate": 2.861615529117095e-05,
      "loss": 0.7874,
      "step": 8605,
      "task_loss": 1.7265456914901733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0540739297866821,
      "epoch": 7.27,
      "learning_rate": 2.861302442078898e-05,
      "loss": 0.7681,
      "step": 8606,
      "task_loss": 1.22652006149292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3233312964439392,
      "epoch": 7.28,
      "learning_rate": 2.8609893550407013e-05,
      "loss": 0.5011,
      "step": 8607,
      "task_loss": 0.5957701802253723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7260701656341553,
      "epoch": 7.28,
      "learning_rate": 2.860676268002505e-05,
      "loss": 0.7732,
      "step": 8608,
      "task_loss": 1.1861320734024048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35099080204963684,
      "epoch": 7.28,
      "learning_rate": 2.8603631809643083e-05,
      "loss": 0.4767,
      "step": 8609,
      "task_loss": 0.46697306632995605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6344455480575562,
      "epoch": 7.28,
      "learning_rate": 2.8600500939261115e-05,
      "loss": 0.622,
      "step": 8610,
      "task_loss": 0.5536139011383057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4957481622695923,
      "epoch": 7.28,
      "learning_rate": 2.8597370068879147e-05,
      "loss": 0.5493,
      "step": 8611,
      "task_loss": 0.6833500862121582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4445546269416809,
      "epoch": 7.28,
      "learning_rate": 2.8594239198497185e-05,
      "loss": 0.644,
      "step": 8612,
      "task_loss": 0.2237693965435028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.679714560508728,
      "epoch": 7.28,
      "learning_rate": 2.8591108328115217e-05,
      "loss": 0.678,
      "step": 8613,
      "task_loss": 0.7906001806259155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7219349145889282,
      "epoch": 7.28,
      "learning_rate": 2.858797745773325e-05,
      "loss": 0.6821,
      "step": 8614,
      "task_loss": 0.99933260679245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9113666415214539,
      "epoch": 7.28,
      "learning_rate": 2.8584846587351284e-05,
      "loss": 0.8287,
      "step": 8615,
      "task_loss": 0.40912845730781555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6997302770614624,
      "epoch": 7.28,
      "learning_rate": 2.858171571696932e-05,
      "loss": 0.595,
      "step": 8616,
      "task_loss": 1.802162766456604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5504604578018188,
      "epoch": 7.28,
      "learning_rate": 2.8578584846587354e-05,
      "loss": 0.6563,
      "step": 8617,
      "task_loss": 0.4735666513442993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.853141188621521,
      "epoch": 7.28,
      "learning_rate": 2.8575453976205386e-05,
      "loss": 0.7537,
      "step": 8618,
      "task_loss": 0.9317866563796997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2762336730957031,
      "epoch": 7.29,
      "learning_rate": 2.8572323105823418e-05,
      "loss": 0.6504,
      "step": 8619,
      "task_loss": 0.24718131124973297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5327799916267395,
      "epoch": 7.29,
      "learning_rate": 2.8569192235441457e-05,
      "loss": 0.5895,
      "step": 8620,
      "task_loss": 1.659619688987732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5108404159545898,
      "epoch": 7.29,
      "learning_rate": 2.8566061365059488e-05,
      "loss": 0.6467,
      "step": 8621,
      "task_loss": 0.19818004965782166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7444647550582886,
      "epoch": 7.29,
      "learning_rate": 2.856293049467752e-05,
      "loss": 0.6393,
      "step": 8622,
      "task_loss": 0.8534947633743286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7461051940917969,
      "epoch": 7.29,
      "learning_rate": 2.855979962429556e-05,
      "loss": 0.7311,
      "step": 8623,
      "task_loss": 1.230838418006897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.911177396774292,
      "epoch": 7.29,
      "learning_rate": 2.855666875391359e-05,
      "loss": 0.6868,
      "step": 8624,
      "task_loss": 0.5235562324523926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7193633317947388,
      "epoch": 7.29,
      "learning_rate": 2.8553537883531622e-05,
      "loss": 0.8315,
      "step": 8625,
      "task_loss": 0.30210885405540466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5662848949432373,
      "epoch": 7.29,
      "learning_rate": 2.8550407013149654e-05,
      "loss": 0.6089,
      "step": 8626,
      "task_loss": 0.6963916420936584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0736348628997803,
      "epoch": 7.29,
      "learning_rate": 2.8547276142767693e-05,
      "loss": 0.8686,
      "step": 8627,
      "task_loss": 1.0708379745483398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.702079176902771,
      "epoch": 7.29,
      "learning_rate": 2.8544145272385724e-05,
      "loss": 0.6407,
      "step": 8628,
      "task_loss": 0.5556609034538269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0152673721313477,
      "epoch": 7.29,
      "learning_rate": 2.8541014402003756e-05,
      "loss": 0.8141,
      "step": 8629,
      "task_loss": 1.732312560081482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9794276356697083,
      "epoch": 7.29,
      "learning_rate": 2.853788353162179e-05,
      "loss": 0.7798,
      "step": 8630,
      "task_loss": 0.5193533897399902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49087685346603394,
      "epoch": 7.3,
      "learning_rate": 2.8534752661239826e-05,
      "loss": 0.5915,
      "step": 8631,
      "task_loss": 0.36664682626724243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.522433876991272,
      "epoch": 7.3,
      "learning_rate": 2.8531621790857858e-05,
      "loss": 0.5683,
      "step": 8632,
      "task_loss": 0.2835423946380615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4012669324874878,
      "epoch": 7.3,
      "learning_rate": 2.8528490920475893e-05,
      "loss": 0.4802,
      "step": 8633,
      "task_loss": 0.44125574827194214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8514754176139832,
      "epoch": 7.3,
      "learning_rate": 2.852536005009393e-05,
      "loss": 0.7541,
      "step": 8634,
      "task_loss": 0.6810735464096069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.520588219165802,
      "epoch": 7.3,
      "learning_rate": 2.8522229179711964e-05,
      "loss": 0.6276,
      "step": 8635,
      "task_loss": 1.0220717191696167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5086417198181152,
      "epoch": 7.3,
      "learning_rate": 2.8519098309329996e-05,
      "loss": 0.6674,
      "step": 8636,
      "task_loss": 1.0254924297332764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5787479877471924,
      "epoch": 7.3,
      "learning_rate": 2.8515967438948027e-05,
      "loss": 0.7554,
      "step": 8637,
      "task_loss": 0.49894484877586365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8624910116195679,
      "epoch": 7.3,
      "learning_rate": 2.8512836568566066e-05,
      "loss": 0.5454,
      "step": 8638,
      "task_loss": 0.48530498147010803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8402595520019531,
      "epoch": 7.3,
      "learning_rate": 2.8509705698184098e-05,
      "loss": 0.7231,
      "step": 8639,
      "task_loss": 0.3541012704372406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7706143856048584,
      "epoch": 7.3,
      "learning_rate": 2.850657482780213e-05,
      "loss": 0.9454,
      "step": 8640,
      "task_loss": 0.8278295397758484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5422072410583496,
      "epoch": 7.3,
      "learning_rate": 2.850344395742016e-05,
      "loss": 0.5554,
      "step": 8641,
      "task_loss": 0.3702258765697479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40319639444351196,
      "epoch": 7.3,
      "learning_rate": 2.85003130870382e-05,
      "loss": 0.4579,
      "step": 8642,
      "task_loss": 0.49643954634666443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7089477777481079,
      "epoch": 7.31,
      "learning_rate": 2.849718221665623e-05,
      "loss": 0.5219,
      "step": 8643,
      "task_loss": 0.40868648886680603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5833612680435181,
      "epoch": 7.31,
      "learning_rate": 2.8494051346274263e-05,
      "loss": 0.717,
      "step": 8644,
      "task_loss": 0.22646091878414154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7593744993209839,
      "epoch": 7.31,
      "learning_rate": 2.8490920475892302e-05,
      "loss": 0.7358,
      "step": 8645,
      "task_loss": 0.43097084760665894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9237546920776367,
      "epoch": 7.31,
      "learning_rate": 2.8487789605510334e-05,
      "loss": 0.7706,
      "step": 8646,
      "task_loss": 1.6945515871047974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46302247047424316,
      "epoch": 7.31,
      "learning_rate": 2.8484658735128365e-05,
      "loss": 0.6656,
      "step": 8647,
      "task_loss": 0.8735542297363281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3166213035583496,
      "epoch": 7.31,
      "learning_rate": 2.84815278647464e-05,
      "loss": 0.4841,
      "step": 8648,
      "task_loss": 0.47853073477745056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7373340129852295,
      "epoch": 7.31,
      "learning_rate": 2.8478396994364436e-05,
      "loss": 0.7174,
      "step": 8649,
      "task_loss": 0.9698644876480103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6602089405059814,
      "epoch": 7.31,
      "learning_rate": 2.8475266123982468e-05,
      "loss": 0.6708,
      "step": 8650,
      "task_loss": 0.4596869647502899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.196053147315979,
      "epoch": 7.31,
      "learning_rate": 2.8472135253600503e-05,
      "loss": 0.9111,
      "step": 8651,
      "task_loss": 1.2404510974884033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5022478103637695,
      "epoch": 7.31,
      "learning_rate": 2.8469004383218534e-05,
      "loss": 0.6609,
      "step": 8652,
      "task_loss": 0.5830695629119873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5460759401321411,
      "epoch": 7.31,
      "learning_rate": 2.8465873512836573e-05,
      "loss": 0.6349,
      "step": 8653,
      "task_loss": 1.0080026388168335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.813552975654602,
      "epoch": 7.32,
      "learning_rate": 2.8462742642454605e-05,
      "loss": 0.5614,
      "step": 8654,
      "task_loss": 0.9982833862304688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6778571605682373,
      "epoch": 7.32,
      "learning_rate": 2.8459611772072637e-05,
      "loss": 0.5248,
      "step": 8655,
      "task_loss": 0.8319441080093384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.615939199924469,
      "epoch": 7.32,
      "learning_rate": 2.845648090169067e-05,
      "loss": 0.6282,
      "step": 8656,
      "task_loss": 0.7912004590034485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8702715635299683,
      "epoch": 7.32,
      "learning_rate": 2.8453350031308707e-05,
      "loss": 0.8366,
      "step": 8657,
      "task_loss": 0.2056104838848114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4774315357208252,
      "epoch": 7.32,
      "learning_rate": 2.845021916092674e-05,
      "loss": 0.6032,
      "step": 8658,
      "task_loss": 0.9941402673721313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8213778734207153,
      "epoch": 7.32,
      "learning_rate": 2.844708829054477e-05,
      "loss": 0.9074,
      "step": 8659,
      "task_loss": 0.7557512521743774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6155924201011658,
      "epoch": 7.32,
      "learning_rate": 2.844395742016281e-05,
      "loss": 0.7847,
      "step": 8660,
      "task_loss": 0.7359055876731873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7528572082519531,
      "epoch": 7.32,
      "learning_rate": 2.844082654978084e-05,
      "loss": 0.657,
      "step": 8661,
      "task_loss": 1.0408761501312256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9101608991622925,
      "epoch": 7.32,
      "learning_rate": 2.8437695679398873e-05,
      "loss": 0.7137,
      "step": 8662,
      "task_loss": 0.5490474700927734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36038684844970703,
      "epoch": 7.32,
      "learning_rate": 2.8434564809016904e-05,
      "loss": 0.618,
      "step": 8663,
      "task_loss": 0.8551596403121948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5387612581253052,
      "epoch": 7.32,
      "learning_rate": 2.8431433938634943e-05,
      "loss": 0.8086,
      "step": 8664,
      "task_loss": 0.5462741255760193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5528877973556519,
      "epoch": 7.32,
      "learning_rate": 2.8428303068252975e-05,
      "loss": 0.6805,
      "step": 8665,
      "task_loss": 1.2509362697601318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6959391832351685,
      "epoch": 7.33,
      "learning_rate": 2.842517219787101e-05,
      "loss": 0.6468,
      "step": 8666,
      "task_loss": 0.40695253014564514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8267828822135925,
      "epoch": 7.33,
      "learning_rate": 2.8422041327489042e-05,
      "loss": 0.7827,
      "step": 8667,
      "task_loss": 0.5403761863708496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7104264497756958,
      "epoch": 7.33,
      "learning_rate": 2.8418910457107077e-05,
      "loss": 0.8054,
      "step": 8668,
      "task_loss": 1.1819618940353394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25265926122665405,
      "epoch": 7.33,
      "learning_rate": 2.8415779586725112e-05,
      "loss": 0.6607,
      "step": 8669,
      "task_loss": 0.3533862829208374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6659880876541138,
      "epoch": 7.33,
      "learning_rate": 2.8412648716343144e-05,
      "loss": 0.5993,
      "step": 8670,
      "task_loss": 1.1192617416381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7255817651748657,
      "epoch": 7.33,
      "learning_rate": 2.8409517845961182e-05,
      "loss": 1.0335,
      "step": 8671,
      "task_loss": 1.5877655744552612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46622607111930847,
      "epoch": 7.33,
      "learning_rate": 2.8406386975579214e-05,
      "loss": 0.5733,
      "step": 8672,
      "task_loss": 0.16803529858589172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5867037773132324,
      "epoch": 7.33,
      "learning_rate": 2.8403256105197246e-05,
      "loss": 0.7274,
      "step": 8673,
      "task_loss": 0.7516364455223083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8302671909332275,
      "epoch": 7.33,
      "learning_rate": 2.8400125234815278e-05,
      "loss": 0.6773,
      "step": 8674,
      "task_loss": 0.6512947678565979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4477478563785553,
      "epoch": 7.33,
      "learning_rate": 2.8396994364433316e-05,
      "loss": 0.5545,
      "step": 8675,
      "task_loss": 1.0099594593048096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7254599928855896,
      "epoch": 7.33,
      "learning_rate": 2.8393863494051348e-05,
      "loss": 0.663,
      "step": 8676,
      "task_loss": 1.0637034177780151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6115039587020874,
      "epoch": 7.33,
      "learning_rate": 2.839073262366938e-05,
      "loss": 0.7306,
      "step": 8677,
      "task_loss": 0.477742999792099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7099313735961914,
      "epoch": 7.34,
      "learning_rate": 2.838760175328741e-05,
      "loss": 0.6945,
      "step": 8678,
      "task_loss": 0.8870000243186951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6966025829315186,
      "epoch": 7.34,
      "learning_rate": 2.838447088290545e-05,
      "loss": 0.7117,
      "step": 8679,
      "task_loss": 1.34494149684906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5724956393241882,
      "epoch": 7.34,
      "learning_rate": 2.8381340012523482e-05,
      "loss": 0.6406,
      "step": 8680,
      "task_loss": 0.3406558334827423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5493896007537842,
      "epoch": 7.34,
      "learning_rate": 2.8378209142141514e-05,
      "loss": 0.767,
      "step": 8681,
      "task_loss": 0.9012842178344727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6395965814590454,
      "epoch": 7.34,
      "learning_rate": 2.8375078271759552e-05,
      "loss": 0.733,
      "step": 8682,
      "task_loss": 1.1161426305770874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1632899045944214,
      "epoch": 7.34,
      "learning_rate": 2.8371947401377584e-05,
      "loss": 0.785,
      "step": 8683,
      "task_loss": 0.9169334769248962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5504445433616638,
      "epoch": 7.34,
      "learning_rate": 2.836881653099562e-05,
      "loss": 0.5163,
      "step": 8684,
      "task_loss": 0.7636939287185669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8667901754379272,
      "epoch": 7.34,
      "learning_rate": 2.836568566061365e-05,
      "loss": 0.8055,
      "step": 8685,
      "task_loss": 0.6262723803520203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2702341675758362,
      "epoch": 7.34,
      "learning_rate": 2.836255479023169e-05,
      "loss": 0.5833,
      "step": 8686,
      "task_loss": 0.359015554189682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6818777918815613,
      "epoch": 7.34,
      "learning_rate": 2.835942391984972e-05,
      "loss": 0.7734,
      "step": 8687,
      "task_loss": 0.6865376234054565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.652172327041626,
      "epoch": 7.34,
      "learning_rate": 2.8356293049467753e-05,
      "loss": 0.7082,
      "step": 8688,
      "task_loss": 0.36470121145248413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6683883666992188,
      "epoch": 7.34,
      "learning_rate": 2.8353162179085785e-05,
      "loss": 0.749,
      "step": 8689,
      "task_loss": 0.41065987944602966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8586405515670776,
      "epoch": 7.35,
      "learning_rate": 2.8350031308703824e-05,
      "loss": 0.6724,
      "step": 8690,
      "task_loss": 0.5837189555168152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5282970666885376,
      "epoch": 7.35,
      "learning_rate": 2.8346900438321855e-05,
      "loss": 0.845,
      "step": 8691,
      "task_loss": 0.6772649884223938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5409913063049316,
      "epoch": 7.35,
      "learning_rate": 2.8343769567939887e-05,
      "loss": 0.6949,
      "step": 8692,
      "task_loss": 0.2651866376399994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5407718420028687,
      "epoch": 7.35,
      "learning_rate": 2.8340638697557926e-05,
      "loss": 0.5473,
      "step": 8693,
      "task_loss": 0.14122101664543152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6948367953300476,
      "epoch": 7.35,
      "learning_rate": 2.8337507827175957e-05,
      "loss": 0.763,
      "step": 8694,
      "task_loss": 1.181789517402649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5234971642494202,
      "epoch": 7.35,
      "learning_rate": 2.833437695679399e-05,
      "loss": 0.7147,
      "step": 8695,
      "task_loss": 0.5053929686546326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6904911994934082,
      "epoch": 7.35,
      "learning_rate": 2.833124608641202e-05,
      "loss": 0.757,
      "step": 8696,
      "task_loss": 0.3554937541484833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.546612024307251,
      "epoch": 7.35,
      "learning_rate": 2.832811521603006e-05,
      "loss": 0.5715,
      "step": 8697,
      "task_loss": 0.8234674334526062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4455993175506592,
      "epoch": 7.35,
      "learning_rate": 2.832498434564809e-05,
      "loss": 0.7385,
      "step": 8698,
      "task_loss": 0.8174681067466736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9225709438323975,
      "epoch": 7.35,
      "learning_rate": 2.8321853475266123e-05,
      "loss": 1.0329,
      "step": 8699,
      "task_loss": 1.0808393955230713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8496356010437012,
      "epoch": 7.35,
      "learning_rate": 2.8318722604884158e-05,
      "loss": 0.7539,
      "step": 8700,
      "task_loss": 0.5998347997665405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7472780346870422,
      "epoch": 7.35,
      "learning_rate": 2.8315591734502193e-05,
      "loss": 0.6013,
      "step": 8701,
      "task_loss": 2.901012659072876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8117891550064087,
      "epoch": 7.36,
      "learning_rate": 2.831246086412023e-05,
      "loss": 0.6527,
      "step": 8702,
      "task_loss": 0.7235847115516663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4216265082359314,
      "epoch": 7.36,
      "learning_rate": 2.830932999373826e-05,
      "loss": 0.6022,
      "step": 8703,
      "task_loss": 0.1849815547466278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6287831664085388,
      "epoch": 7.36,
      "learning_rate": 2.8306199123356292e-05,
      "loss": 0.744,
      "step": 8704,
      "task_loss": 0.8400972485542297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8073284029960632,
      "epoch": 7.36,
      "learning_rate": 2.830306825297433e-05,
      "loss": 0.6374,
      "step": 8705,
      "task_loss": 0.9699385166168213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8281658887863159,
      "epoch": 7.36,
      "learning_rate": 2.8299937382592362e-05,
      "loss": 0.8206,
      "step": 8706,
      "task_loss": 0.36759576201438904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.649684488773346,
      "epoch": 7.36,
      "learning_rate": 2.8296806512210394e-05,
      "loss": 0.5669,
      "step": 8707,
      "task_loss": 0.6057938933372498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8331478834152222,
      "epoch": 7.36,
      "learning_rate": 2.8293675641828433e-05,
      "loss": 0.6389,
      "step": 8708,
      "task_loss": 0.7456074357032776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6102719306945801,
      "epoch": 7.36,
      "learning_rate": 2.8290544771446465e-05,
      "loss": 0.6837,
      "step": 8709,
      "task_loss": 0.7579582333564758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.669179379940033,
      "epoch": 7.36,
      "learning_rate": 2.8287413901064496e-05,
      "loss": 0.7715,
      "step": 8710,
      "task_loss": 0.5618059635162354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6799174547195435,
      "epoch": 7.36,
      "learning_rate": 2.8284283030682528e-05,
      "loss": 0.6388,
      "step": 8711,
      "task_loss": 0.48855751752853394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9695017337799072,
      "epoch": 7.36,
      "learning_rate": 2.8281152160300567e-05,
      "loss": 0.8974,
      "step": 8712,
      "task_loss": 0.6907163858413696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.008392095565796,
      "epoch": 7.36,
      "learning_rate": 2.82780212899186e-05,
      "loss": 0.7208,
      "step": 8713,
      "task_loss": 0.46296849846839905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6042251586914062,
      "epoch": 7.37,
      "learning_rate": 2.827489041953663e-05,
      "loss": 0.5907,
      "step": 8714,
      "task_loss": 0.21405747532844543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4050444960594177,
      "epoch": 7.37,
      "learning_rate": 2.8271759549154665e-05,
      "loss": 0.6828,
      "step": 8715,
      "task_loss": 0.7362436056137085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7017986178398132,
      "epoch": 7.37,
      "learning_rate": 2.82686286787727e-05,
      "loss": 0.5543,
      "step": 8716,
      "task_loss": 0.5097084045410156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.036901593208313,
      "epoch": 7.37,
      "learning_rate": 2.8265497808390732e-05,
      "loss": 0.7115,
      "step": 8717,
      "task_loss": 0.2339293658733368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0199949741363525,
      "epoch": 7.37,
      "learning_rate": 2.8262366938008768e-05,
      "loss": 0.8205,
      "step": 8718,
      "task_loss": 0.3011426329612732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6754268407821655,
      "epoch": 7.37,
      "learning_rate": 2.8259236067626803e-05,
      "loss": 0.6217,
      "step": 8719,
      "task_loss": 0.16464506089687347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.019136667251587,
      "epoch": 7.37,
      "learning_rate": 2.8256105197244838e-05,
      "loss": 0.8991,
      "step": 8720,
      "task_loss": 0.622413694858551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463671088218689,
      "epoch": 7.37,
      "learning_rate": 2.825297432686287e-05,
      "loss": 0.6298,
      "step": 8721,
      "task_loss": 0.2082112580537796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4698333144187927,
      "epoch": 7.37,
      "learning_rate": 2.82498434564809e-05,
      "loss": 0.7249,
      "step": 8722,
      "task_loss": 0.6398137807846069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6278135180473328,
      "epoch": 7.37,
      "learning_rate": 2.824671258609894e-05,
      "loss": 0.6993,
      "step": 8723,
      "task_loss": 0.4139755368232727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3523227572441101,
      "epoch": 7.37,
      "learning_rate": 2.8243581715716972e-05,
      "loss": 0.6578,
      "step": 8724,
      "task_loss": 0.5073292255401611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6609482765197754,
      "epoch": 7.38,
      "learning_rate": 2.8240450845335004e-05,
      "loss": 0.6858,
      "step": 8725,
      "task_loss": 0.4792857766151428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6024028062820435,
      "epoch": 7.38,
      "learning_rate": 2.8237319974953035e-05,
      "loss": 0.6626,
      "step": 8726,
      "task_loss": 0.3469833433628082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7680933475494385,
      "epoch": 7.38,
      "learning_rate": 2.8234189104571074e-05,
      "loss": 0.645,
      "step": 8727,
      "task_loss": 0.2925221920013428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7418922185897827,
      "epoch": 7.38,
      "learning_rate": 2.8231058234189106e-05,
      "loss": 0.8073,
      "step": 8728,
      "task_loss": 1.2363967895507812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.913530707359314,
      "epoch": 7.38,
      "learning_rate": 2.8227927363807138e-05,
      "loss": 0.6555,
      "step": 8729,
      "task_loss": 1.100874900817871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35989701747894287,
      "epoch": 7.38,
      "learning_rate": 2.8224796493425176e-05,
      "loss": 0.7538,
      "step": 8730,
      "task_loss": 0.733830988407135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43583977222442627,
      "epoch": 7.38,
      "learning_rate": 2.8221665623043208e-05,
      "loss": 0.6859,
      "step": 8731,
      "task_loss": 1.107914924621582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5965237617492676,
      "epoch": 7.38,
      "learning_rate": 2.821853475266124e-05,
      "loss": 0.5953,
      "step": 8732,
      "task_loss": 0.5497075319290161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0495258569717407,
      "epoch": 7.38,
      "learning_rate": 2.8215403882279275e-05,
      "loss": 0.7212,
      "step": 8733,
      "task_loss": 1.3129991292953491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6533822417259216,
      "epoch": 7.38,
      "learning_rate": 2.821227301189731e-05,
      "loss": 0.5702,
      "step": 8734,
      "task_loss": 0.4768957495689392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164860486984253,
      "epoch": 7.38,
      "learning_rate": 2.8209142141515342e-05,
      "loss": 0.6167,
      "step": 8735,
      "task_loss": 1.7156665325164795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40979883074760437,
      "epoch": 7.38,
      "learning_rate": 2.8206011271133377e-05,
      "loss": 0.7757,
      "step": 8736,
      "task_loss": 0.10094466060400009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2154157161712646,
      "epoch": 7.39,
      "learning_rate": 2.820288040075141e-05,
      "loss": 0.804,
      "step": 8737,
      "task_loss": 0.8376672863960266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5440839529037476,
      "epoch": 7.39,
      "learning_rate": 2.8199749530369447e-05,
      "loss": 0.5903,
      "step": 8738,
      "task_loss": 0.7369547486305237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5277293920516968,
      "epoch": 7.39,
      "learning_rate": 2.819661865998748e-05,
      "loss": 0.6524,
      "step": 8739,
      "task_loss": 0.4011024236679077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33726656436920166,
      "epoch": 7.39,
      "learning_rate": 2.819348778960551e-05,
      "loss": 0.523,
      "step": 8740,
      "task_loss": 0.3628687262535095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8878815174102783,
      "epoch": 7.39,
      "learning_rate": 2.8190356919223543e-05,
      "loss": 0.818,
      "step": 8741,
      "task_loss": 0.30085140466690063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8479537963867188,
      "epoch": 7.39,
      "learning_rate": 2.818722604884158e-05,
      "loss": 0.576,
      "step": 8742,
      "task_loss": 1.0505235195159912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5981613993644714,
      "epoch": 7.39,
      "learning_rate": 2.8184095178459613e-05,
      "loss": 0.7304,
      "step": 8743,
      "task_loss": 1.3986998796463013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5609970092773438,
      "epoch": 7.39,
      "learning_rate": 2.8180964308077645e-05,
      "loss": 0.6479,
      "step": 8744,
      "task_loss": 0.8494614362716675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7561981678009033,
      "epoch": 7.39,
      "learning_rate": 2.8177833437695683e-05,
      "loss": 0.9993,
      "step": 8745,
      "task_loss": 0.9566130042076111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7072064280509949,
      "epoch": 7.39,
      "learning_rate": 2.8174702567313715e-05,
      "loss": 0.6553,
      "step": 8746,
      "task_loss": 0.38347485661506653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5993257164955139,
      "epoch": 7.39,
      "learning_rate": 2.8171571696931747e-05,
      "loss": 0.5311,
      "step": 8747,
      "task_loss": 0.6305227875709534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4937189519405365,
      "epoch": 7.39,
      "learning_rate": 2.816844082654978e-05,
      "loss": 0.6643,
      "step": 8748,
      "task_loss": 1.2561657428741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8303518891334534,
      "epoch": 7.4,
      "learning_rate": 2.8165309956167817e-05,
      "loss": 0.7158,
      "step": 8749,
      "task_loss": 1.220591425895691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40555283427238464,
      "epoch": 7.4,
      "learning_rate": 2.816217908578585e-05,
      "loss": 0.4857,
      "step": 8750,
      "task_loss": 0.3062984049320221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5500526428222656,
      "epoch": 7.4,
      "learning_rate": 2.8159048215403884e-05,
      "loss": 0.5282,
      "step": 8751,
      "task_loss": 0.3149394989013672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4951242208480835,
      "epoch": 7.4,
      "learning_rate": 2.8155917345021916e-05,
      "loss": 0.6992,
      "step": 8752,
      "task_loss": 0.43961429595947266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.403460294008255,
      "epoch": 7.4,
      "learning_rate": 2.8152786474639954e-05,
      "loss": 0.6582,
      "step": 8753,
      "task_loss": 0.3072225749492645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0304667949676514,
      "epoch": 7.4,
      "learning_rate": 2.8149655604257986e-05,
      "loss": 0.6719,
      "step": 8754,
      "task_loss": 0.9349584579467773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5876983404159546,
      "epoch": 7.4,
      "learning_rate": 2.8146524733876018e-05,
      "loss": 0.5313,
      "step": 8755,
      "task_loss": 0.5104329586029053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7532891035079956,
      "epoch": 7.4,
      "learning_rate": 2.8143393863494057e-05,
      "loss": 0.7602,
      "step": 8756,
      "task_loss": 0.6858499050140381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5554585456848145,
      "epoch": 7.4,
      "learning_rate": 2.814026299311209e-05,
      "loss": 0.6068,
      "step": 8757,
      "task_loss": 0.5668289661407471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8183461427688599,
      "epoch": 7.4,
      "learning_rate": 2.813713212273012e-05,
      "loss": 0.8234,
      "step": 8758,
      "task_loss": 0.9885321259498596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9959775805473328,
      "epoch": 7.4,
      "learning_rate": 2.8134001252348152e-05,
      "loss": 0.8982,
      "step": 8759,
      "task_loss": 2.30863094329834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7859461307525635,
      "epoch": 7.4,
      "learning_rate": 2.813087038196619e-05,
      "loss": 0.6838,
      "step": 8760,
      "task_loss": 1.5350921154022217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6158106327056885,
      "epoch": 7.41,
      "learning_rate": 2.8127739511584222e-05,
      "loss": 0.6528,
      "step": 8761,
      "task_loss": 0.8665949702262878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7590534687042236,
      "epoch": 7.41,
      "learning_rate": 2.8124608641202254e-05,
      "loss": 0.7804,
      "step": 8762,
      "task_loss": 0.7687414288520813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9065198302268982,
      "epoch": 7.41,
      "learning_rate": 2.8121477770820286e-05,
      "loss": 0.6938,
      "step": 8763,
      "task_loss": 1.2923884391784668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7673044204711914,
      "epoch": 7.41,
      "learning_rate": 2.8118346900438324e-05,
      "loss": 0.8704,
      "step": 8764,
      "task_loss": 0.6381109952926636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5836144685745239,
      "epoch": 7.41,
      "learning_rate": 2.8115216030056356e-05,
      "loss": 0.8061,
      "step": 8765,
      "task_loss": 0.6048976182937622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7787831425666809,
      "epoch": 7.41,
      "learning_rate": 2.8112085159674388e-05,
      "loss": 0.713,
      "step": 8766,
      "task_loss": 1.054921269416809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.181098222732544,
      "epoch": 7.41,
      "learning_rate": 2.8108954289292427e-05,
      "loss": 0.7747,
      "step": 8767,
      "task_loss": 1.2563267946243286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43193119764328003,
      "epoch": 7.41,
      "learning_rate": 2.8105823418910458e-05,
      "loss": 0.6092,
      "step": 8768,
      "task_loss": 0.5129494071006775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3594672679901123,
      "epoch": 7.41,
      "learning_rate": 2.8102692548528493e-05,
      "loss": 0.5606,
      "step": 8769,
      "task_loss": 0.32786133885383606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4575199484825134,
      "epoch": 7.41,
      "learning_rate": 2.8099561678146525e-05,
      "loss": 0.7541,
      "step": 8770,
      "task_loss": 0.3065391480922699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43765515089035034,
      "epoch": 7.41,
      "learning_rate": 2.8096430807764564e-05,
      "loss": 0.4801,
      "step": 8771,
      "task_loss": 0.5472772717475891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5160094499588013,
      "epoch": 7.41,
      "learning_rate": 2.8093299937382596e-05,
      "loss": 0.6125,
      "step": 8772,
      "task_loss": 1.5261750221252441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5440532565116882,
      "epoch": 7.42,
      "learning_rate": 2.8090169067000627e-05,
      "loss": 0.5259,
      "step": 8773,
      "task_loss": 0.4931740164756775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42767882347106934,
      "epoch": 7.42,
      "learning_rate": 2.808703819661866e-05,
      "loss": 0.7162,
      "step": 8774,
      "task_loss": 0.30984702706336975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8581374883651733,
      "epoch": 7.42,
      "learning_rate": 2.8083907326236698e-05,
      "loss": 0.8329,
      "step": 8775,
      "task_loss": 0.2951958179473877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6098191738128662,
      "epoch": 7.42,
      "learning_rate": 2.808077645585473e-05,
      "loss": 0.5665,
      "step": 8776,
      "task_loss": 1.0712279081344604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45149874687194824,
      "epoch": 7.42,
      "learning_rate": 2.807764558547276e-05,
      "loss": 0.6898,
      "step": 8777,
      "task_loss": 1.0855058431625366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7814539074897766,
      "epoch": 7.42,
      "learning_rate": 2.8074514715090793e-05,
      "loss": 0.7366,
      "step": 8778,
      "task_loss": 1.1221083402633667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3750661611557007,
      "epoch": 7.42,
      "learning_rate": 2.807138384470883e-05,
      "loss": 0.5371,
      "step": 8779,
      "task_loss": 0.23768866062164307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.812508761882782,
      "epoch": 7.42,
      "learning_rate": 2.8068252974326863e-05,
      "loss": 0.7138,
      "step": 8780,
      "task_loss": 0.5685204863548279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.631499707698822,
      "epoch": 7.42,
      "learning_rate": 2.8065122103944895e-05,
      "loss": 0.7139,
      "step": 8781,
      "task_loss": 0.4607557952404022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9398317933082581,
      "epoch": 7.42,
      "learning_rate": 2.8061991233562934e-05,
      "loss": 0.7167,
      "step": 8782,
      "task_loss": 0.7672886252403259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4100750982761383,
      "epoch": 7.42,
      "learning_rate": 2.8058860363180966e-05,
      "loss": 0.6413,
      "step": 8783,
      "task_loss": 0.3345680832862854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6734197735786438,
      "epoch": 7.42,
      "learning_rate": 2.8055729492798997e-05,
      "loss": 0.5644,
      "step": 8784,
      "task_loss": 0.5919389724731445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5595947504043579,
      "epoch": 7.43,
      "learning_rate": 2.8052598622417032e-05,
      "loss": 0.6964,
      "step": 8785,
      "task_loss": 0.7438595294952393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4685544967651367,
      "epoch": 7.43,
      "learning_rate": 2.8049467752035068e-05,
      "loss": 0.6219,
      "step": 8786,
      "task_loss": 0.6929187178611755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.703748881816864,
      "epoch": 7.43,
      "learning_rate": 2.8046336881653103e-05,
      "loss": 0.755,
      "step": 8787,
      "task_loss": 0.9299463033676147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5516213178634644,
      "epoch": 7.43,
      "learning_rate": 2.8043206011271135e-05,
      "loss": 0.6818,
      "step": 8788,
      "task_loss": 0.44678303599357605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7688393592834473,
      "epoch": 7.43,
      "learning_rate": 2.8040075140889166e-05,
      "loss": 0.6139,
      "step": 8789,
      "task_loss": 0.9909530878067017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5975785255432129,
      "epoch": 7.43,
      "learning_rate": 2.8036944270507205e-05,
      "loss": 0.6589,
      "step": 8790,
      "task_loss": 0.4738157391548157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4342321753501892,
      "epoch": 7.43,
      "learning_rate": 2.8033813400125237e-05,
      "loss": 0.6378,
      "step": 8791,
      "task_loss": 0.25811901688575745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4748522937297821,
      "epoch": 7.43,
      "learning_rate": 2.803068252974327e-05,
      "loss": 0.4793,
      "step": 8792,
      "task_loss": 0.8404300808906555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48181551694869995,
      "epoch": 7.43,
      "learning_rate": 2.8027551659361307e-05,
      "loss": 0.5645,
      "step": 8793,
      "task_loss": 0.16662679612636566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45101988315582275,
      "epoch": 7.43,
      "learning_rate": 2.802442078897934e-05,
      "loss": 0.7006,
      "step": 8794,
      "task_loss": 0.6702026724815369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8319796919822693,
      "epoch": 7.43,
      "learning_rate": 2.802128991859737e-05,
      "loss": 0.7109,
      "step": 8795,
      "task_loss": 1.1450470685958862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.407101571559906,
      "epoch": 7.44,
      "learning_rate": 2.8018159048215402e-05,
      "loss": 0.6234,
      "step": 8796,
      "task_loss": 0.23016445338726044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.120642066001892,
      "epoch": 7.44,
      "learning_rate": 2.801502817783344e-05,
      "loss": 0.7221,
      "step": 8797,
      "task_loss": 0.4159664511680603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4295078217983246,
      "epoch": 7.44,
      "learning_rate": 2.8011897307451473e-05,
      "loss": 0.8079,
      "step": 8798,
      "task_loss": 0.0964450091123581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6340898871421814,
      "epoch": 7.44,
      "learning_rate": 2.8008766437069504e-05,
      "loss": 0.5964,
      "step": 8799,
      "task_loss": 0.9807495474815369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4612695574760437,
      "epoch": 7.44,
      "learning_rate": 2.800563556668754e-05,
      "loss": 0.6225,
      "step": 8800,
      "task_loss": 0.3714570701122284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4207022190093994,
      "epoch": 7.44,
      "learning_rate": 2.8002504696305575e-05,
      "loss": 1.0454,
      "step": 8801,
      "task_loss": 1.7001583576202393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5477580428123474,
      "epoch": 7.44,
      "learning_rate": 2.7999373825923607e-05,
      "loss": 0.8119,
      "step": 8802,
      "task_loss": 1.2847486734390259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42922502756118774,
      "epoch": 7.44,
      "learning_rate": 2.7996242955541642e-05,
      "loss": 0.4855,
      "step": 8803,
      "task_loss": 0.5238210558891296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.860409140586853,
      "epoch": 7.44,
      "learning_rate": 2.7993112085159677e-05,
      "loss": 0.5753,
      "step": 8804,
      "task_loss": 0.3088688552379608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.333641916513443,
      "epoch": 7.44,
      "learning_rate": 2.7989981214777712e-05,
      "loss": 0.5121,
      "step": 8805,
      "task_loss": 0.3712344467639923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4421110153198242,
      "epoch": 7.44,
      "learning_rate": 2.7986850344395744e-05,
      "loss": 0.6154,
      "step": 8806,
      "task_loss": 0.6552814841270447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1284995079040527,
      "epoch": 7.44,
      "learning_rate": 2.7983719474013776e-05,
      "loss": 0.7507,
      "step": 8807,
      "task_loss": 0.987210750579834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6407496929168701,
      "epoch": 7.45,
      "learning_rate": 2.7980588603631814e-05,
      "loss": 0.7273,
      "step": 8808,
      "task_loss": 1.2387347221374512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6481969356536865,
      "epoch": 7.45,
      "learning_rate": 2.7977457733249846e-05,
      "loss": 0.5724,
      "step": 8809,
      "task_loss": 0.8668972253799438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4183013439178467,
      "epoch": 7.45,
      "learning_rate": 2.7974326862867878e-05,
      "loss": 0.6274,
      "step": 8810,
      "task_loss": 0.20484508574008942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7269802093505859,
      "epoch": 7.45,
      "learning_rate": 2.797119599248591e-05,
      "loss": 0.6353,
      "step": 8811,
      "task_loss": 0.5995336174964905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8299833536148071,
      "epoch": 7.45,
      "learning_rate": 2.7968065122103948e-05,
      "loss": 0.7038,
      "step": 8812,
      "task_loss": 0.989422082901001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8846255540847778,
      "epoch": 7.45,
      "learning_rate": 2.796493425172198e-05,
      "loss": 0.5529,
      "step": 8813,
      "task_loss": 1.2069478034973145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0477914810180664,
      "epoch": 7.45,
      "learning_rate": 2.7961803381340012e-05,
      "loss": 0.7911,
      "step": 8814,
      "task_loss": 1.316024899482727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3210374116897583,
      "epoch": 7.45,
      "learning_rate": 2.7958672510958043e-05,
      "loss": 0.6042,
      "step": 8815,
      "task_loss": 0.6727946996688843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35982444882392883,
      "epoch": 7.45,
      "learning_rate": 2.7955541640576082e-05,
      "loss": 0.6111,
      "step": 8816,
      "task_loss": 0.794288158416748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6954720616340637,
      "epoch": 7.45,
      "learning_rate": 2.7952410770194114e-05,
      "loss": 0.7388,
      "step": 8817,
      "task_loss": 1.392090082168579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6814044117927551,
      "epoch": 7.45,
      "learning_rate": 2.794927989981215e-05,
      "loss": 0.6326,
      "step": 8818,
      "task_loss": 0.9974490404129028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.586689829826355,
      "epoch": 7.45,
      "learning_rate": 2.7946149029430184e-05,
      "loss": 0.8002,
      "step": 8819,
      "task_loss": 0.581546425819397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4403482675552368,
      "epoch": 7.46,
      "learning_rate": 2.7943018159048216e-05,
      "loss": 0.6368,
      "step": 8820,
      "task_loss": 0.29727253317832947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4192628264427185,
      "epoch": 7.46,
      "learning_rate": 2.793988728866625e-05,
      "loss": 0.7166,
      "step": 8821,
      "task_loss": 0.6607955694198608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1285805702209473,
      "epoch": 7.46,
      "learning_rate": 2.7936756418284283e-05,
      "loss": 0.7103,
      "step": 8822,
      "task_loss": 0.5228863954544067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7411041259765625,
      "epoch": 7.46,
      "learning_rate": 2.793362554790232e-05,
      "loss": 0.5581,
      "step": 8823,
      "task_loss": 0.13978183269500732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6713605523109436,
      "epoch": 7.46,
      "learning_rate": 2.7930494677520353e-05,
      "loss": 0.7107,
      "step": 8824,
      "task_loss": 1.295412540435791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5203004479408264,
      "epoch": 7.46,
      "learning_rate": 2.7927363807138385e-05,
      "loss": 0.6783,
      "step": 8825,
      "task_loss": 1.0964449644088745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5880818963050842,
      "epoch": 7.46,
      "learning_rate": 2.7924232936756417e-05,
      "loss": 0.6202,
      "step": 8826,
      "task_loss": 0.5840260982513428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0902953147888184,
      "epoch": 7.46,
      "learning_rate": 2.7921102066374455e-05,
      "loss": 0.6872,
      "step": 8827,
      "task_loss": 1.0698812007904053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.681069016456604,
      "epoch": 7.46,
      "learning_rate": 2.7917971195992487e-05,
      "loss": 0.5614,
      "step": 8828,
      "task_loss": 0.14443495869636536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1090134382247925,
      "epoch": 7.46,
      "learning_rate": 2.791484032561052e-05,
      "loss": 0.768,
      "step": 8829,
      "task_loss": 0.5864757299423218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7818779945373535,
      "epoch": 7.46,
      "learning_rate": 2.7911709455228557e-05,
      "loss": 0.7638,
      "step": 8830,
      "task_loss": 1.5806022882461548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7092574238777161,
      "epoch": 7.46,
      "learning_rate": 2.790857858484659e-05,
      "loss": 0.7283,
      "step": 8831,
      "task_loss": 0.6833672523498535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15776681900024414,
      "epoch": 7.47,
      "learning_rate": 2.790544771446462e-05,
      "loss": 0.5907,
      "step": 8832,
      "task_loss": 0.17077116668224335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7315012812614441,
      "epoch": 7.47,
      "learning_rate": 2.7902316844082653e-05,
      "loss": 0.5811,
      "step": 8833,
      "task_loss": 1.1257193088531494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6757863759994507,
      "epoch": 7.47,
      "learning_rate": 2.789918597370069e-05,
      "loss": 0.7313,
      "step": 8834,
      "task_loss": 0.7668935656547546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3643103837966919,
      "epoch": 7.47,
      "learning_rate": 2.7896055103318723e-05,
      "loss": 0.6305,
      "step": 8835,
      "task_loss": 0.4031587839126587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5588780641555786,
      "epoch": 7.47,
      "learning_rate": 2.789292423293676e-05,
      "loss": 0.5787,
      "step": 8836,
      "task_loss": 0.7323093414306641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2874821424484253,
      "epoch": 7.47,
      "learning_rate": 2.788979336255479e-05,
      "loss": 0.9615,
      "step": 8837,
      "task_loss": 0.5754157900810242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1571381092071533,
      "epoch": 7.47,
      "learning_rate": 2.788666249217283e-05,
      "loss": 0.782,
      "step": 8838,
      "task_loss": 1.0394586324691772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48742619156837463,
      "epoch": 7.47,
      "learning_rate": 2.788353162179086e-05,
      "loss": 0.4822,
      "step": 8839,
      "task_loss": 0.6790181994438171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5946010947227478,
      "epoch": 7.47,
      "learning_rate": 2.7880400751408892e-05,
      "loss": 0.4061,
      "step": 8840,
      "task_loss": 0.5514503121376038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6389089822769165,
      "epoch": 7.47,
      "learning_rate": 2.787726988102693e-05,
      "loss": 0.6007,
      "step": 8841,
      "task_loss": 0.8563059568405151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4459320902824402,
      "epoch": 7.47,
      "learning_rate": 2.7874139010644963e-05,
      "loss": 0.5663,
      "step": 8842,
      "task_loss": 1.2268357276916504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9017670154571533,
      "epoch": 7.47,
      "learning_rate": 2.7871008140262994e-05,
      "loss": 0.8433,
      "step": 8843,
      "task_loss": 1.6468980312347412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7712960243225098,
      "epoch": 7.48,
      "learning_rate": 2.7867877269881026e-05,
      "loss": 0.9062,
      "step": 8844,
      "task_loss": 1.8324816226959229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8349848985671997,
      "epoch": 7.48,
      "learning_rate": 2.7864746399499065e-05,
      "loss": 0.6907,
      "step": 8845,
      "task_loss": 0.7089641094207764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3186090588569641,
      "epoch": 7.48,
      "learning_rate": 2.7861615529117096e-05,
      "loss": 0.8044,
      "step": 8846,
      "task_loss": 0.7154178023338318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6857525110244751,
      "epoch": 7.48,
      "learning_rate": 2.7858484658735128e-05,
      "loss": 0.8201,
      "step": 8847,
      "task_loss": 1.1292932033538818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9675085544586182,
      "epoch": 7.48,
      "learning_rate": 2.785535378835316e-05,
      "loss": 0.7992,
      "step": 8848,
      "task_loss": 1.4347161054611206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5075402855873108,
      "epoch": 7.48,
      "learning_rate": 2.78522229179712e-05,
      "loss": 0.8955,
      "step": 8849,
      "task_loss": 0.605917751789093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7644408941268921,
      "epoch": 7.48,
      "learning_rate": 2.784909204758923e-05,
      "loss": 0.6442,
      "step": 8850,
      "task_loss": 0.6165237426757812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6717935800552368,
      "epoch": 7.48,
      "learning_rate": 2.7845961177207262e-05,
      "loss": 0.7148,
      "step": 8851,
      "task_loss": 1.019392728805542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4922497868537903,
      "epoch": 7.48,
      "learning_rate": 2.7842830306825297e-05,
      "loss": 0.5166,
      "step": 8852,
      "task_loss": 0.90252685546875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8218318819999695,
      "epoch": 7.48,
      "learning_rate": 2.7839699436443332e-05,
      "loss": 0.5942,
      "step": 8853,
      "task_loss": 0.6900655627250671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25402048230171204,
      "epoch": 7.48,
      "learning_rate": 2.7836568566061368e-05,
      "loss": 0.6946,
      "step": 8854,
      "task_loss": 0.2919767200946808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8974696397781372,
      "epoch": 7.48,
      "learning_rate": 2.78334376956794e-05,
      "loss": 0.8387,
      "step": 8855,
      "task_loss": 1.2610074281692505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0227079391479492,
      "epoch": 7.49,
      "learning_rate": 2.7830306825297438e-05,
      "loss": 0.671,
      "step": 8856,
      "task_loss": 0.9339841604232788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.470958411693573,
      "epoch": 7.49,
      "learning_rate": 2.782717595491547e-05,
      "loss": 0.4925,
      "step": 8857,
      "task_loss": 0.414824515581131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.495168000459671,
      "epoch": 7.49,
      "learning_rate": 2.78240450845335e-05,
      "loss": 0.6279,
      "step": 8858,
      "task_loss": 0.5650363564491272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4172421097755432,
      "epoch": 7.49,
      "learning_rate": 2.7820914214151533e-05,
      "loss": 0.6447,
      "step": 8859,
      "task_loss": 0.19549964368343353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6954474449157715,
      "epoch": 7.49,
      "learning_rate": 2.7817783343769572e-05,
      "loss": 0.8002,
      "step": 8860,
      "task_loss": 0.8795031309127808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7621569633483887,
      "epoch": 7.49,
      "learning_rate": 2.7814652473387604e-05,
      "loss": 0.563,
      "step": 8861,
      "task_loss": 0.6552727222442627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8916828632354736,
      "epoch": 7.49,
      "learning_rate": 2.7811521603005635e-05,
      "loss": 0.8194,
      "step": 8862,
      "task_loss": 1.1523269414901733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4542318880558014,
      "epoch": 7.49,
      "learning_rate": 2.7808390732623667e-05,
      "loss": 0.6688,
      "step": 8863,
      "task_loss": 0.9505837559700012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.153666615486145,
      "epoch": 7.49,
      "learning_rate": 2.7805259862241706e-05,
      "loss": 0.6819,
      "step": 8864,
      "task_loss": 0.6711534857749939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4368741810321808,
      "epoch": 7.49,
      "learning_rate": 2.7802128991859738e-05,
      "loss": 0.6763,
      "step": 8865,
      "task_loss": 0.1741897016763687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4314463138580322,
      "epoch": 7.49,
      "learning_rate": 2.779899812147777e-05,
      "loss": 0.6362,
      "step": 8866,
      "task_loss": 0.31251904368400574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5735291838645935,
      "epoch": 7.5,
      "learning_rate": 2.7795867251095808e-05,
      "loss": 0.6009,
      "step": 8867,
      "task_loss": 0.35348787903785706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6740708351135254,
      "epoch": 7.5,
      "learning_rate": 2.779273638071384e-05,
      "loss": 0.5799,
      "step": 8868,
      "task_loss": 1.2136934995651245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5912533402442932,
      "epoch": 7.5,
      "learning_rate": 2.778960551033187e-05,
      "loss": 0.6616,
      "step": 8869,
      "task_loss": 0.3323783576488495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.586917519569397,
      "epoch": 7.5,
      "learning_rate": 2.7786474639949907e-05,
      "loss": 0.6413,
      "step": 8870,
      "task_loss": 0.5449810028076172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3835616409778595,
      "epoch": 7.5,
      "learning_rate": 2.7783343769567942e-05,
      "loss": 0.585,
      "step": 8871,
      "task_loss": 0.29183581471443176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36324742436408997,
      "epoch": 7.5,
      "learning_rate": 2.7780212899185977e-05,
      "loss": 0.5342,
      "step": 8872,
      "task_loss": 0.3628849685192108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4239441454410553,
      "epoch": 7.5,
      "learning_rate": 2.777708202880401e-05,
      "loss": 0.5365,
      "step": 8873,
      "task_loss": 0.79250568151474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6779139637947083,
      "epoch": 7.5,
      "learning_rate": 2.777395115842204e-05,
      "loss": 0.8201,
      "step": 8874,
      "task_loss": 1.3842679262161255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41660404205322266,
      "epoch": 7.5,
      "learning_rate": 2.777082028804008e-05,
      "loss": 0.5753,
      "step": 8875,
      "task_loss": 0.34002232551574707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40680819749832153,
      "epoch": 7.5,
      "learning_rate": 2.776768941765811e-05,
      "loss": 0.6343,
      "step": 8876,
      "task_loss": 0.22283755242824554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8476375341415405,
      "epoch": 7.5,
      "learning_rate": 2.7764558547276143e-05,
      "loss": 0.7047,
      "step": 8877,
      "task_loss": 0.6939153671264648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7010583877563477,
      "epoch": 7.5,
      "learning_rate": 2.776142767689418e-05,
      "loss": 0.6307,
      "step": 8878,
      "task_loss": 0.27121445536613464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4452442228794098,
      "epoch": 7.51,
      "learning_rate": 2.7758296806512213e-05,
      "loss": 0.5459,
      "step": 8879,
      "task_loss": 0.2766035497188568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221630334854126,
      "epoch": 7.51,
      "learning_rate": 2.7755165936130245e-05,
      "loss": 0.7134,
      "step": 8880,
      "task_loss": 0.7477262020111084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7782728672027588,
      "epoch": 7.51,
      "learning_rate": 2.7752035065748277e-05,
      "loss": 0.6077,
      "step": 8881,
      "task_loss": 0.9199982285499573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955924391746521,
      "epoch": 7.51,
      "learning_rate": 2.7748904195366315e-05,
      "loss": 0.9854,
      "step": 8882,
      "task_loss": 0.23325540125370026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6426391005516052,
      "epoch": 7.51,
      "learning_rate": 2.7745773324984347e-05,
      "loss": 0.6154,
      "step": 8883,
      "task_loss": 0.7717761397361755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9633383750915527,
      "epoch": 7.51,
      "learning_rate": 2.774264245460238e-05,
      "loss": 0.8353,
      "step": 8884,
      "task_loss": 1.3567430973052979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7771105766296387,
      "epoch": 7.51,
      "learning_rate": 2.7739511584220414e-05,
      "loss": 0.5856,
      "step": 8885,
      "task_loss": 0.8314599394798279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46642422676086426,
      "epoch": 7.51,
      "learning_rate": 2.773638071383845e-05,
      "loss": 0.5241,
      "step": 8886,
      "task_loss": 1.2365704774856567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6254347562789917,
      "epoch": 7.51,
      "learning_rate": 2.773324984345648e-05,
      "loss": 0.732,
      "step": 8887,
      "task_loss": 0.24277329444885254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9156547784805298,
      "epoch": 7.51,
      "learning_rate": 2.7730118973074516e-05,
      "loss": 0.6307,
      "step": 8888,
      "task_loss": 0.958961009979248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4069744050502777,
      "epoch": 7.51,
      "learning_rate": 2.7726988102692548e-05,
      "loss": 0.575,
      "step": 8889,
      "task_loss": 0.23684550821781158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7926462888717651,
      "epoch": 7.51,
      "learning_rate": 2.7723857232310586e-05,
      "loss": 0.6381,
      "step": 8890,
      "task_loss": 0.6162194609642029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28588706254959106,
      "epoch": 7.52,
      "learning_rate": 2.7720726361928618e-05,
      "loss": 0.5794,
      "step": 8891,
      "task_loss": 0.17895661294460297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4703579843044281,
      "epoch": 7.52,
      "learning_rate": 2.771759549154665e-05,
      "loss": 0.5624,
      "step": 8892,
      "task_loss": 0.1737464964389801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6404953002929688,
      "epoch": 7.52,
      "learning_rate": 2.771446462116469e-05,
      "loss": 0.6538,
      "step": 8893,
      "task_loss": 0.9414440393447876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5610682368278503,
      "epoch": 7.52,
      "learning_rate": 2.771133375078272e-05,
      "loss": 0.5766,
      "step": 8894,
      "task_loss": 0.639207124710083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0036556720733643,
      "epoch": 7.52,
      "learning_rate": 2.7708202880400752e-05,
      "loss": 0.8815,
      "step": 8895,
      "task_loss": 1.0366026163101196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8443719744682312,
      "epoch": 7.52,
      "learning_rate": 2.7705072010018784e-05,
      "loss": 0.6364,
      "step": 8896,
      "task_loss": 0.8146626949310303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7869648933410645,
      "epoch": 7.52,
      "learning_rate": 2.7701941139636822e-05,
      "loss": 0.6134,
      "step": 8897,
      "task_loss": 0.881245493888855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6698192954063416,
      "epoch": 7.52,
      "learning_rate": 2.7698810269254854e-05,
      "loss": 0.5076,
      "step": 8898,
      "task_loss": 1.0186127424240112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8638697862625122,
      "epoch": 7.52,
      "learning_rate": 2.7695679398872886e-05,
      "loss": 0.7399,
      "step": 8899,
      "task_loss": 1.0903170108795166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105559468269348,
      "epoch": 7.52,
      "learning_rate": 2.7692548528490918e-05,
      "loss": 0.5778,
      "step": 8900,
      "task_loss": 1.2111175060272217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6490325927734375,
      "epoch": 7.52,
      "learning_rate": 2.7689417658108956e-05,
      "loss": 0.7742,
      "step": 8901,
      "task_loss": 0.5405369400978088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7843350172042847,
      "epoch": 7.52,
      "learning_rate": 2.7686286787726988e-05,
      "loss": 0.5162,
      "step": 8902,
      "task_loss": 0.9883390665054321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5447616577148438,
      "epoch": 7.53,
      "learning_rate": 2.7683155917345023e-05,
      "loss": 0.7361,
      "step": 8903,
      "task_loss": 0.9327481985092163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3944104313850403,
      "epoch": 7.53,
      "learning_rate": 2.768002504696306e-05,
      "loss": 0.6119,
      "step": 8904,
      "task_loss": 0.4954860806465149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.599523663520813,
      "epoch": 7.53,
      "learning_rate": 2.7676894176581094e-05,
      "loss": 0.6979,
      "step": 8905,
      "task_loss": 0.4132433533668518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5537995100021362,
      "epoch": 7.53,
      "learning_rate": 2.7673763306199125e-05,
      "loss": 0.6551,
      "step": 8906,
      "task_loss": 0.3478572368621826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5768522024154663,
      "epoch": 7.53,
      "learning_rate": 2.7670632435817157e-05,
      "loss": 0.6606,
      "step": 8907,
      "task_loss": 0.8405965566635132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2960614562034607,
      "epoch": 7.53,
      "learning_rate": 2.7667501565435196e-05,
      "loss": 0.6128,
      "step": 8908,
      "task_loss": 0.1926761120557785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.536874532699585,
      "epoch": 7.53,
      "learning_rate": 2.7664370695053227e-05,
      "loss": 0.5525,
      "step": 8909,
      "task_loss": 0.43825411796569824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39426273107528687,
      "epoch": 7.53,
      "learning_rate": 2.766123982467126e-05,
      "loss": 0.5423,
      "step": 8910,
      "task_loss": 0.16923609375953674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4464220106601715,
      "epoch": 7.53,
      "learning_rate": 2.765810895428929e-05,
      "loss": 0.4005,
      "step": 8911,
      "task_loss": 0.6438937783241272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.061429500579834,
      "epoch": 7.53,
      "learning_rate": 2.765497808390733e-05,
      "loss": 0.7042,
      "step": 8912,
      "task_loss": 0.8864091634750366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44453394412994385,
      "epoch": 7.53,
      "learning_rate": 2.765184721352536e-05,
      "loss": 0.5922,
      "step": 8913,
      "task_loss": 1.446808099746704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6103577017784119,
      "epoch": 7.53,
      "learning_rate": 2.7648716343143393e-05,
      "loss": 0.7321,
      "step": 8914,
      "task_loss": 0.3099899888038635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34666088223457336,
      "epoch": 7.54,
      "learning_rate": 2.764558547276143e-05,
      "loss": 0.6508,
      "step": 8915,
      "task_loss": 1.0368236303329468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46396172046661377,
      "epoch": 7.54,
      "learning_rate": 2.7642454602379463e-05,
      "loss": 0.4667,
      "step": 8916,
      "task_loss": 0.5881316661834717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.954359769821167,
      "epoch": 7.54,
      "learning_rate": 2.7639323731997495e-05,
      "loss": 0.6388,
      "step": 8917,
      "task_loss": 1.0911415815353394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5896576642990112,
      "epoch": 7.54,
      "learning_rate": 2.7636192861615527e-05,
      "loss": 0.5984,
      "step": 8918,
      "task_loss": 0.7172211408615112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5846594572067261,
      "epoch": 7.54,
      "learning_rate": 2.7633061991233566e-05,
      "loss": 0.8266,
      "step": 8919,
      "task_loss": 0.7047592997550964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1020228862762451,
      "epoch": 7.54,
      "learning_rate": 2.7629931120851597e-05,
      "loss": 0.7547,
      "step": 8920,
      "task_loss": 1.8042447566986084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7113831639289856,
      "epoch": 7.54,
      "learning_rate": 2.7626800250469633e-05,
      "loss": 0.8926,
      "step": 8921,
      "task_loss": 1.2243740558624268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47615402936935425,
      "epoch": 7.54,
      "learning_rate": 2.7623669380087664e-05,
      "loss": 0.473,
      "step": 8922,
      "task_loss": 0.7355588674545288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1924290657043457,
      "epoch": 7.54,
      "learning_rate": 2.7620538509705703e-05,
      "loss": 0.8897,
      "step": 8923,
      "task_loss": 0.9614308476448059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3856412172317505,
      "epoch": 7.54,
      "learning_rate": 2.7617407639323735e-05,
      "loss": 0.6245,
      "step": 8924,
      "task_loss": 0.5958232283592224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9148974418640137,
      "epoch": 7.54,
      "learning_rate": 2.7614276768941766e-05,
      "loss": 0.6517,
      "step": 8925,
      "task_loss": 1.2139389514923096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.698992908000946,
      "epoch": 7.54,
      "learning_rate": 2.7611145898559805e-05,
      "loss": 0.6519,
      "step": 8926,
      "task_loss": 0.8846461772918701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5656126737594604,
      "epoch": 7.55,
      "learning_rate": 2.7608015028177837e-05,
      "loss": 0.799,
      "step": 8927,
      "task_loss": 0.5656106472015381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4970540404319763,
      "epoch": 7.55,
      "learning_rate": 2.760488415779587e-05,
      "loss": 0.6197,
      "step": 8928,
      "task_loss": 0.7635831236839294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8086221814155579,
      "epoch": 7.55,
      "learning_rate": 2.76017532874139e-05,
      "loss": 0.7734,
      "step": 8929,
      "task_loss": 0.5769930481910706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.916208028793335,
      "epoch": 7.55,
      "learning_rate": 2.759862241703194e-05,
      "loss": 0.8572,
      "step": 8930,
      "task_loss": 1.2751905918121338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38610202074050903,
      "epoch": 7.55,
      "learning_rate": 2.759549154664997e-05,
      "loss": 0.5383,
      "step": 8931,
      "task_loss": 0.4414200186729431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.657019317150116,
      "epoch": 7.55,
      "learning_rate": 2.7592360676268002e-05,
      "loss": 0.737,
      "step": 8932,
      "task_loss": 0.668395459651947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42420363426208496,
      "epoch": 7.55,
      "learning_rate": 2.7589229805886034e-05,
      "loss": 0.6021,
      "step": 8933,
      "task_loss": 0.6997520327568054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7705491185188293,
      "epoch": 7.55,
      "learning_rate": 2.7586098935504073e-05,
      "loss": 0.6844,
      "step": 8934,
      "task_loss": 0.9108431935310364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8366838693618774,
      "epoch": 7.55,
      "learning_rate": 2.7582968065122105e-05,
      "loss": 0.625,
      "step": 8935,
      "task_loss": 1.1577550172805786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43314749002456665,
      "epoch": 7.55,
      "learning_rate": 2.7579837194740136e-05,
      "loss": 0.6589,
      "step": 8936,
      "task_loss": 0.2802475392818451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7549093961715698,
      "epoch": 7.55,
      "learning_rate": 2.757670632435817e-05,
      "loss": 0.5563,
      "step": 8937,
      "task_loss": 0.49648770689964294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5094294548034668,
      "epoch": 7.56,
      "learning_rate": 2.7573575453976207e-05,
      "loss": 0.5716,
      "step": 8938,
      "task_loss": 0.2903459668159485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6225179433822632,
      "epoch": 7.56,
      "learning_rate": 2.7570444583594242e-05,
      "loss": 0.7641,
      "step": 8939,
      "task_loss": 0.6109243035316467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5209974050521851,
      "epoch": 7.56,
      "learning_rate": 2.7567313713212274e-05,
      "loss": 0.7357,
      "step": 8940,
      "task_loss": 0.5212772488594055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38129663467407227,
      "epoch": 7.56,
      "learning_rate": 2.7564182842830312e-05,
      "loss": 0.5624,
      "step": 8941,
      "task_loss": 0.5728554129600525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42950281500816345,
      "epoch": 7.56,
      "learning_rate": 2.7561051972448344e-05,
      "loss": 0.4966,
      "step": 8942,
      "task_loss": 0.7538378238677979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8192622065544128,
      "epoch": 7.56,
      "learning_rate": 2.7557921102066376e-05,
      "loss": 0.6487,
      "step": 8943,
      "task_loss": 0.8644980788230896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5837259292602539,
      "epoch": 7.56,
      "learning_rate": 2.7554790231684408e-05,
      "loss": 0.5473,
      "step": 8944,
      "task_loss": 1.2237054109573364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5449843406677246,
      "epoch": 7.56,
      "learning_rate": 2.7551659361302446e-05,
      "loss": 0.6685,
      "step": 8945,
      "task_loss": 0.44731566309928894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7824638485908508,
      "epoch": 7.56,
      "learning_rate": 2.7548528490920478e-05,
      "loss": 0.6102,
      "step": 8946,
      "task_loss": 1.8488942384719849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7510493397712708,
      "epoch": 7.56,
      "learning_rate": 2.754539762053851e-05,
      "loss": 0.6628,
      "step": 8947,
      "task_loss": 0.41483360528945923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6366939544677734,
      "epoch": 7.56,
      "learning_rate": 2.754226675015654e-05,
      "loss": 0.6394,
      "step": 8948,
      "task_loss": 0.6321890354156494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.464306116104126,
      "epoch": 7.56,
      "learning_rate": 2.753913587977458e-05,
      "loss": 0.621,
      "step": 8949,
      "task_loss": 0.2168804258108139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6221418380737305,
      "epoch": 7.57,
      "learning_rate": 2.7536005009392612e-05,
      "loss": 0.6778,
      "step": 8950,
      "task_loss": 1.2634588479995728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6802655458450317,
      "epoch": 7.57,
      "learning_rate": 2.7532874139010644e-05,
      "loss": 0.7092,
      "step": 8951,
      "task_loss": 2.0564656257629395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5001466274261475,
      "epoch": 7.57,
      "learning_rate": 2.7529743268628682e-05,
      "loss": 0.5886,
      "step": 8952,
      "task_loss": 1.0723568201065063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0155131816864014,
      "epoch": 7.57,
      "learning_rate": 2.7526612398246714e-05,
      "loss": 0.7448,
      "step": 8953,
      "task_loss": 0.8294299840927124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6465198397636414,
      "epoch": 7.57,
      "learning_rate": 2.7523481527864746e-05,
      "loss": 0.6206,
      "step": 8954,
      "task_loss": 1.1105976104736328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7446368932723999,
      "epoch": 7.57,
      "learning_rate": 2.752035065748278e-05,
      "loss": 0.7179,
      "step": 8955,
      "task_loss": 1.3301059007644653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.803210973739624,
      "epoch": 7.57,
      "learning_rate": 2.7517219787100816e-05,
      "loss": 0.6762,
      "step": 8956,
      "task_loss": 1.0994250774383545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8462374210357666,
      "epoch": 7.57,
      "learning_rate": 2.751408891671885e-05,
      "loss": 0.6686,
      "step": 8957,
      "task_loss": 0.5027087926864624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31246569752693176,
      "epoch": 7.57,
      "learning_rate": 2.7510958046336883e-05,
      "loss": 0.5762,
      "step": 8958,
      "task_loss": 0.41692429780960083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43392086029052734,
      "epoch": 7.57,
      "learning_rate": 2.7507827175954915e-05,
      "loss": 0.5562,
      "step": 8959,
      "task_loss": 0.336427241563797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.72489333152771,
      "epoch": 7.57,
      "learning_rate": 2.7504696305572953e-05,
      "loss": 0.6262,
      "step": 8960,
      "task_loss": 0.7338352203369141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6216086745262146,
      "epoch": 7.57,
      "learning_rate": 2.7501565435190985e-05,
      "loss": 0.6962,
      "step": 8961,
      "task_loss": 0.4543043375015259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3157344162464142,
      "epoch": 7.58,
      "learning_rate": 2.7498434564809017e-05,
      "loss": 0.5164,
      "step": 8962,
      "task_loss": 0.28988200426101685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.715294361114502,
      "epoch": 7.58,
      "learning_rate": 2.7495303694427055e-05,
      "loss": 0.6867,
      "step": 8963,
      "task_loss": 0.9106261730194092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5449313521385193,
      "epoch": 7.58,
      "learning_rate": 2.7492172824045087e-05,
      "loss": 0.5301,
      "step": 8964,
      "task_loss": 0.19430138170719147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6488290429115295,
      "epoch": 7.58,
      "learning_rate": 2.748904195366312e-05,
      "loss": 0.6518,
      "step": 8965,
      "task_loss": 0.5688123106956482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8042439222335815,
      "epoch": 7.58,
      "learning_rate": 2.748591108328115e-05,
      "loss": 0.552,
      "step": 8966,
      "task_loss": 0.8395355939865112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6000596880912781,
      "epoch": 7.58,
      "learning_rate": 2.748278021289919e-05,
      "loss": 0.7041,
      "step": 8967,
      "task_loss": 0.5005080103874207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3057855367660522,
      "epoch": 7.58,
      "learning_rate": 2.747964934251722e-05,
      "loss": 0.9428,
      "step": 8968,
      "task_loss": 0.9319005608558655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5928449034690857,
      "epoch": 7.58,
      "learning_rate": 2.7476518472135253e-05,
      "loss": 0.8239,
      "step": 8969,
      "task_loss": 0.29400935769081116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4799942672252655,
      "epoch": 7.58,
      "learning_rate": 2.7473387601753288e-05,
      "loss": 0.7154,
      "step": 8970,
      "task_loss": 0.5471099019050598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17628273367881775,
      "epoch": 7.58,
      "learning_rate": 2.7470256731371323e-05,
      "loss": 0.5824,
      "step": 8971,
      "task_loss": 0.008879422210156918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7649878263473511,
      "epoch": 7.58,
      "learning_rate": 2.7467125860989355e-05,
      "loss": 0.775,
      "step": 8972,
      "task_loss": 0.9271711111068726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6579602360725403,
      "epoch": 7.58,
      "learning_rate": 2.746399499060739e-05,
      "loss": 0.5471,
      "step": 8973,
      "task_loss": 0.7659314274787903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4490913152694702,
      "epoch": 7.59,
      "learning_rate": 2.7460864120225422e-05,
      "loss": 0.5808,
      "step": 8974,
      "task_loss": 0.1274532973766327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.230480670928955,
      "epoch": 7.59,
      "learning_rate": 2.745773324984346e-05,
      "loss": 0.9306,
      "step": 8975,
      "task_loss": 0.6082167625427246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6733161211013794,
      "epoch": 7.59,
      "learning_rate": 2.7454602379461492e-05,
      "loss": 0.7211,
      "step": 8976,
      "task_loss": 0.5211902856826782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30328530073165894,
      "epoch": 7.59,
      "learning_rate": 2.7451471509079524e-05,
      "loss": 0.5687,
      "step": 8977,
      "task_loss": 0.39067089557647705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6034406423568726,
      "epoch": 7.59,
      "learning_rate": 2.7448340638697563e-05,
      "loss": 0.6091,
      "step": 8978,
      "task_loss": 0.7363659739494324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5380334854125977,
      "epoch": 7.59,
      "learning_rate": 2.7445209768315594e-05,
      "loss": 0.8331,
      "step": 8979,
      "task_loss": 0.7293322086334229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44974029064178467,
      "epoch": 7.59,
      "learning_rate": 2.7442078897933626e-05,
      "loss": 0.5531,
      "step": 8980,
      "task_loss": 0.24387188255786896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6355788111686707,
      "epoch": 7.59,
      "learning_rate": 2.7438948027551658e-05,
      "loss": 0.4686,
      "step": 8981,
      "task_loss": 0.7747161388397217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6032196879386902,
      "epoch": 7.59,
      "learning_rate": 2.7435817157169697e-05,
      "loss": 0.7654,
      "step": 8982,
      "task_loss": 0.4569885730743408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8820475339889526,
      "epoch": 7.59,
      "learning_rate": 2.743268628678773e-05,
      "loss": 0.6582,
      "step": 8983,
      "task_loss": 0.5206196308135986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7819731831550598,
      "epoch": 7.59,
      "learning_rate": 2.742955541640576e-05,
      "loss": 0.7067,
      "step": 8984,
      "task_loss": 1.0394830703735352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.430209755897522,
      "epoch": 7.59,
      "learning_rate": 2.7426424546023792e-05,
      "loss": 0.5098,
      "step": 8985,
      "task_loss": 0.3782522678375244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9605779647827148,
      "epoch": 7.6,
      "learning_rate": 2.742329367564183e-05,
      "loss": 0.7014,
      "step": 8986,
      "task_loss": 0.5686838030815125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3502236604690552,
      "epoch": 7.6,
      "learning_rate": 2.7420162805259862e-05,
      "loss": 0.5812,
      "step": 8987,
      "task_loss": 0.3403714895248413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4587635397911072,
      "epoch": 7.6,
      "learning_rate": 2.7417031934877897e-05,
      "loss": 0.7804,
      "step": 8988,
      "task_loss": 0.6978436708450317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6119934916496277,
      "epoch": 7.6,
      "learning_rate": 2.7413901064495933e-05,
      "loss": 0.6332,
      "step": 8989,
      "task_loss": 0.6507314443588257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6518468856811523,
      "epoch": 7.6,
      "learning_rate": 2.7410770194113968e-05,
      "loss": 0.6538,
      "step": 8990,
      "task_loss": 0.4380953311920166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4558527171611786,
      "epoch": 7.6,
      "learning_rate": 2.7407639323732e-05,
      "loss": 0.702,
      "step": 8991,
      "task_loss": 0.9231404066085815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.183954119682312,
      "epoch": 7.6,
      "learning_rate": 2.740450845335003e-05,
      "loss": 0.5953,
      "step": 8992,
      "task_loss": 0.35410624742507935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5388160943984985,
      "epoch": 7.6,
      "learning_rate": 2.740137758296807e-05,
      "loss": 0.652,
      "step": 8993,
      "task_loss": 0.7035973072052002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7143998146057129,
      "epoch": 7.6,
      "learning_rate": 2.73982467125861e-05,
      "loss": 0.6642,
      "step": 8994,
      "task_loss": 0.40524184703826904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9364047050476074,
      "epoch": 7.6,
      "learning_rate": 2.7395115842204133e-05,
      "loss": 0.6933,
      "step": 8995,
      "task_loss": 1.063331961631775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28107309341430664,
      "epoch": 7.6,
      "learning_rate": 2.7391984971822165e-05,
      "loss": 0.5263,
      "step": 8996,
      "task_loss": 0.5530312061309814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8153818249702454,
      "epoch": 7.6,
      "learning_rate": 2.7388854101440204e-05,
      "loss": 0.857,
      "step": 8997,
      "task_loss": 0.8958744406700134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.660413920879364,
      "epoch": 7.61,
      "learning_rate": 2.7385723231058236e-05,
      "loss": 0.5712,
      "step": 8998,
      "task_loss": 0.4465912878513336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40993309020996094,
      "epoch": 7.61,
      "learning_rate": 2.7382592360676267e-05,
      "loss": 0.5613,
      "step": 8999,
      "task_loss": 0.4795423746109009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3447607159614563,
      "epoch": 7.61,
      "learning_rate": 2.7379461490294306e-05,
      "loss": 0.5352,
      "step": 9000,
      "task_loss": 0.32322460412979126
    },
    {
      "epoch": 7.61,
      "eval_accuracy": 0.8956039603960396,
      "eval_loss": 0.43599167466163635,
      "eval_runtime": 207.1873,
      "eval_samples_per_second": 121.87,
      "eval_steps_per_second": 0.956,
      "step": 9000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7202310562133789,
      "epoch": 7.61,
      "learning_rate": 2.7376330619912338e-05,
      "loss": 0.615,
      "step": 9001,
      "task_loss": 0.7756620049476624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8583766222000122,
      "epoch": 7.61,
      "learning_rate": 2.737319974953037e-05,
      "loss": 0.5859,
      "step": 9002,
      "task_loss": 0.43935754895210266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6091982126235962,
      "epoch": 7.61,
      "learning_rate": 2.73700688791484e-05,
      "loss": 0.7449,
      "step": 9003,
      "task_loss": 1.0431554317474365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6967465281486511,
      "epoch": 7.61,
      "learning_rate": 2.736693800876644e-05,
      "loss": 0.6679,
      "step": 9004,
      "task_loss": 0.6833162307739258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4311971664428711,
      "epoch": 7.61,
      "learning_rate": 2.736380713838447e-05,
      "loss": 0.5284,
      "step": 9005,
      "task_loss": 0.08479667454957962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0950758457183838,
      "epoch": 7.61,
      "learning_rate": 2.7360676268002507e-05,
      "loss": 0.7658,
      "step": 9006,
      "task_loss": 0.7293604016304016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.112318992614746,
      "epoch": 7.61,
      "learning_rate": 2.735754539762054e-05,
      "loss": 0.8914,
      "step": 9007,
      "task_loss": 1.2525591850280762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28706562519073486,
      "epoch": 7.61,
      "learning_rate": 2.7354414527238577e-05,
      "loss": 0.4478,
      "step": 9008,
      "task_loss": 0.35179102420806885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46857258677482605,
      "epoch": 7.61,
      "learning_rate": 2.735128365685661e-05,
      "loss": 0.6593,
      "step": 9009,
      "task_loss": 0.8727076649665833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7051342725753784,
      "epoch": 7.62,
      "learning_rate": 2.734815278647464e-05,
      "loss": 0.6096,
      "step": 9010,
      "task_loss": 0.9365283846855164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5259950757026672,
      "epoch": 7.62,
      "learning_rate": 2.7345021916092672e-05,
      "loss": 0.6557,
      "step": 9011,
      "task_loss": 1.0656437873840332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1925135850906372,
      "epoch": 7.62,
      "learning_rate": 2.734189104571071e-05,
      "loss": 0.8085,
      "step": 9012,
      "task_loss": 1.7250317335128784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8004405498504639,
      "epoch": 7.62,
      "learning_rate": 2.7338760175328743e-05,
      "loss": 0.8325,
      "step": 9013,
      "task_loss": 1.2954504489898682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.50799959897995,
      "epoch": 7.62,
      "learning_rate": 2.7335629304946775e-05,
      "loss": 0.6045,
      "step": 9014,
      "task_loss": 0.4986036419868469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7376776933670044,
      "epoch": 7.62,
      "learning_rate": 2.7332498434564813e-05,
      "loss": 0.5882,
      "step": 9015,
      "task_loss": 1.284864902496338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7638691663742065,
      "epoch": 7.62,
      "learning_rate": 2.7329367564182845e-05,
      "loss": 0.5939,
      "step": 9016,
      "task_loss": 0.9938772916793823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5138095617294312,
      "epoch": 7.62,
      "learning_rate": 2.7326236693800877e-05,
      "loss": 0.8285,
      "step": 9017,
      "task_loss": 0.15245717763900757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5792665481567383,
      "epoch": 7.62,
      "learning_rate": 2.732310582341891e-05,
      "loss": 0.7462,
      "step": 9018,
      "task_loss": 0.4709542691707611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6692178249359131,
      "epoch": 7.62,
      "learning_rate": 2.7319974953036947e-05,
      "loss": 0.6398,
      "step": 9019,
      "task_loss": 0.813185453414917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5950918793678284,
      "epoch": 7.62,
      "learning_rate": 2.731684408265498e-05,
      "loss": 0.5813,
      "step": 9020,
      "task_loss": 0.5670608878135681
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.70735102891922,
      "epoch": 7.63,
      "learning_rate": 2.731371321227301e-05,
      "loss": 0.528,
      "step": 9021,
      "task_loss": 1.0493927001953125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8375440835952759,
      "epoch": 7.63,
      "learning_rate": 2.7310582341891046e-05,
      "loss": 0.7743,
      "step": 9022,
      "task_loss": 0.4641715884208679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7559237480163574,
      "epoch": 7.63,
      "learning_rate": 2.730745147150908e-05,
      "loss": 0.6857,
      "step": 9023,
      "task_loss": 1.1693031787872314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.518613338470459,
      "epoch": 7.63,
      "learning_rate": 2.7304320601127116e-05,
      "loss": 0.5973,
      "step": 9024,
      "task_loss": 1.2777090072631836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8691790103912354,
      "epoch": 7.63,
      "learning_rate": 2.7301189730745148e-05,
      "loss": 0.6319,
      "step": 9025,
      "task_loss": 0.9262452125549316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.737280011177063,
      "epoch": 7.63,
      "learning_rate": 2.7298058860363186e-05,
      "loss": 0.7229,
      "step": 9026,
      "task_loss": 0.5243698358535767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5139451622962952,
      "epoch": 7.63,
      "learning_rate": 2.7294927989981218e-05,
      "loss": 0.7629,
      "step": 9027,
      "task_loss": 0.7549276947975159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766741633415222,
      "epoch": 7.63,
      "learning_rate": 2.729179711959925e-05,
      "loss": 0.6995,
      "step": 9028,
      "task_loss": 0.3982377350330353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6361104249954224,
      "epoch": 7.63,
      "learning_rate": 2.7288666249217282e-05,
      "loss": 0.6994,
      "step": 9029,
      "task_loss": 0.7479232549667358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.51141357421875,
      "epoch": 7.63,
      "learning_rate": 2.728553537883532e-05,
      "loss": 0.7137,
      "step": 9030,
      "task_loss": 1.2313200235366821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22702017426490784,
      "epoch": 7.63,
      "learning_rate": 2.7282404508453352e-05,
      "loss": 0.5149,
      "step": 9031,
      "task_loss": 0.18724285066127777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7985252737998962,
      "epoch": 7.63,
      "learning_rate": 2.7279273638071384e-05,
      "loss": 0.87,
      "step": 9032,
      "task_loss": 0.8498522639274597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5648787617683411,
      "epoch": 7.64,
      "learning_rate": 2.7276142767689416e-05,
      "loss": 0.7079,
      "step": 9033,
      "task_loss": 0.9290918111801147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3202856779098511,
      "epoch": 7.64,
      "learning_rate": 2.7273011897307454e-05,
      "loss": 0.5974,
      "step": 9034,
      "task_loss": 0.09156602621078491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6488555669784546,
      "epoch": 7.64,
      "learning_rate": 2.7269881026925486e-05,
      "loss": 0.7966,
      "step": 9035,
      "task_loss": 0.11520276963710785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6469608545303345,
      "epoch": 7.64,
      "learning_rate": 2.7266750156543518e-05,
      "loss": 0.5558,
      "step": 9036,
      "task_loss": 0.15248796343803406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5787816047668457,
      "epoch": 7.64,
      "learning_rate": 2.7263619286161556e-05,
      "loss": 0.5489,
      "step": 9037,
      "task_loss": 0.3309899866580963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4872792959213257,
      "epoch": 7.64,
      "learning_rate": 2.7260488415779588e-05,
      "loss": 0.6191,
      "step": 9038,
      "task_loss": 0.8850634098052979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40178221464157104,
      "epoch": 7.64,
      "learning_rate": 2.725735754539762e-05,
      "loss": 0.8154,
      "step": 9039,
      "task_loss": 0.5982359647750854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5226277112960815,
      "epoch": 7.64,
      "learning_rate": 2.7254226675015655e-05,
      "loss": 0.6668,
      "step": 9040,
      "task_loss": 0.8941110968589783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5097953081130981,
      "epoch": 7.64,
      "learning_rate": 2.725109580463369e-05,
      "loss": 0.6027,
      "step": 9041,
      "task_loss": 0.5206576585769653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.01516854763031,
      "epoch": 7.64,
      "learning_rate": 2.7247964934251725e-05,
      "loss": 0.9081,
      "step": 9042,
      "task_loss": 1.1039774417877197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5026754140853882,
      "epoch": 7.64,
      "learning_rate": 2.7244834063869757e-05,
      "loss": 0.5967,
      "step": 9043,
      "task_loss": 0.7683252096176147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5753145813941956,
      "epoch": 7.64,
      "learning_rate": 2.724170319348779e-05,
      "loss": 0.541,
      "step": 9044,
      "task_loss": 1.6632689237594604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9812200665473938,
      "epoch": 7.65,
      "learning_rate": 2.7238572323105828e-05,
      "loss": 0.8021,
      "step": 9045,
      "task_loss": 1.5812714099884033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.654583752155304,
      "epoch": 7.65,
      "learning_rate": 2.723544145272386e-05,
      "loss": 0.7933,
      "step": 9046,
      "task_loss": 0.8673695921897888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5649954080581665,
      "epoch": 7.65,
      "learning_rate": 2.723231058234189e-05,
      "loss": 0.665,
      "step": 9047,
      "task_loss": 0.6104059815406799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41008418798446655,
      "epoch": 7.65,
      "learning_rate": 2.7229179711959923e-05,
      "loss": 0.4575,
      "step": 9048,
      "task_loss": 0.8219320774078369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9152613878250122,
      "epoch": 7.65,
      "learning_rate": 2.722604884157796e-05,
      "loss": 0.698,
      "step": 9049,
      "task_loss": 0.7423321008682251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5565897226333618,
      "epoch": 7.65,
      "learning_rate": 2.7222917971195993e-05,
      "loss": 0.6405,
      "step": 9050,
      "task_loss": 0.34620094299316406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6551817059516907,
      "epoch": 7.65,
      "learning_rate": 2.7219787100814025e-05,
      "loss": 0.5298,
      "step": 9051,
      "task_loss": 0.5248398184776306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5036306977272034,
      "epoch": 7.65,
      "learning_rate": 2.7216656230432064e-05,
      "loss": 0.5331,
      "step": 9052,
      "task_loss": 0.31872451305389404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6308820247650146,
      "epoch": 7.65,
      "learning_rate": 2.7213525360050095e-05,
      "loss": 0.5468,
      "step": 9053,
      "task_loss": 0.620202898979187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8178375959396362,
      "epoch": 7.65,
      "learning_rate": 2.7210394489668127e-05,
      "loss": 0.6015,
      "step": 9054,
      "task_loss": 1.0340542793273926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8176068663597107,
      "epoch": 7.65,
      "learning_rate": 2.7207263619286162e-05,
      "loss": 0.775,
      "step": 9055,
      "task_loss": 1.0172107219696045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7397323846817017,
      "epoch": 7.65,
      "learning_rate": 2.7204132748904197e-05,
      "loss": 0.5697,
      "step": 9056,
      "task_loss": 1.0757213830947876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.023863434791565,
      "epoch": 7.66,
      "learning_rate": 2.7201001878522233e-05,
      "loss": 0.7438,
      "step": 9057,
      "task_loss": 1.097316861152649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9110146760940552,
      "epoch": 7.66,
      "learning_rate": 2.7197871008140264e-05,
      "loss": 0.6574,
      "step": 9058,
      "task_loss": 0.7461894154548645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6675537824630737,
      "epoch": 7.66,
      "learning_rate": 2.7194740137758296e-05,
      "loss": 0.588,
      "step": 9059,
      "task_loss": 0.2416151762008667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.656948447227478,
      "epoch": 7.66,
      "learning_rate": 2.7191609267376335e-05,
      "loss": 0.6442,
      "step": 9060,
      "task_loss": 0.2007015347480774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6384002566337585,
      "epoch": 7.66,
      "learning_rate": 2.7188478396994366e-05,
      "loss": 0.6343,
      "step": 9061,
      "task_loss": 0.49866676330566406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6565188765525818,
      "epoch": 7.66,
      "learning_rate": 2.7185347526612398e-05,
      "loss": 0.613,
      "step": 9062,
      "task_loss": 0.6551436185836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8952928781509399,
      "epoch": 7.66,
      "learning_rate": 2.7182216656230437e-05,
      "loss": 0.9246,
      "step": 9063,
      "task_loss": 1.0258947610855103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.794374942779541,
      "epoch": 7.66,
      "learning_rate": 2.717908578584847e-05,
      "loss": 0.7193,
      "step": 9064,
      "task_loss": 1.407500147819519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9081317186355591,
      "epoch": 7.66,
      "learning_rate": 2.71759549154665e-05,
      "loss": 0.6813,
      "step": 9065,
      "task_loss": 0.6833802461624146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.50393146276474,
      "epoch": 7.66,
      "learning_rate": 2.7172824045084532e-05,
      "loss": 0.6937,
      "step": 9066,
      "task_loss": 0.7177032232284546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8315527439117432,
      "epoch": 7.66,
      "learning_rate": 2.716969317470257e-05,
      "loss": 0.6658,
      "step": 9067,
      "task_loss": 0.8557356595993042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0852165222167969,
      "epoch": 7.66,
      "learning_rate": 2.7166562304320603e-05,
      "loss": 0.7838,
      "step": 9068,
      "task_loss": 2.129610061645508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0870864391326904,
      "epoch": 7.67,
      "learning_rate": 2.7163431433938634e-05,
      "loss": 0.7721,
      "step": 9069,
      "task_loss": 0.2841489613056183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9615383148193359,
      "epoch": 7.67,
      "learning_rate": 2.7160300563556666e-05,
      "loss": 0.8935,
      "step": 9070,
      "task_loss": 1.1024796962738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7214419841766357,
      "epoch": 7.67,
      "learning_rate": 2.7157169693174705e-05,
      "loss": 0.7171,
      "step": 9071,
      "task_loss": 1.4930222034454346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7507506608963013,
      "epoch": 7.67,
      "learning_rate": 2.7154038822792736e-05,
      "loss": 0.582,
      "step": 9072,
      "task_loss": 0.49404898285865784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8709163665771484,
      "epoch": 7.67,
      "learning_rate": 2.715090795241077e-05,
      "loss": 0.7892,
      "step": 9073,
      "task_loss": 0.7357127070426941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0297917127609253,
      "epoch": 7.67,
      "learning_rate": 2.7147777082028807e-05,
      "loss": 0.9243,
      "step": 9074,
      "task_loss": 0.7619327306747437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3471616804599762,
      "epoch": 7.67,
      "learning_rate": 2.7144646211646842e-05,
      "loss": 0.5738,
      "step": 9075,
      "task_loss": 0.7350857257843018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8885467052459717,
      "epoch": 7.67,
      "learning_rate": 2.7141515341264874e-05,
      "loss": 0.9707,
      "step": 9076,
      "task_loss": 0.801266610622406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7417207956314087,
      "epoch": 7.67,
      "learning_rate": 2.7138384470882905e-05,
      "loss": 0.9145,
      "step": 9077,
      "task_loss": 1.1820377111434937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6719886660575867,
      "epoch": 7.67,
      "learning_rate": 2.7135253600500944e-05,
      "loss": 0.7545,
      "step": 9078,
      "task_loss": 1.0895042419433594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0616694688796997,
      "epoch": 7.67,
      "learning_rate": 2.7132122730118976e-05,
      "loss": 0.9436,
      "step": 9079,
      "task_loss": 1.4097150564193726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4300075173377991,
      "epoch": 7.67,
      "learning_rate": 2.7128991859737008e-05,
      "loss": 0.5255,
      "step": 9080,
      "task_loss": 0.26918861269950867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.974052906036377,
      "epoch": 7.68,
      "learning_rate": 2.712586098935504e-05,
      "loss": 0.6209,
      "step": 9081,
      "task_loss": 1.1401796340942383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571780800819397,
      "epoch": 7.68,
      "learning_rate": 2.7122730118973078e-05,
      "loss": 0.4336,
      "step": 9082,
      "task_loss": 0.45195654034614563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6481809616088867,
      "epoch": 7.68,
      "learning_rate": 2.711959924859111e-05,
      "loss": 0.7239,
      "step": 9083,
      "task_loss": 1.0444782972335815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6535935401916504,
      "epoch": 7.68,
      "learning_rate": 2.711646837820914e-05,
      "loss": 0.6987,
      "step": 9084,
      "task_loss": 1.4963624477386475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5060843825340271,
      "epoch": 7.68,
      "learning_rate": 2.7113337507827173e-05,
      "loss": 0.695,
      "step": 9085,
      "task_loss": 0.7987533211708069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.543657660484314,
      "epoch": 7.68,
      "learning_rate": 2.7110206637445212e-05,
      "loss": 0.7021,
      "step": 9086,
      "task_loss": 0.9052963256835938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9547255039215088,
      "epoch": 7.68,
      "learning_rate": 2.7107075767063244e-05,
      "loss": 0.9537,
      "step": 9087,
      "task_loss": 0.6027315258979797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6986555457115173,
      "epoch": 7.68,
      "learning_rate": 2.7103944896681275e-05,
      "loss": 0.7303,
      "step": 9088,
      "task_loss": 0.8668461441993713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.456111341714859,
      "epoch": 7.68,
      "learning_rate": 2.7100814026299314e-05,
      "loss": 0.4549,
      "step": 9089,
      "task_loss": 0.2734018862247467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.427778959274292,
      "epoch": 7.68,
      "learning_rate": 2.7097683155917346e-05,
      "loss": 0.5175,
      "step": 9090,
      "task_loss": 0.23947983980178833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39282214641571045,
      "epoch": 7.68,
      "learning_rate": 2.709455228553538e-05,
      "loss": 0.5801,
      "step": 9091,
      "task_loss": 1.1931464672088623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6622781157493591,
      "epoch": 7.69,
      "learning_rate": 2.7091421415153413e-05,
      "loss": 0.5536,
      "step": 9092,
      "task_loss": 1.120289921760559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2418060302734375,
      "epoch": 7.69,
      "learning_rate": 2.708829054477145e-05,
      "loss": 0.936,
      "step": 9093,
      "task_loss": 1.758711576461792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6164236068725586,
      "epoch": 7.69,
      "learning_rate": 2.7085159674389483e-05,
      "loss": 0.4964,
      "step": 9094,
      "task_loss": 0.6728459596633911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6823778748512268,
      "epoch": 7.69,
      "learning_rate": 2.7082028804007515e-05,
      "loss": 0.8776,
      "step": 9095,
      "task_loss": 0.40003132820129395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8517938852310181,
      "epoch": 7.69,
      "learning_rate": 2.7078897933625547e-05,
      "loss": 0.7656,
      "step": 9096,
      "task_loss": 0.18181295692920685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9337392449378967,
      "epoch": 7.69,
      "learning_rate": 2.7075767063243585e-05,
      "loss": 0.8494,
      "step": 9097,
      "task_loss": 0.9348750114440918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7000215649604797,
      "epoch": 7.69,
      "learning_rate": 2.7072636192861617e-05,
      "loss": 0.786,
      "step": 9098,
      "task_loss": 0.839861273765564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7628123760223389,
      "epoch": 7.69,
      "learning_rate": 2.706950532247965e-05,
      "loss": 0.882,
      "step": 9099,
      "task_loss": 0.5566021203994751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47661837935447693,
      "epoch": 7.69,
      "learning_rate": 2.7066374452097687e-05,
      "loss": 0.5737,
      "step": 9100,
      "task_loss": 0.5094653367996216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37750351428985596,
      "epoch": 7.69,
      "learning_rate": 2.706324358171572e-05,
      "loss": 0.5036,
      "step": 9101,
      "task_loss": 0.19961479306221008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5275090932846069,
      "epoch": 7.69,
      "learning_rate": 2.706011271133375e-05,
      "loss": 0.753,
      "step": 9102,
      "task_loss": 0.49623599648475647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.320562481880188,
      "epoch": 7.69,
      "learning_rate": 2.7056981840951783e-05,
      "loss": 0.8326,
      "step": 9103,
      "task_loss": 1.296225666999817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29508012533187866,
      "epoch": 7.7,
      "learning_rate": 2.705385097056982e-05,
      "loss": 0.6426,
      "step": 9104,
      "task_loss": 1.279815912246704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5500090718269348,
      "epoch": 7.7,
      "learning_rate": 2.7050720100187853e-05,
      "loss": 0.5285,
      "step": 9105,
      "task_loss": 0.15011996030807495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3957902789115906,
      "epoch": 7.7,
      "learning_rate": 2.7047589229805885e-05,
      "loss": 0.5322,
      "step": 9106,
      "task_loss": 0.5886231064796448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7615779638290405,
      "epoch": 7.7,
      "learning_rate": 2.704445835942392e-05,
      "loss": 0.8466,
      "step": 9107,
      "task_loss": 0.8037652373313904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7726302146911621,
      "epoch": 7.7,
      "learning_rate": 2.7041327489041955e-05,
      "loss": 0.8143,
      "step": 9108,
      "task_loss": 0.9132171869277954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9139465093612671,
      "epoch": 7.7,
      "learning_rate": 2.703819661865999e-05,
      "loss": 0.6785,
      "step": 9109,
      "task_loss": 0.6418156027793884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6855244636535645,
      "epoch": 7.7,
      "learning_rate": 2.7035065748278022e-05,
      "loss": 0.7418,
      "step": 9110,
      "task_loss": 0.9981102347373962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.432712197303772,
      "epoch": 7.7,
      "learning_rate": 2.703193487789606e-05,
      "loss": 0.6643,
      "step": 9111,
      "task_loss": 0.8321713209152222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7189615964889526,
      "epoch": 7.7,
      "learning_rate": 2.7028804007514092e-05,
      "loss": 0.5345,
      "step": 9112,
      "task_loss": 0.5252857208251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39486071467399597,
      "epoch": 7.7,
      "learning_rate": 2.7025673137132124e-05,
      "loss": 0.4118,
      "step": 9113,
      "task_loss": 0.6357818841934204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49434134364128113,
      "epoch": 7.7,
      "learning_rate": 2.7022542266750156e-05,
      "loss": 0.6688,
      "step": 9114,
      "task_loss": 0.7787076234817505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4368627667427063,
      "epoch": 7.7,
      "learning_rate": 2.7019411396368194e-05,
      "loss": 0.6303,
      "step": 9115,
      "task_loss": 1.077149510383606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46482616662979126,
      "epoch": 7.71,
      "learning_rate": 2.7016280525986226e-05,
      "loss": 0.6088,
      "step": 9116,
      "task_loss": 0.31154772639274597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8699373602867126,
      "epoch": 7.71,
      "learning_rate": 2.7013149655604258e-05,
      "loss": 0.6991,
      "step": 9117,
      "task_loss": 1.074050784111023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4269401431083679,
      "epoch": 7.71,
      "learning_rate": 2.701001878522229e-05,
      "loss": 0.624,
      "step": 9118,
      "task_loss": 0.9184966087341309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4728907346725464,
      "epoch": 7.71,
      "learning_rate": 2.700688791484033e-05,
      "loss": 0.6453,
      "step": 9119,
      "task_loss": 0.11698748916387558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2241312265396118,
      "epoch": 7.71,
      "learning_rate": 2.700375704445836e-05,
      "loss": 0.8109,
      "step": 9120,
      "task_loss": 0.9915633797645569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6558796167373657,
      "epoch": 7.71,
      "learning_rate": 2.7000626174076392e-05,
      "loss": 0.6308,
      "step": 9121,
      "task_loss": 1.7308349609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6180750131607056,
      "epoch": 7.71,
      "learning_rate": 2.6997495303694427e-05,
      "loss": 0.5803,
      "step": 9122,
      "task_loss": 0.8774369359016418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5993571281433105,
      "epoch": 7.71,
      "learning_rate": 2.6994364433312462e-05,
      "loss": 0.6737,
      "step": 9123,
      "task_loss": 0.9909130334854126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.794301450252533,
      "epoch": 7.71,
      "learning_rate": 2.6991233562930494e-05,
      "loss": 0.666,
      "step": 9124,
      "task_loss": 1.6639550924301147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2360008955001831,
      "epoch": 7.71,
      "learning_rate": 2.698810269254853e-05,
      "loss": 0.5302,
      "step": 9125,
      "task_loss": 0.024724964052438736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5811573266983032,
      "epoch": 7.71,
      "learning_rate": 2.6984971822166564e-05,
      "loss": 0.5812,
      "step": 9126,
      "task_loss": 0.5035795569419861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8593453168869019,
      "epoch": 7.71,
      "learning_rate": 2.69818409517846e-05,
      "loss": 0.6639,
      "step": 9127,
      "task_loss": 0.829358696937561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7667109966278076,
      "epoch": 7.72,
      "learning_rate": 2.697871008140263e-05,
      "loss": 0.7946,
      "step": 9128,
      "task_loss": 1.2692923545837402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34404122829437256,
      "epoch": 7.72,
      "learning_rate": 2.6975579211020663e-05,
      "loss": 0.5794,
      "step": 9129,
      "task_loss": 1.3430746793746948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.517704427242279,
      "epoch": 7.72,
      "learning_rate": 2.6972448340638702e-05,
      "loss": 0.6318,
      "step": 9130,
      "task_loss": 0.7864483594894409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37772148847579956,
      "epoch": 7.72,
      "learning_rate": 2.6969317470256733e-05,
      "loss": 0.7919,
      "step": 9131,
      "task_loss": 0.21389469504356384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7094185948371887,
      "epoch": 7.72,
      "learning_rate": 2.6966186599874765e-05,
      "loss": 0.7916,
      "step": 9132,
      "task_loss": 0.3332425057888031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18592864274978638,
      "epoch": 7.72,
      "learning_rate": 2.6963055729492797e-05,
      "loss": 0.5506,
      "step": 9133,
      "task_loss": 0.015073533169925213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6359863877296448,
      "epoch": 7.72,
      "learning_rate": 2.6959924859110836e-05,
      "loss": 0.9033,
      "step": 9134,
      "task_loss": 0.9725310802459717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43079501390457153,
      "epoch": 7.72,
      "learning_rate": 2.6956793988728867e-05,
      "loss": 0.4726,
      "step": 9135,
      "task_loss": 0.33227649331092834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7232146859169006,
      "epoch": 7.72,
      "learning_rate": 2.69536631183469e-05,
      "loss": 0.5702,
      "step": 9136,
      "task_loss": 1.7955355644226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4633668065071106,
      "epoch": 7.72,
      "learning_rate": 2.6950532247964938e-05,
      "loss": 0.5391,
      "step": 9137,
      "task_loss": 0.34237217903137207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6981448531150818,
      "epoch": 7.72,
      "learning_rate": 2.694740137758297e-05,
      "loss": 0.6316,
      "step": 9138,
      "task_loss": 0.5763481259346008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6472916603088379,
      "epoch": 7.72,
      "learning_rate": 2.6944270507201e-05,
      "loss": 0.9146,
      "step": 9139,
      "task_loss": 1.19234037399292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5898531675338745,
      "epoch": 7.73,
      "learning_rate": 2.6941139636819036e-05,
      "loss": 0.7838,
      "step": 9140,
      "task_loss": 1.0613124370574951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5404043793678284,
      "epoch": 7.73,
      "learning_rate": 2.693800876643707e-05,
      "loss": 0.5564,
      "step": 9141,
      "task_loss": 0.6253383755683899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49706172943115234,
      "epoch": 7.73,
      "learning_rate": 2.6934877896055107e-05,
      "loss": 0.6244,
      "step": 9142,
      "task_loss": 1.1078482866287231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7234019041061401,
      "epoch": 7.73,
      "learning_rate": 2.693174702567314e-05,
      "loss": 0.8383,
      "step": 9143,
      "task_loss": 1.3914744853973389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41137030720710754,
      "epoch": 7.73,
      "learning_rate": 2.692861615529117e-05,
      "loss": 0.5326,
      "step": 9144,
      "task_loss": 0.8546251654624939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6877948045730591,
      "epoch": 7.73,
      "learning_rate": 2.692548528490921e-05,
      "loss": 0.5753,
      "step": 9145,
      "task_loss": 1.2407705783843994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39640626311302185,
      "epoch": 7.73,
      "learning_rate": 2.692235441452724e-05,
      "loss": 0.5938,
      "step": 9146,
      "task_loss": 0.21289078891277313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4559834897518158,
      "epoch": 7.73,
      "learning_rate": 2.6919223544145272e-05,
      "loss": 0.6036,
      "step": 9147,
      "task_loss": 0.3823857605457306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35156694054603577,
      "epoch": 7.73,
      "learning_rate": 2.691609267376331e-05,
      "loss": 0.5601,
      "step": 9148,
      "task_loss": 1.0141890048980713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3704158663749695,
      "epoch": 7.73,
      "learning_rate": 2.6912961803381343e-05,
      "loss": 0.6636,
      "step": 9149,
      "task_loss": 0.29394254088401794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6009038686752319,
      "epoch": 7.73,
      "learning_rate": 2.6909830932999375e-05,
      "loss": 0.7027,
      "step": 9150,
      "task_loss": 1.3807648420333862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.801001787185669,
      "epoch": 7.73,
      "learning_rate": 2.6906700062617406e-05,
      "loss": 0.925,
      "step": 9151,
      "task_loss": 1.3853952884674072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6331416368484497,
      "epoch": 7.74,
      "learning_rate": 2.6903569192235445e-05,
      "loss": 0.5551,
      "step": 9152,
      "task_loss": 0.7791748046875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.559745192527771,
      "epoch": 7.74,
      "learning_rate": 2.6900438321853477e-05,
      "loss": 0.6603,
      "step": 9153,
      "task_loss": 0.44008177518844604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42059290409088135,
      "epoch": 7.74,
      "learning_rate": 2.689730745147151e-05,
      "loss": 0.6537,
      "step": 9154,
      "task_loss": 0.5964198708534241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4557032585144043,
      "epoch": 7.74,
      "learning_rate": 2.689417658108954e-05,
      "loss": 0.8449,
      "step": 9155,
      "task_loss": 0.42850014567375183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5439982414245605,
      "epoch": 7.74,
      "learning_rate": 2.689104571070758e-05,
      "loss": 0.6045,
      "step": 9156,
      "task_loss": 0.8238292932510376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6037514805793762,
      "epoch": 7.74,
      "learning_rate": 2.688791484032561e-05,
      "loss": 0.4933,
      "step": 9157,
      "task_loss": 1.0810534954071045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.76021409034729,
      "epoch": 7.74,
      "learning_rate": 2.6884783969943646e-05,
      "loss": 0.6209,
      "step": 9158,
      "task_loss": 1.5325013399124146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8941582441329956,
      "epoch": 7.74,
      "learning_rate": 2.688165309956168e-05,
      "loss": 0.6726,
      "step": 9159,
      "task_loss": 0.9334650635719299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3945716321468353,
      "epoch": 7.74,
      "learning_rate": 2.6878522229179716e-05,
      "loss": 0.4972,
      "step": 9160,
      "task_loss": 0.3486729562282562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6275527477264404,
      "epoch": 7.74,
      "learning_rate": 2.6875391358797748e-05,
      "loss": 0.7046,
      "step": 9161,
      "task_loss": 1.0338784456253052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0383257865905762,
      "epoch": 7.74,
      "learning_rate": 2.687226048841578e-05,
      "loss": 0.8262,
      "step": 9162,
      "task_loss": 2.142730951309204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5521240830421448,
      "epoch": 7.75,
      "learning_rate": 2.6869129618033818e-05,
      "loss": 0.5289,
      "step": 9163,
      "task_loss": 0.6250215768814087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6050926446914673,
      "epoch": 7.75,
      "learning_rate": 2.686599874765185e-05,
      "loss": 0.5939,
      "step": 9164,
      "task_loss": 1.1956504583358765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5803313255310059,
      "epoch": 7.75,
      "learning_rate": 2.6862867877269882e-05,
      "loss": 0.6491,
      "step": 9165,
      "task_loss": 0.5469316244125366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5977094769477844,
      "epoch": 7.75,
      "learning_rate": 2.6859737006887914e-05,
      "loss": 0.5497,
      "step": 9166,
      "task_loss": 0.6004010438919067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9422328472137451,
      "epoch": 7.75,
      "learning_rate": 2.6856606136505952e-05,
      "loss": 0.7198,
      "step": 9167,
      "task_loss": 1.7190295457839966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7305265665054321,
      "epoch": 7.75,
      "learning_rate": 2.6853475266123984e-05,
      "loss": 0.7151,
      "step": 9168,
      "task_loss": 0.7560840249061584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43146929144859314,
      "epoch": 7.75,
      "learning_rate": 2.6850344395742016e-05,
      "loss": 0.5999,
      "step": 9169,
      "task_loss": 0.5697654485702515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.675452709197998,
      "epoch": 7.75,
      "learning_rate": 2.6847213525360047e-05,
      "loss": 0.5613,
      "step": 9170,
      "task_loss": 0.718334436416626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.552760124206543,
      "epoch": 7.75,
      "learning_rate": 2.6844082654978086e-05,
      "loss": 0.7887,
      "step": 9171,
      "task_loss": 0.9052979946136475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.635266900062561,
      "epoch": 7.75,
      "learning_rate": 2.6840951784596118e-05,
      "loss": 0.7017,
      "step": 9172,
      "task_loss": 0.48447006940841675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8776285648345947,
      "epoch": 7.75,
      "learning_rate": 2.683782091421415e-05,
      "loss": 0.7075,
      "step": 9173,
      "task_loss": 0.20791159570217133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7506695985794067,
      "epoch": 7.75,
      "learning_rate": 2.6834690043832188e-05,
      "loss": 0.6559,
      "step": 9174,
      "task_loss": 0.8048954606056213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8917046189308167,
      "epoch": 7.76,
      "learning_rate": 2.683155917345022e-05,
      "loss": 0.7959,
      "step": 9175,
      "task_loss": 0.9829083681106567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7374757528305054,
      "epoch": 7.76,
      "learning_rate": 2.6828428303068255e-05,
      "loss": 0.6194,
      "step": 9176,
      "task_loss": 0.29473158717155457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7131641507148743,
      "epoch": 7.76,
      "learning_rate": 2.6825297432686287e-05,
      "loss": 0.5953,
      "step": 9177,
      "task_loss": 1.4133472442626953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4728832542896271,
      "epoch": 7.76,
      "learning_rate": 2.6822166562304325e-05,
      "loss": 0.6507,
      "step": 9178,
      "task_loss": 0.716389000415802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5142751932144165,
      "epoch": 7.76,
      "learning_rate": 2.6819035691922357e-05,
      "loss": 0.6877,
      "step": 9179,
      "task_loss": 0.34924206137657166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8977372646331787,
      "epoch": 7.76,
      "learning_rate": 2.681590482154039e-05,
      "loss": 0.7971,
      "step": 9180,
      "task_loss": 1.061044692993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5276252031326294,
      "epoch": 7.76,
      "learning_rate": 2.681277395115842e-05,
      "loss": 0.7205,
      "step": 9181,
      "task_loss": 1.2351791858673096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4838705062866211,
      "epoch": 7.76,
      "learning_rate": 2.680964308077646e-05,
      "loss": 0.584,
      "step": 9182,
      "task_loss": 0.08281552046537399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6336753368377686,
      "epoch": 7.76,
      "learning_rate": 2.680651221039449e-05,
      "loss": 0.8068,
      "step": 9183,
      "task_loss": 0.36389410495758057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49715378880500793,
      "epoch": 7.76,
      "learning_rate": 2.6803381340012523e-05,
      "loss": 0.6144,
      "step": 9184,
      "task_loss": 0.7244604825973511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5417205095291138,
      "epoch": 7.76,
      "learning_rate": 2.680025046963056e-05,
      "loss": 0.6869,
      "step": 9185,
      "task_loss": 0.32977426052093506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.589698314666748,
      "epoch": 7.76,
      "learning_rate": 2.6797119599248593e-05,
      "loss": 0.6187,
      "step": 9186,
      "task_loss": 1.5766924619674683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44580602645874023,
      "epoch": 7.77,
      "learning_rate": 2.6793988728866625e-05,
      "loss": 0.5151,
      "step": 9187,
      "task_loss": 0.22158858180046082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34135499596595764,
      "epoch": 7.77,
      "learning_rate": 2.6790857858484657e-05,
      "loss": 0.4322,
      "step": 9188,
      "task_loss": 0.2685298025608063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8604387640953064,
      "epoch": 7.77,
      "learning_rate": 2.6787726988102695e-05,
      "loss": 0.6284,
      "step": 9189,
      "task_loss": 1.2235145568847656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5808174014091492,
      "epoch": 7.77,
      "learning_rate": 2.6784596117720727e-05,
      "loss": 0.6226,
      "step": 9190,
      "task_loss": 0.5682020783424377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0652730464935303,
      "epoch": 7.77,
      "learning_rate": 2.678146524733876e-05,
      "loss": 0.6106,
      "step": 9191,
      "task_loss": 1.274983286857605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3817666471004486,
      "epoch": 7.77,
      "learning_rate": 2.6778334376956794e-05,
      "loss": 0.6728,
      "step": 9192,
      "task_loss": 0.801400899887085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8180332183837891,
      "epoch": 7.77,
      "learning_rate": 2.677520350657483e-05,
      "loss": 0.6594,
      "step": 9193,
      "task_loss": 1.271713376045227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7267806529998779,
      "epoch": 7.77,
      "learning_rate": 2.6772072636192864e-05,
      "loss": 0.7888,
      "step": 9194,
      "task_loss": 1.5304819345474243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.52070552110672,
      "epoch": 7.77,
      "learning_rate": 2.6768941765810896e-05,
      "loss": 0.7617,
      "step": 9195,
      "task_loss": 0.1508764624595642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.512209415435791,
      "epoch": 7.77,
      "learning_rate": 2.6765810895428935e-05,
      "loss": 0.718,
      "step": 9196,
      "task_loss": 0.3649105429649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7875078916549683,
      "epoch": 7.77,
      "learning_rate": 2.6762680025046967e-05,
      "loss": 0.6812,
      "step": 9197,
      "task_loss": 1.2211252450942993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40517425537109375,
      "epoch": 7.77,
      "learning_rate": 2.6759549154665e-05,
      "loss": 0.5786,
      "step": 9198,
      "task_loss": 0.3261634409427643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5715659260749817,
      "epoch": 7.78,
      "learning_rate": 2.675641828428303e-05,
      "loss": 0.523,
      "step": 9199,
      "task_loss": 0.8337152600288391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8269885778427124,
      "epoch": 7.78,
      "learning_rate": 2.675328741390107e-05,
      "loss": 0.6575,
      "step": 9200,
      "task_loss": 1.3502451181411743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7457078695297241,
      "epoch": 7.78,
      "learning_rate": 2.67501565435191e-05,
      "loss": 0.8504,
      "step": 9201,
      "task_loss": 1.1310083866119385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8947073221206665,
      "epoch": 7.78,
      "learning_rate": 2.6747025673137132e-05,
      "loss": 0.6861,
      "step": 9202,
      "task_loss": 0.9751021862030029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5358555912971497,
      "epoch": 7.78,
      "learning_rate": 2.6743894802755164e-05,
      "loss": 0.6358,
      "step": 9203,
      "task_loss": 1.5834178924560547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7293906211853027,
      "epoch": 7.78,
      "learning_rate": 2.6740763932373203e-05,
      "loss": 0.696,
      "step": 9204,
      "task_loss": 1.1178241968154907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6302853226661682,
      "epoch": 7.78,
      "learning_rate": 2.6737633061991234e-05,
      "loss": 0.6301,
      "step": 9205,
      "task_loss": 0.5495689511299133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8045634031295776,
      "epoch": 7.78,
      "learning_rate": 2.6734502191609266e-05,
      "loss": 0.6677,
      "step": 9206,
      "task_loss": 0.5293760895729065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4343588054180145,
      "epoch": 7.78,
      "learning_rate": 2.67313713212273e-05,
      "loss": 0.6327,
      "step": 9207,
      "task_loss": 0.5476627349853516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5578230023384094,
      "epoch": 7.78,
      "learning_rate": 2.6728240450845336e-05,
      "loss": 0.7349,
      "step": 9208,
      "task_loss": 0.5010431408882141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4956943392753601,
      "epoch": 7.78,
      "learning_rate": 2.672510958046337e-05,
      "loss": 0.6185,
      "step": 9209,
      "task_loss": 0.3393818438053131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5098996758460999,
      "epoch": 7.78,
      "learning_rate": 2.6721978710081403e-05,
      "loss": 0.7275,
      "step": 9210,
      "task_loss": 1.2103461027145386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6454741954803467,
      "epoch": 7.79,
      "learning_rate": 2.671884783969944e-05,
      "loss": 0.7429,
      "step": 9211,
      "task_loss": 0.4730529189109802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6113182306289673,
      "epoch": 7.79,
      "learning_rate": 2.6715716969317474e-05,
      "loss": 0.8538,
      "step": 9212,
      "task_loss": 1.428511142730713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45839357376098633,
      "epoch": 7.79,
      "learning_rate": 2.6712586098935506e-05,
      "loss": 0.5296,
      "step": 9213,
      "task_loss": 0.578133761882782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38401466608047485,
      "epoch": 7.79,
      "learning_rate": 2.6709455228553537e-05,
      "loss": 0.6647,
      "step": 9214,
      "task_loss": 0.22821903228759766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4478796720504761,
      "epoch": 7.79,
      "learning_rate": 2.6706324358171576e-05,
      "loss": 0.5029,
      "step": 9215,
      "task_loss": 0.591279923915863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5743421316146851,
      "epoch": 7.79,
      "learning_rate": 2.6703193487789608e-05,
      "loss": 0.7756,
      "step": 9216,
      "task_loss": 0.5161247849464417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4855937063694,
      "epoch": 7.79,
      "learning_rate": 2.670006261740764e-05,
      "loss": 0.6962,
      "step": 9217,
      "task_loss": 0.9424035549163818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8942943811416626,
      "epoch": 7.79,
      "learning_rate": 2.669693174702567e-05,
      "loss": 0.6711,
      "step": 9218,
      "task_loss": 1.6510564088821411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5233988165855408,
      "epoch": 7.79,
      "learning_rate": 2.669380087664371e-05,
      "loss": 0.7457,
      "step": 9219,
      "task_loss": 0.5425822138786316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43656718730926514,
      "epoch": 7.79,
      "learning_rate": 2.669067000626174e-05,
      "loss": 0.5057,
      "step": 9220,
      "task_loss": 0.8772517442703247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7960867881774902,
      "epoch": 7.79,
      "learning_rate": 2.6687539135879773e-05,
      "loss": 0.6597,
      "step": 9221,
      "task_loss": 0.38597068190574646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5789438486099243,
      "epoch": 7.79,
      "learning_rate": 2.6684408265497812e-05,
      "loss": 0.7179,
      "step": 9222,
      "task_loss": 0.6204952597618103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8370921015739441,
      "epoch": 7.8,
      "learning_rate": 2.6681277395115844e-05,
      "loss": 0.7058,
      "step": 9223,
      "task_loss": 1.0985074043273926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46336376667022705,
      "epoch": 7.8,
      "learning_rate": 2.6678146524733875e-05,
      "loss": 0.5609,
      "step": 9224,
      "task_loss": 0.5612239241600037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4742278456687927,
      "epoch": 7.8,
      "learning_rate": 2.667501565435191e-05,
      "loss": 0.6148,
      "step": 9225,
      "task_loss": 0.6976776123046875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7475371956825256,
      "epoch": 7.8,
      "learning_rate": 2.6671884783969946e-05,
      "loss": 0.9523,
      "step": 9226,
      "task_loss": 1.2583519220352173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7526002526283264,
      "epoch": 7.8,
      "learning_rate": 2.666875391358798e-05,
      "loss": 0.6903,
      "step": 9227,
      "task_loss": 1.0588525533676147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47655099630355835,
      "epoch": 7.8,
      "learning_rate": 2.6665623043206013e-05,
      "loss": 0.6173,
      "step": 9228,
      "task_loss": 0.18094955384731293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0975885391235352,
      "epoch": 7.8,
      "learning_rate": 2.6662492172824045e-05,
      "loss": 0.6989,
      "step": 9229,
      "task_loss": 0.9413714408874512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4896625280380249,
      "epoch": 7.8,
      "learning_rate": 2.6659361302442083e-05,
      "loss": 0.7129,
      "step": 9230,
      "task_loss": 0.8934268951416016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.587326169013977,
      "epoch": 7.8,
      "learning_rate": 2.6656230432060115e-05,
      "loss": 0.526,
      "step": 9231,
      "task_loss": 0.4609638750553131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7431254982948303,
      "epoch": 7.8,
      "learning_rate": 2.6653099561678147e-05,
      "loss": 0.5417,
      "step": 9232,
      "task_loss": 0.7307233214378357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7022340297698975,
      "epoch": 7.8,
      "learning_rate": 2.6649968691296185e-05,
      "loss": 0.7131,
      "step": 9233,
      "task_loss": 0.9116626381874084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9205322861671448,
      "epoch": 7.81,
      "learning_rate": 2.6646837820914217e-05,
      "loss": 0.6594,
      "step": 9234,
      "task_loss": 0.5586472749710083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5777369141578674,
      "epoch": 7.81,
      "learning_rate": 2.664370695053225e-05,
      "loss": 0.6747,
      "step": 9235,
      "task_loss": 0.3533806800842285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7960163950920105,
      "epoch": 7.81,
      "learning_rate": 2.664057608015028e-05,
      "loss": 0.6405,
      "step": 9236,
      "task_loss": 0.934609055519104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7135106325149536,
      "epoch": 7.81,
      "learning_rate": 2.663744520976832e-05,
      "loss": 0.537,
      "step": 9237,
      "task_loss": 1.109183430671692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8131632208824158,
      "epoch": 7.81,
      "learning_rate": 2.663431433938635e-05,
      "loss": 0.6348,
      "step": 9238,
      "task_loss": 0.5855390429496765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2039202451705933,
      "epoch": 7.81,
      "learning_rate": 2.6631183469004383e-05,
      "loss": 0.6565,
      "step": 9239,
      "task_loss": 0.7804291844367981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.634016215801239,
      "epoch": 7.81,
      "learning_rate": 2.6628052598622414e-05,
      "loss": 0.684,
      "step": 9240,
      "task_loss": 0.20485365390777588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5084894299507141,
      "epoch": 7.81,
      "learning_rate": 2.6624921728240453e-05,
      "loss": 0.5499,
      "step": 9241,
      "task_loss": 0.3662354350090027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5975803136825562,
      "epoch": 7.81,
      "learning_rate": 2.6621790857858485e-05,
      "loss": 0.619,
      "step": 9242,
      "task_loss": 0.7465779185295105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.667792558670044,
      "epoch": 7.81,
      "learning_rate": 2.661865998747652e-05,
      "loss": 0.6468,
      "step": 9243,
      "task_loss": 0.5328837037086487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3583890199661255,
      "epoch": 7.81,
      "learning_rate": 2.6615529117094552e-05,
      "loss": 0.4138,
      "step": 9244,
      "task_loss": 1.0013641119003296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5177762508392334,
      "epoch": 7.81,
      "learning_rate": 2.661239824671259e-05,
      "loss": 0.7418,
      "step": 9245,
      "task_loss": 1.5827080011367798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5794281959533691,
      "epoch": 7.82,
      "learning_rate": 2.6609267376330622e-05,
      "loss": 0.7053,
      "step": 9246,
      "task_loss": 0.5535288453102112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955565571784973,
      "epoch": 7.82,
      "learning_rate": 2.6606136505948654e-05,
      "loss": 0.609,
      "step": 9247,
      "task_loss": 0.991658091545105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8643224239349365,
      "epoch": 7.82,
      "learning_rate": 2.6603005635566692e-05,
      "loss": 0.7522,
      "step": 9248,
      "task_loss": 1.574628233909607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6795052289962769,
      "epoch": 7.82,
      "learning_rate": 2.6599874765184724e-05,
      "loss": 0.594,
      "step": 9249,
      "task_loss": 0.8551183342933655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6969977617263794,
      "epoch": 7.82,
      "learning_rate": 2.6596743894802756e-05,
      "loss": 0.5752,
      "step": 9250,
      "task_loss": 0.8130627274513245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7574191689491272,
      "epoch": 7.82,
      "learning_rate": 2.6593613024420788e-05,
      "loss": 0.7109,
      "step": 9251,
      "task_loss": 1.4849987030029297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40362757444381714,
      "epoch": 7.82,
      "learning_rate": 2.6590482154038826e-05,
      "loss": 0.5228,
      "step": 9252,
      "task_loss": 1.2725516557693481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5007966756820679,
      "epoch": 7.82,
      "learning_rate": 2.6587351283656858e-05,
      "loss": 0.7343,
      "step": 9253,
      "task_loss": 0.5518678426742554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5868730545043945,
      "epoch": 7.82,
      "learning_rate": 2.658422041327489e-05,
      "loss": 0.77,
      "step": 9254,
      "task_loss": 0.20289430022239685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9212419986724854,
      "epoch": 7.82,
      "learning_rate": 2.658108954289292e-05,
      "loss": 0.7759,
      "step": 9255,
      "task_loss": 1.2214471101760864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5847617387771606,
      "epoch": 7.82,
      "learning_rate": 2.657795867251096e-05,
      "loss": 0.6034,
      "step": 9256,
      "task_loss": 0.7956830263137817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5877705216407776,
      "epoch": 7.82,
      "learning_rate": 2.6574827802128992e-05,
      "loss": 0.6475,
      "step": 9257,
      "task_loss": 0.9570707082748413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.628792405128479,
      "epoch": 7.83,
      "learning_rate": 2.6571696931747024e-05,
      "loss": 0.507,
      "step": 9258,
      "task_loss": 0.4242516756057739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9908457398414612,
      "epoch": 7.83,
      "learning_rate": 2.6568566061365062e-05,
      "loss": 0.7435,
      "step": 9259,
      "task_loss": 0.825901985168457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7686820030212402,
      "epoch": 7.83,
      "learning_rate": 2.6565435190983094e-05,
      "loss": 0.6236,
      "step": 9260,
      "task_loss": 1.0070436000823975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.663603663444519,
      "epoch": 7.83,
      "learning_rate": 2.656230432060113e-05,
      "loss": 0.5836,
      "step": 9261,
      "task_loss": 1.1074930429458618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6836071014404297,
      "epoch": 7.83,
      "learning_rate": 2.655917345021916e-05,
      "loss": 0.7068,
      "step": 9262,
      "task_loss": 0.20346979796886444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.712429404258728,
      "epoch": 7.83,
      "learning_rate": 2.65560425798372e-05,
      "loss": 0.4568,
      "step": 9263,
      "task_loss": 0.8220543265342712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9652332067489624,
      "epoch": 7.83,
      "learning_rate": 2.655291170945523e-05,
      "loss": 0.5744,
      "step": 9264,
      "task_loss": 1.0026421546936035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4644193649291992,
      "epoch": 7.83,
      "learning_rate": 2.6549780839073263e-05,
      "loss": 0.5888,
      "step": 9265,
      "task_loss": 0.24481558799743652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4696943759918213,
      "epoch": 7.83,
      "learning_rate": 2.6546649968691295e-05,
      "loss": 0.778,
      "step": 9266,
      "task_loss": 0.07167177647352219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0001804828643799,
      "epoch": 7.83,
      "learning_rate": 2.6543519098309334e-05,
      "loss": 0.7251,
      "step": 9267,
      "task_loss": 1.4573928117752075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46024081110954285,
      "epoch": 7.83,
      "learning_rate": 2.6540388227927365e-05,
      "loss": 0.698,
      "step": 9268,
      "task_loss": 1.1027545928955078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4472285807132721,
      "epoch": 7.83,
      "learning_rate": 2.6537257357545397e-05,
      "loss": 0.6512,
      "step": 9269,
      "task_loss": 0.3202151954174042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6706910133361816,
      "epoch": 7.84,
      "learning_rate": 2.6534126487163436e-05,
      "loss": 0.6593,
      "step": 9270,
      "task_loss": 0.1355791687965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7362587451934814,
      "epoch": 7.84,
      "learning_rate": 2.6530995616781467e-05,
      "loss": 0.7963,
      "step": 9271,
      "task_loss": 0.6590666174888611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7618979215621948,
      "epoch": 7.84,
      "learning_rate": 2.65278647463995e-05,
      "loss": 0.7391,
      "step": 9272,
      "task_loss": 1.2034478187561035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43591901659965515,
      "epoch": 7.84,
      "learning_rate": 2.652473387601753e-05,
      "loss": 0.6104,
      "step": 9273,
      "task_loss": 0.988061249256134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41245830059051514,
      "epoch": 7.84,
      "learning_rate": 2.652160300563557e-05,
      "loss": 0.4372,
      "step": 9274,
      "task_loss": 1.045927882194519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9924241304397583,
      "epoch": 7.84,
      "learning_rate": 2.65184721352536e-05,
      "loss": 0.7929,
      "step": 9275,
      "task_loss": 1.805729866027832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.477022260427475,
      "epoch": 7.84,
      "learning_rate": 2.6515341264871633e-05,
      "loss": 0.6115,
      "step": 9276,
      "task_loss": 0.45830243825912476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4934313893318176,
      "epoch": 7.84,
      "learning_rate": 2.651221039448967e-05,
      "loss": 0.5061,
      "step": 9277,
      "task_loss": 0.8648338913917542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5868679285049438,
      "epoch": 7.84,
      "learning_rate": 2.6509079524107703e-05,
      "loss": 0.6865,
      "step": 9278,
      "task_loss": 0.6288072466850281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43425801396369934,
      "epoch": 7.84,
      "learning_rate": 2.650594865372574e-05,
      "loss": 0.5412,
      "step": 9279,
      "task_loss": 0.22652484476566315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4973319470882416,
      "epoch": 7.84,
      "learning_rate": 2.650281778334377e-05,
      "loss": 0.6162,
      "step": 9280,
      "task_loss": 0.2765994966030121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6030449867248535,
      "epoch": 7.84,
      "learning_rate": 2.6499686912961802e-05,
      "loss": 0.5551,
      "step": 9281,
      "task_loss": 0.7147455811500549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4962291717529297,
      "epoch": 7.85,
      "learning_rate": 2.649655604257984e-05,
      "loss": 0.6892,
      "step": 9282,
      "task_loss": 0.466047078371048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40010204911231995,
      "epoch": 7.85,
      "learning_rate": 2.6493425172197873e-05,
      "loss": 0.4289,
      "step": 9283,
      "task_loss": 1.2293390035629272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8097793459892273,
      "epoch": 7.85,
      "learning_rate": 2.6490294301815904e-05,
      "loss": 0.589,
      "step": 9284,
      "task_loss": 0.608290433883667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.613182783126831,
      "epoch": 7.85,
      "learning_rate": 2.6487163431433943e-05,
      "loss": 0.6836,
      "step": 9285,
      "task_loss": 0.8006587028503418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7904977202415466,
      "epoch": 7.85,
      "learning_rate": 2.6484032561051975e-05,
      "loss": 0.7538,
      "step": 9286,
      "task_loss": 0.6184447407722473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3588023781776428,
      "epoch": 7.85,
      "learning_rate": 2.6480901690670006e-05,
      "loss": 0.5509,
      "step": 9287,
      "task_loss": 0.5030600428581238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.541572093963623,
      "epoch": 7.85,
      "learning_rate": 2.6477770820288038e-05,
      "loss": 0.6406,
      "step": 9288,
      "task_loss": 1.3499858379364014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5426823496818542,
      "epoch": 7.85,
      "learning_rate": 2.6474639949906077e-05,
      "loss": 0.6152,
      "step": 9289,
      "task_loss": 0.5274702906608582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42585599422454834,
      "epoch": 7.85,
      "learning_rate": 2.647150907952411e-05,
      "loss": 0.5311,
      "step": 9290,
      "task_loss": 0.857465386390686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4738660454750061,
      "epoch": 7.85,
      "learning_rate": 2.646837820914214e-05,
      "loss": 0.5171,
      "step": 9291,
      "task_loss": 0.21938294172286987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.796672523021698,
      "epoch": 7.85,
      "learning_rate": 2.6465247338760176e-05,
      "loss": 0.6093,
      "step": 9292,
      "task_loss": 1.0962607860565186
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5272184610366821,
      "epoch": 7.85,
      "learning_rate": 2.646211646837821e-05,
      "loss": 0.5784,
      "step": 9293,
      "task_loss": 0.34344375133514404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4836212992668152,
      "epoch": 7.86,
      "learning_rate": 2.6458985597996246e-05,
      "loss": 0.5105,
      "step": 9294,
      "task_loss": 0.7175370454788208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40601760149002075,
      "epoch": 7.86,
      "learning_rate": 2.6455854727614278e-05,
      "loss": 0.4977,
      "step": 9295,
      "task_loss": 0.6791109442710876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4554453492164612,
      "epoch": 7.86,
      "learning_rate": 2.6452723857232313e-05,
      "loss": 0.5515,
      "step": 9296,
      "task_loss": 0.4111195504665375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8485012054443359,
      "epoch": 7.86,
      "learning_rate": 2.6449592986850348e-05,
      "loss": 0.7548,
      "step": 9297,
      "task_loss": 0.6032215356826782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.06626558303833,
      "epoch": 7.86,
      "learning_rate": 2.644646211646838e-05,
      "loss": 0.6507,
      "step": 9298,
      "task_loss": 0.7646085619926453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9918057918548584,
      "epoch": 7.86,
      "learning_rate": 2.644333124608641e-05,
      "loss": 0.7591,
      "step": 9299,
      "task_loss": 1.350124716758728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7197192311286926,
      "epoch": 7.86,
      "learning_rate": 2.644020037570445e-05,
      "loss": 0.6251,
      "step": 9300,
      "task_loss": 1.5529576539993286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5720992684364319,
      "epoch": 7.86,
      "learning_rate": 2.6437069505322482e-05,
      "loss": 0.5405,
      "step": 9301,
      "task_loss": 0.7065452337265015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4943564534187317,
      "epoch": 7.86,
      "learning_rate": 2.6433938634940514e-05,
      "loss": 0.6399,
      "step": 9302,
      "task_loss": 1.18608820438385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.564371645450592,
      "epoch": 7.86,
      "learning_rate": 2.6430807764558545e-05,
      "loss": 0.5333,
      "step": 9303,
      "task_loss": 0.4874054193496704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5280548334121704,
      "epoch": 7.86,
      "learning_rate": 2.6427676894176584e-05,
      "loss": 0.6466,
      "step": 9304,
      "task_loss": 1.0137883424758911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.704071581363678,
      "epoch": 7.87,
      "learning_rate": 2.6424546023794616e-05,
      "loss": 0.7072,
      "step": 9305,
      "task_loss": 0.8883162140846252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7928359508514404,
      "epoch": 7.87,
      "learning_rate": 2.6421415153412648e-05,
      "loss": 0.6501,
      "step": 9306,
      "task_loss": 0.9003003835678101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8449357748031616,
      "epoch": 7.87,
      "learning_rate": 2.6418284283030686e-05,
      "loss": 0.6602,
      "step": 9307,
      "task_loss": 1.4054615497589111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7677913308143616,
      "epoch": 7.87,
      "learning_rate": 2.6415153412648718e-05,
      "loss": 0.5254,
      "step": 9308,
      "task_loss": 0.5920577049255371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1572167873382568,
      "epoch": 7.87,
      "learning_rate": 2.641202254226675e-05,
      "loss": 0.8988,
      "step": 9309,
      "task_loss": 0.9718706011772156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7753601670265198,
      "epoch": 7.87,
      "learning_rate": 2.6408891671884785e-05,
      "loss": 0.71,
      "step": 9310,
      "task_loss": 1.0363447666168213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7899887561798096,
      "epoch": 7.87,
      "learning_rate": 2.640576080150282e-05,
      "loss": 0.8088,
      "step": 9311,
      "task_loss": 0.9770612716674805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6340683698654175,
      "epoch": 7.87,
      "learning_rate": 2.6402629931120855e-05,
      "loss": 0.9231,
      "step": 9312,
      "task_loss": 0.9529533386230469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5003923773765564,
      "epoch": 7.87,
      "learning_rate": 2.6399499060738887e-05,
      "loss": 0.6233,
      "step": 9313,
      "task_loss": 0.8169487714767456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44133347272872925,
      "epoch": 7.87,
      "learning_rate": 2.639636819035692e-05,
      "loss": 0.7322,
      "step": 9314,
      "task_loss": 0.5067716240882874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32436782121658325,
      "epoch": 7.87,
      "learning_rate": 2.6393237319974957e-05,
      "loss": 0.644,
      "step": 9315,
      "task_loss": 1.0155659914016724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5007916688919067,
      "epoch": 7.87,
      "learning_rate": 2.639010644959299e-05,
      "loss": 0.5865,
      "step": 9316,
      "task_loss": 0.5943099856376648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6835108995437622,
      "epoch": 7.88,
      "learning_rate": 2.638697557921102e-05,
      "loss": 0.68,
      "step": 9317,
      "task_loss": 1.291317105293274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5380743741989136,
      "epoch": 7.88,
      "learning_rate": 2.6383844708829053e-05,
      "loss": 0.6953,
      "step": 9318,
      "task_loss": 0.7644554376602173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7863419651985168,
      "epoch": 7.88,
      "learning_rate": 2.638071383844709e-05,
      "loss": 0.7293,
      "step": 9319,
      "task_loss": 0.461905300617218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.428444504737854,
      "epoch": 7.88,
      "learning_rate": 2.6377582968065123e-05,
      "loss": 0.572,
      "step": 9320,
      "task_loss": 0.5470868945121765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6691455245018005,
      "epoch": 7.88,
      "learning_rate": 2.6374452097683155e-05,
      "loss": 0.6684,
      "step": 9321,
      "task_loss": 0.811172366142273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8944703340530396,
      "epoch": 7.88,
      "learning_rate": 2.6371321227301193e-05,
      "loss": 0.6915,
      "step": 9322,
      "task_loss": 0.4624226987361908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4571475684642792,
      "epoch": 7.88,
      "learning_rate": 2.6368190356919225e-05,
      "loss": 0.585,
      "step": 9323,
      "task_loss": 0.5568109154701233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6200003027915955,
      "epoch": 7.88,
      "learning_rate": 2.6365059486537257e-05,
      "loss": 0.7811,
      "step": 9324,
      "task_loss": 1.2458839416503906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2970258593559265,
      "epoch": 7.88,
      "learning_rate": 2.636192861615529e-05,
      "loss": 0.6289,
      "step": 9325,
      "task_loss": 0.9157501459121704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9564588069915771,
      "epoch": 7.88,
      "learning_rate": 2.6358797745773327e-05,
      "loss": 0.9148,
      "step": 9326,
      "task_loss": 1.2216918468475342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5756273865699768,
      "epoch": 7.88,
      "learning_rate": 2.635566687539136e-05,
      "loss": 0.7962,
      "step": 9327,
      "task_loss": 0.5107131600379944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7616927027702332,
      "epoch": 7.88,
      "learning_rate": 2.6352536005009394e-05,
      "loss": 0.6417,
      "step": 9328,
      "task_loss": 1.378266453742981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4852607846260071,
      "epoch": 7.89,
      "learning_rate": 2.6349405134627426e-05,
      "loss": 0.6567,
      "step": 9329,
      "task_loss": 1.1085591316223145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40316298604011536,
      "epoch": 7.89,
      "learning_rate": 2.6346274264245465e-05,
      "loss": 0.5463,
      "step": 9330,
      "task_loss": 0.4773106575012207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0580435991287231,
      "epoch": 7.89,
      "learning_rate": 2.6343143393863496e-05,
      "loss": 0.6375,
      "step": 9331,
      "task_loss": 0.8668399453163147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5490967035293579,
      "epoch": 7.89,
      "learning_rate": 2.6340012523481528e-05,
      "loss": 0.749,
      "step": 9332,
      "task_loss": 0.7925817966461182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5817394256591797,
      "epoch": 7.89,
      "learning_rate": 2.6336881653099567e-05,
      "loss": 0.5528,
      "step": 9333,
      "task_loss": 1.2291899919509888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5919026732444763,
      "epoch": 7.89,
      "learning_rate": 2.63337507827176e-05,
      "loss": 0.657,
      "step": 9334,
      "task_loss": 0.5199276208877563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3289984166622162,
      "epoch": 7.89,
      "learning_rate": 2.633061991233563e-05,
      "loss": 0.5227,
      "step": 9335,
      "task_loss": 0.6141798496246338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1123275756835938,
      "epoch": 7.89,
      "learning_rate": 2.6327489041953662e-05,
      "loss": 0.8578,
      "step": 9336,
      "task_loss": 1.1024904251098633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3896951377391815,
      "epoch": 7.89,
      "learning_rate": 2.63243581715717e-05,
      "loss": 0.5881,
      "step": 9337,
      "task_loss": 0.3597799241542816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5285160541534424,
      "epoch": 7.89,
      "learning_rate": 2.6321227301189732e-05,
      "loss": 0.7202,
      "step": 9338,
      "task_loss": 1.1613010168075562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7277591228485107,
      "epoch": 7.89,
      "learning_rate": 2.6318096430807764e-05,
      "loss": 0.6768,
      "step": 9339,
      "task_loss": 1.2189006805419922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5512917637825012,
      "epoch": 7.89,
      "learning_rate": 2.6314965560425796e-05,
      "loss": 0.5125,
      "step": 9340,
      "task_loss": 0.5204025506973267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3299836218357086,
      "epoch": 7.9,
      "learning_rate": 2.6311834690043834e-05,
      "loss": 0.4672,
      "step": 9341,
      "task_loss": 0.08439314365386963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3428913652896881,
      "epoch": 7.9,
      "learning_rate": 2.6308703819661866e-05,
      "loss": 0.6465,
      "step": 9342,
      "task_loss": 0.21145455539226532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187602639198303,
      "epoch": 7.9,
      "learning_rate": 2.6305572949279898e-05,
      "loss": 0.6903,
      "step": 9343,
      "task_loss": 0.887890100479126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8929547071456909,
      "epoch": 7.9,
      "learning_rate": 2.6302442078897937e-05,
      "loss": 0.7915,
      "step": 9344,
      "task_loss": 0.9381954669952393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42203137278556824,
      "epoch": 7.9,
      "learning_rate": 2.629931120851597e-05,
      "loss": 0.4985,
      "step": 9345,
      "task_loss": 0.1595657914876938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7182854413986206,
      "epoch": 7.9,
      "learning_rate": 2.6296180338134004e-05,
      "loss": 0.6369,
      "step": 9346,
      "task_loss": 1.2117211818695068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5900564193725586,
      "epoch": 7.9,
      "learning_rate": 2.6293049467752035e-05,
      "loss": 0.5886,
      "step": 9347,
      "task_loss": 0.46759557723999023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5240297317504883,
      "epoch": 7.9,
      "learning_rate": 2.6289918597370074e-05,
      "loss": 0.5978,
      "step": 9348,
      "task_loss": 0.5658738017082214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.841759979724884,
      "epoch": 7.9,
      "learning_rate": 2.6286787726988106e-05,
      "loss": 0.7367,
      "step": 9349,
      "task_loss": 0.846861720085144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2734088897705078,
      "epoch": 7.9,
      "learning_rate": 2.6283656856606137e-05,
      "loss": 0.5741,
      "step": 9350,
      "task_loss": 0.6389260292053223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3418160080909729,
      "epoch": 7.9,
      "learning_rate": 2.628052598622417e-05,
      "loss": 0.5191,
      "step": 9351,
      "task_loss": 0.03168213367462158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6644775867462158,
      "epoch": 7.9,
      "learning_rate": 2.6277395115842208e-05,
      "loss": 0.629,
      "step": 9352,
      "task_loss": 0.5027097463607788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.085130214691162,
      "epoch": 7.91,
      "learning_rate": 2.627426424546024e-05,
      "loss": 0.7823,
      "step": 9353,
      "task_loss": 1.167847752571106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5684057474136353,
      "epoch": 7.91,
      "learning_rate": 2.627113337507827e-05,
      "loss": 0.6604,
      "step": 9354,
      "task_loss": 0.9169731140136719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5032474398612976,
      "epoch": 7.91,
      "learning_rate": 2.6268002504696303e-05,
      "loss": 0.4908,
      "step": 9355,
      "task_loss": 0.4583607614040375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7406501770019531,
      "epoch": 7.91,
      "learning_rate": 2.626487163431434e-05,
      "loss": 0.8252,
      "step": 9356,
      "task_loss": 0.9404286742210388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5131732225418091,
      "epoch": 7.91,
      "learning_rate": 2.6261740763932373e-05,
      "loss": 0.5304,
      "step": 9357,
      "task_loss": 0.8052062392234802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6987851858139038,
      "epoch": 7.91,
      "learning_rate": 2.6258609893550405e-05,
      "loss": 0.6785,
      "step": 9358,
      "task_loss": 0.5692974925041199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6434668302536011,
      "epoch": 7.91,
      "learning_rate": 2.6255479023168444e-05,
      "loss": 0.6611,
      "step": 9359,
      "task_loss": 0.10130046308040619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.562297523021698,
      "epoch": 7.91,
      "learning_rate": 2.6252348152786476e-05,
      "loss": 0.5461,
      "step": 9360,
      "task_loss": 0.7579794526100159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8335858583450317,
      "epoch": 7.91,
      "learning_rate": 2.624921728240451e-05,
      "loss": 0.6642,
      "step": 9361,
      "task_loss": 1.6068545579910278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8229688405990601,
      "epoch": 7.91,
      "learning_rate": 2.6246086412022543e-05,
      "loss": 0.6961,
      "step": 9362,
      "task_loss": 0.5232741832733154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4362673759460449,
      "epoch": 7.91,
      "learning_rate": 2.6242955541640578e-05,
      "loss": 0.5478,
      "step": 9363,
      "task_loss": 0.43976709246635437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5081331133842468,
      "epoch": 7.91,
      "learning_rate": 2.6239824671258613e-05,
      "loss": 0.615,
      "step": 9364,
      "task_loss": 0.2826498746871948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1123449802398682,
      "epoch": 7.92,
      "learning_rate": 2.6236693800876645e-05,
      "loss": 0.6374,
      "step": 9365,
      "task_loss": 0.6675984859466553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9791793823242188,
      "epoch": 7.92,
      "learning_rate": 2.6233562930494676e-05,
      "loss": 0.5453,
      "step": 9366,
      "task_loss": 0.7215614914894104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8511583805084229,
      "epoch": 7.92,
      "learning_rate": 2.6230432060112715e-05,
      "loss": 0.6961,
      "step": 9367,
      "task_loss": 0.6191051602363586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37676307559013367,
      "epoch": 7.92,
      "learning_rate": 2.6227301189730747e-05,
      "loss": 0.7975,
      "step": 9368,
      "task_loss": 0.3966169059276581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6009849309921265,
      "epoch": 7.92,
      "learning_rate": 2.622417031934878e-05,
      "loss": 0.6546,
      "step": 9369,
      "task_loss": 1.25436532497406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4462031424045563,
      "epoch": 7.92,
      "learning_rate": 2.6221039448966817e-05,
      "loss": 0.7007,
      "step": 9370,
      "task_loss": 0.6118512749671936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.462983638048172,
      "epoch": 7.92,
      "learning_rate": 2.621790857858485e-05,
      "loss": 0.6377,
      "step": 9371,
      "task_loss": 1.085371732711792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32398712635040283,
      "epoch": 7.92,
      "learning_rate": 2.621477770820288e-05,
      "loss": 0.5868,
      "step": 9372,
      "task_loss": 0.5320574641227722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47642120718955994,
      "epoch": 7.92,
      "learning_rate": 2.6211646837820912e-05,
      "loss": 0.6429,
      "step": 9373,
      "task_loss": 1.2664083242416382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8522099852561951,
      "epoch": 7.92,
      "learning_rate": 2.620851596743895e-05,
      "loss": 0.6298,
      "step": 9374,
      "task_loss": 0.9169889092445374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4387223720550537,
      "epoch": 7.92,
      "learning_rate": 2.6205385097056983e-05,
      "loss": 0.7189,
      "step": 9375,
      "task_loss": 0.8078044652938843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5148763656616211,
      "epoch": 7.93,
      "learning_rate": 2.6202254226675015e-05,
      "loss": 0.6839,
      "step": 9376,
      "task_loss": 1.0820128917694092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5897771120071411,
      "epoch": 7.93,
      "learning_rate": 2.619912335629305e-05,
      "loss": 0.9341,
      "step": 9377,
      "task_loss": 0.3495389521121979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.928942084312439,
      "epoch": 7.93,
      "learning_rate": 2.6195992485911085e-05,
      "loss": 0.7479,
      "step": 9378,
      "task_loss": 1.052635669708252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5640789270401001,
      "epoch": 7.93,
      "learning_rate": 2.619286161552912e-05,
      "loss": 0.655,
      "step": 9379,
      "task_loss": 1.1689515113830566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7048307657241821,
      "epoch": 7.93,
      "learning_rate": 2.6189730745147152e-05,
      "loss": 0.7856,
      "step": 9380,
      "task_loss": 1.123335599899292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.544011116027832,
      "epoch": 7.93,
      "learning_rate": 2.6186599874765187e-05,
      "loss": 0.5522,
      "step": 9381,
      "task_loss": 0.13520658016204834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26411330699920654,
      "epoch": 7.93,
      "learning_rate": 2.6183469004383222e-05,
      "loss": 0.3892,
      "step": 9382,
      "task_loss": 0.250189870595932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0258244276046753,
      "epoch": 7.93,
      "learning_rate": 2.6180338134001254e-05,
      "loss": 0.7696,
      "step": 9383,
      "task_loss": 1.0003072023391724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49534711241722107,
      "epoch": 7.93,
      "learning_rate": 2.6177207263619286e-05,
      "loss": 0.7138,
      "step": 9384,
      "task_loss": 0.7372139692306519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.410172700881958,
      "epoch": 7.93,
      "learning_rate": 2.6174076393237324e-05,
      "loss": 0.5329,
      "step": 9385,
      "task_loss": 0.9143943190574646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105179786682129,
      "epoch": 7.93,
      "learning_rate": 2.6170945522855356e-05,
      "loss": 0.6036,
      "step": 9386,
      "task_loss": 1.2219114303588867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5780544877052307,
      "epoch": 7.93,
      "learning_rate": 2.6167814652473388e-05,
      "loss": 0.6325,
      "step": 9387,
      "task_loss": 0.346829354763031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5846349000930786,
      "epoch": 7.94,
      "learning_rate": 2.616468378209142e-05,
      "loss": 0.658,
      "step": 9388,
      "task_loss": 1.2064036130905151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46985170245170593,
      "epoch": 7.94,
      "learning_rate": 2.6161552911709458e-05,
      "loss": 0.4141,
      "step": 9389,
      "task_loss": 0.40717899799346924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0399644374847412,
      "epoch": 7.94,
      "learning_rate": 2.615842204132749e-05,
      "loss": 0.589,
      "step": 9390,
      "task_loss": 0.6739776730537415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7163761854171753,
      "epoch": 7.94,
      "learning_rate": 2.6155291170945522e-05,
      "loss": 0.6142,
      "step": 9391,
      "task_loss": 1.5287554264068604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4507385492324829,
      "epoch": 7.94,
      "learning_rate": 2.6152160300563554e-05,
      "loss": 0.7075,
      "step": 9392,
      "task_loss": 0.3624308109283447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5673612356185913,
      "epoch": 7.94,
      "learning_rate": 2.6149029430181592e-05,
      "loss": 0.5238,
      "step": 9393,
      "task_loss": 0.7195814847946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2776908576488495,
      "epoch": 7.94,
      "learning_rate": 2.6145898559799624e-05,
      "loss": 0.6082,
      "step": 9394,
      "task_loss": 0.009602994658052921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1521052122116089,
      "epoch": 7.94,
      "learning_rate": 2.614276768941766e-05,
      "loss": 0.8695,
      "step": 9395,
      "task_loss": 1.7038264274597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5769229531288147,
      "epoch": 7.94,
      "learning_rate": 2.6139636819035694e-05,
      "loss": 0.6069,
      "step": 9396,
      "task_loss": 1.1659736633300781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.741196870803833,
      "epoch": 7.94,
      "learning_rate": 2.613650594865373e-05,
      "loss": 0.5766,
      "step": 9397,
      "task_loss": 0.7894127368927002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7883368134498596,
      "epoch": 7.94,
      "learning_rate": 2.613337507827176e-05,
      "loss": 0.696,
      "step": 9398,
      "task_loss": 2.7792344093322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6554974913597107,
      "epoch": 7.94,
      "learning_rate": 2.6130244207889793e-05,
      "loss": 0.6543,
      "step": 9399,
      "task_loss": 0.5316829681396484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.515598714351654,
      "epoch": 7.95,
      "learning_rate": 2.612711333750783e-05,
      "loss": 0.6316,
      "step": 9400,
      "task_loss": 1.1673476696014404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36086446046829224,
      "epoch": 7.95,
      "learning_rate": 2.6123982467125863e-05,
      "loss": 0.5346,
      "step": 9401,
      "task_loss": 0.09114090353250504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42424049973487854,
      "epoch": 7.95,
      "learning_rate": 2.6120851596743895e-05,
      "loss": 0.6503,
      "step": 9402,
      "task_loss": 1.5616929531097412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5498998165130615,
      "epoch": 7.95,
      "learning_rate": 2.6117720726361927e-05,
      "loss": 0.7337,
      "step": 9403,
      "task_loss": 0.47391027212142944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6231445670127869,
      "epoch": 7.95,
      "learning_rate": 2.6114589855979965e-05,
      "loss": 0.7413,
      "step": 9404,
      "task_loss": 0.7035879492759705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37753087282180786,
      "epoch": 7.95,
      "learning_rate": 2.6111458985597997e-05,
      "loss": 0.7168,
      "step": 9405,
      "task_loss": 0.20330378413200378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7276468276977539,
      "epoch": 7.95,
      "learning_rate": 2.610832811521603e-05,
      "loss": 0.6702,
      "step": 9406,
      "task_loss": 0.4897690415382385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3416674733161926,
      "epoch": 7.95,
      "learning_rate": 2.6105197244834068e-05,
      "loss": 0.5369,
      "step": 9407,
      "task_loss": 0.30747827887535095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5749080777168274,
      "epoch": 7.95,
      "learning_rate": 2.61020663744521e-05,
      "loss": 0.6022,
      "step": 9408,
      "task_loss": 0.38317736983299255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5247406363487244,
      "epoch": 7.95,
      "learning_rate": 2.609893550407013e-05,
      "loss": 0.6314,
      "step": 9409,
      "task_loss": 0.48993104696273804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6031020879745483,
      "epoch": 7.95,
      "learning_rate": 2.6095804633688163e-05,
      "loss": 0.6664,
      "step": 9410,
      "task_loss": 0.5743944048881531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4987487196922302,
      "epoch": 7.95,
      "learning_rate": 2.60926737633062e-05,
      "loss": 0.4467,
      "step": 9411,
      "task_loss": 0.14106020331382751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6303673982620239,
      "epoch": 7.96,
      "learning_rate": 2.6089542892924233e-05,
      "loss": 0.684,
      "step": 9412,
      "task_loss": 0.6038556098937988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3771728277206421,
      "epoch": 7.96,
      "learning_rate": 2.608641202254227e-05,
      "loss": 0.4651,
      "step": 9413,
      "task_loss": 0.4619561731815338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7802491188049316,
      "epoch": 7.96,
      "learning_rate": 2.60832811521603e-05,
      "loss": 0.7372,
      "step": 9414,
      "task_loss": 0.35579031705856323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48948347568511963,
      "epoch": 7.96,
      "learning_rate": 2.608015028177834e-05,
      "loss": 0.6069,
      "step": 9415,
      "task_loss": 1.4515137672424316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7085574269294739,
      "epoch": 7.96,
      "learning_rate": 2.607701941139637e-05,
      "loss": 0.5628,
      "step": 9416,
      "task_loss": 0.7701581120491028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4865577816963196,
      "epoch": 7.96,
      "learning_rate": 2.6073888541014402e-05,
      "loss": 0.5074,
      "step": 9417,
      "task_loss": 0.5167707800865173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5602061748504639,
      "epoch": 7.96,
      "learning_rate": 2.607075767063244e-05,
      "loss": 0.7044,
      "step": 9418,
      "task_loss": 0.8063457608222961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6498192548751831,
      "epoch": 7.96,
      "learning_rate": 2.6067626800250473e-05,
      "loss": 0.7601,
      "step": 9419,
      "task_loss": 0.9463391900062561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5575873851776123,
      "epoch": 7.96,
      "learning_rate": 2.6064495929868504e-05,
      "loss": 0.5556,
      "step": 9420,
      "task_loss": 0.7187119722366333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7753435373306274,
      "epoch": 7.96,
      "learning_rate": 2.6061365059486536e-05,
      "loss": 0.5645,
      "step": 9421,
      "task_loss": 0.5484713912010193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.502394437789917,
      "epoch": 7.96,
      "learning_rate": 2.6058234189104575e-05,
      "loss": 0.9315,
      "step": 9422,
      "task_loss": 1.021091341972351
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8097443580627441,
      "epoch": 7.96,
      "learning_rate": 2.6055103318722607e-05,
      "loss": 0.598,
      "step": 9423,
      "task_loss": 1.0966875553131104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5386875867843628,
      "epoch": 7.97,
      "learning_rate": 2.6051972448340638e-05,
      "loss": 0.5672,
      "step": 9424,
      "task_loss": 0.37331894040107727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6949682235717773,
      "epoch": 7.97,
      "learning_rate": 2.604884157795867e-05,
      "loss": 0.6849,
      "step": 9425,
      "task_loss": 1.0116904973983765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3641091287136078,
      "epoch": 7.97,
      "learning_rate": 2.604571070757671e-05,
      "loss": 0.5954,
      "step": 9426,
      "task_loss": 0.06732720136642456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6232872605323792,
      "epoch": 7.97,
      "learning_rate": 2.604257983719474e-05,
      "loss": 0.5796,
      "step": 9427,
      "task_loss": 0.8872344493865967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.048365831375122,
      "epoch": 7.97,
      "learning_rate": 2.6039448966812776e-05,
      "loss": 0.7284,
      "step": 9428,
      "task_loss": 0.9888719320297241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34838905930519104,
      "epoch": 7.97,
      "learning_rate": 2.603631809643081e-05,
      "loss": 0.6091,
      "step": 9429,
      "task_loss": 0.42238640785217285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6488430500030518,
      "epoch": 7.97,
      "learning_rate": 2.6033187226048843e-05,
      "loss": 0.5601,
      "step": 9430,
      "task_loss": 0.967505156993866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44708067178726196,
      "epoch": 7.97,
      "learning_rate": 2.6030056355666878e-05,
      "loss": 0.7107,
      "step": 9431,
      "task_loss": 0.058820124715566635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8617878556251526,
      "epoch": 7.97,
      "learning_rate": 2.602692548528491e-05,
      "loss": 0.6604,
      "step": 9432,
      "task_loss": 0.2620382010936737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9152582883834839,
      "epoch": 7.97,
      "learning_rate": 2.6023794614902948e-05,
      "loss": 0.694,
      "step": 9433,
      "task_loss": 1.3064684867858887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5423201322555542,
      "epoch": 7.97,
      "learning_rate": 2.602066374452098e-05,
      "loss": 0.5231,
      "step": 9434,
      "task_loss": 0.8099385499954224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5063750147819519,
      "epoch": 7.97,
      "learning_rate": 2.601753287413901e-05,
      "loss": 0.7752,
      "step": 9435,
      "task_loss": 0.13737323880195618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6110212206840515,
      "epoch": 7.98,
      "learning_rate": 2.6014402003757043e-05,
      "loss": 0.8173,
      "step": 9436,
      "task_loss": 0.8579599261283875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8041408061981201,
      "epoch": 7.98,
      "learning_rate": 2.6011271133375082e-05,
      "loss": 0.7977,
      "step": 9437,
      "task_loss": 0.9621957540512085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42480766773223877,
      "epoch": 7.98,
      "learning_rate": 2.6008140262993114e-05,
      "loss": 0.584,
      "step": 9438,
      "task_loss": 0.6029318571090698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47893577814102173,
      "epoch": 7.98,
      "learning_rate": 2.6005009392611146e-05,
      "loss": 0.6231,
      "step": 9439,
      "task_loss": 0.7587630748748779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5024349093437195,
      "epoch": 7.98,
      "learning_rate": 2.6001878522229177e-05,
      "loss": 0.6414,
      "step": 9440,
      "task_loss": 0.735466718673706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5382870435714722,
      "epoch": 7.98,
      "learning_rate": 2.5998747651847216e-05,
      "loss": 0.5021,
      "step": 9441,
      "task_loss": 0.4793981611728668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5290486812591553,
      "epoch": 7.98,
      "learning_rate": 2.5995616781465248e-05,
      "loss": 0.692,
      "step": 9442,
      "task_loss": 0.9503871202468872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5836115479469299,
      "epoch": 7.98,
      "learning_rate": 2.599248591108328e-05,
      "loss": 0.696,
      "step": 9443,
      "task_loss": 1.128892421722412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47441017627716064,
      "epoch": 7.98,
      "learning_rate": 2.5989355040701318e-05,
      "loss": 0.5504,
      "step": 9444,
      "task_loss": 0.3044808506965637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26005038619041443,
      "epoch": 7.98,
      "learning_rate": 2.598622417031935e-05,
      "loss": 0.6115,
      "step": 9445,
      "task_loss": 0.7386947870254517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4791017770767212,
      "epoch": 7.98,
      "learning_rate": 2.5983093299937385e-05,
      "loss": 0.4328,
      "step": 9446,
      "task_loss": 1.3789352178573608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.210294246673584,
      "epoch": 7.99,
      "learning_rate": 2.5979962429555417e-05,
      "loss": 0.6871,
      "step": 9447,
      "task_loss": 0.7353560924530029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5890647768974304,
      "epoch": 7.99,
      "learning_rate": 2.5976831559173452e-05,
      "loss": 0.8074,
      "step": 9448,
      "task_loss": 0.6747661232948303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7244791388511658,
      "epoch": 7.99,
      "learning_rate": 2.5973700688791487e-05,
      "loss": 0.7915,
      "step": 9449,
      "task_loss": 1.2220650911331177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4652203321456909,
      "epoch": 7.99,
      "learning_rate": 2.597056981840952e-05,
      "loss": 0.6277,
      "step": 9450,
      "task_loss": 0.31935709714889526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4284331798553467,
      "epoch": 7.99,
      "learning_rate": 2.596743894802755e-05,
      "loss": 0.5825,
      "step": 9451,
      "task_loss": 1.1488032341003418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6096150279045105,
      "epoch": 7.99,
      "learning_rate": 2.596430807764559e-05,
      "loss": 0.6413,
      "step": 9452,
      "task_loss": 0.9601779580116272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4133976697921753,
      "epoch": 7.99,
      "learning_rate": 2.596117720726362e-05,
      "loss": 0.5555,
      "step": 9453,
      "task_loss": 0.7433341145515442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44403427839279175,
      "epoch": 7.99,
      "learning_rate": 2.5958046336881653e-05,
      "loss": 0.6117,
      "step": 9454,
      "task_loss": 0.7075508236885071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5410842895507812,
      "epoch": 7.99,
      "learning_rate": 2.595491546649969e-05,
      "loss": 0.5694,
      "step": 9455,
      "task_loss": 1.1951857805252075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5486364364624023,
      "epoch": 7.99,
      "learning_rate": 2.5951784596117723e-05,
      "loss": 0.6251,
      "step": 9456,
      "task_loss": 0.2176392376422882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6250971555709839,
      "epoch": 7.99,
      "learning_rate": 2.5948653725735755e-05,
      "loss": 0.5612,
      "step": 9457,
      "task_loss": 0.7093429565429688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.612447202205658,
      "epoch": 7.99,
      "learning_rate": 2.5945522855353787e-05,
      "loss": 0.6523,
      "step": 9458,
      "task_loss": 0.3964165449142456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9440664052963257,
      "epoch": 8.0,
      "learning_rate": 2.5942391984971825e-05,
      "loss": 0.6894,
      "step": 9459,
      "task_loss": 0.5693852305412292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6208261251449585,
      "epoch": 8.0,
      "learning_rate": 2.5939261114589857e-05,
      "loss": 0.6969,
      "step": 9460,
      "task_loss": 0.7996400594711304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0801990032196045,
      "epoch": 8.0,
      "learning_rate": 2.593613024420789e-05,
      "loss": 0.7062,
      "step": 9461,
      "task_loss": 1.0872877836227417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8959672451019287,
      "epoch": 8.0,
      "learning_rate": 2.5932999373825924e-05,
      "loss": 0.7018,
      "step": 9462,
      "task_loss": 1.5299794673919678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8990058302879333,
      "epoch": 8.0,
      "learning_rate": 2.592986850344396e-05,
      "loss": 0.8051,
      "step": 9463,
      "task_loss": 1.4390032291412354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7602263689041138,
      "epoch": 8.0,
      "learning_rate": 2.5926737633061994e-05,
      "loss": 0.4792,
      "step": 9464,
      "task_loss": 0.531136691570282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40493297576904297,
      "epoch": 8.0,
      "learning_rate": 2.5923606762680026e-05,
      "loss": 1.3156,
      "step": 9465,
      "task_loss": 0.20418496429920197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4805058240890503,
      "epoch": 8.0,
      "learning_rate": 2.592047589229806e-05,
      "loss": 0.5107,
      "step": 9466,
      "task_loss": 0.22030767798423767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3272056579589844,
      "epoch": 8.0,
      "learning_rate": 2.5917345021916096e-05,
      "loss": 0.7194,
      "step": 9467,
      "task_loss": 0.9305848479270935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7627222537994385,
      "epoch": 8.0,
      "learning_rate": 2.5914214151534128e-05,
      "loss": 0.6304,
      "step": 9468,
      "task_loss": 1.5871202945709229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6400711536407471,
      "epoch": 8.0,
      "learning_rate": 2.591108328115216e-05,
      "loss": 0.7058,
      "step": 9469,
      "task_loss": 0.38720619678497314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5041638612747192,
      "epoch": 8.01,
      "learning_rate": 2.59079524107702e-05,
      "loss": 0.5197,
      "step": 9470,
      "task_loss": 0.7368938326835632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7635452747344971,
      "epoch": 8.01,
      "learning_rate": 2.590482154038823e-05,
      "loss": 0.6637,
      "step": 9471,
      "task_loss": 0.7752496004104614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9043078422546387,
      "epoch": 8.01,
      "learning_rate": 2.5901690670006262e-05,
      "loss": 0.8578,
      "step": 9472,
      "task_loss": 0.6429308652877808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5908634662628174,
      "epoch": 8.01,
      "learning_rate": 2.5898559799624294e-05,
      "loss": 0.593,
      "step": 9473,
      "task_loss": 1.114374041557312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5358446836471558,
      "epoch": 8.01,
      "learning_rate": 2.5895428929242332e-05,
      "loss": 0.754,
      "step": 9474,
      "task_loss": 0.5739922523498535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4911760985851288,
      "epoch": 8.01,
      "learning_rate": 2.5892298058860364e-05,
      "loss": 0.5911,
      "step": 9475,
      "task_loss": 0.9473483562469482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6584561467170715,
      "epoch": 8.01,
      "learning_rate": 2.5889167188478396e-05,
      "loss": 0.6539,
      "step": 9476,
      "task_loss": 1.2181719541549683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5431656837463379,
      "epoch": 8.01,
      "learning_rate": 2.5886036318096428e-05,
      "loss": 0.7327,
      "step": 9477,
      "task_loss": 0.286673367023468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0166093111038208,
      "epoch": 8.01,
      "learning_rate": 2.5882905447714466e-05,
      "loss": 0.7161,
      "step": 9478,
      "task_loss": 0.5947268605232239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8766754865646362,
      "epoch": 8.01,
      "learning_rate": 2.5879774577332498e-05,
      "loss": 0.6402,
      "step": 9479,
      "task_loss": 0.6928406357765198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.554659366607666,
      "epoch": 8.01,
      "learning_rate": 2.5876643706950533e-05,
      "loss": 0.6538,
      "step": 9480,
      "task_loss": 0.898950457572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9658907055854797,
      "epoch": 8.01,
      "learning_rate": 2.587351283656857e-05,
      "loss": 0.6563,
      "step": 9481,
      "task_loss": 0.6451122164726257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4442984163761139,
      "epoch": 8.02,
      "learning_rate": 2.5870381966186604e-05,
      "loss": 0.6976,
      "step": 9482,
      "task_loss": 0.7318933606147766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0225954055786133,
      "epoch": 8.02,
      "learning_rate": 2.5867251095804635e-05,
      "loss": 0.7959,
      "step": 9483,
      "task_loss": 0.299864262342453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.392708420753479,
      "epoch": 8.02,
      "learning_rate": 2.5864120225422667e-05,
      "loss": 0.5378,
      "step": 9484,
      "task_loss": 0.3352820873260498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5694526433944702,
      "epoch": 8.02,
      "learning_rate": 2.5860989355040706e-05,
      "loss": 0.5262,
      "step": 9485,
      "task_loss": 0.2699090242385864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5054669380187988,
      "epoch": 8.02,
      "learning_rate": 2.5857858484658737e-05,
      "loss": 0.534,
      "step": 9486,
      "task_loss": 1.2129404544830322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196722745895386,
      "epoch": 8.02,
      "learning_rate": 2.585472761427677e-05,
      "loss": 0.6249,
      "step": 9487,
      "task_loss": 0.42092031240463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8780670166015625,
      "epoch": 8.02,
      "learning_rate": 2.58515967438948e-05,
      "loss": 0.5763,
      "step": 9488,
      "task_loss": 1.023160696029663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0897823572158813,
      "epoch": 8.02,
      "learning_rate": 2.584846587351284e-05,
      "loss": 0.6728,
      "step": 9489,
      "task_loss": 2.1009795665740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.684663712978363,
      "epoch": 8.02,
      "learning_rate": 2.584533500313087e-05,
      "loss": 0.7628,
      "step": 9490,
      "task_loss": 1.059114933013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7650578618049622,
      "epoch": 8.02,
      "learning_rate": 2.5842204132748903e-05,
      "loss": 0.715,
      "step": 9491,
      "task_loss": 1.9908535480499268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6482884287834167,
      "epoch": 8.02,
      "learning_rate": 2.5839073262366942e-05,
      "loss": 0.6214,
      "step": 9492,
      "task_loss": 1.0943528413772583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.624677300453186,
      "epoch": 8.02,
      "learning_rate": 2.5835942391984974e-05,
      "loss": 0.8581,
      "step": 9493,
      "task_loss": 0.8004274964332581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7109591364860535,
      "epoch": 8.03,
      "learning_rate": 2.5832811521603005e-05,
      "loss": 0.6102,
      "step": 9494,
      "task_loss": 0.30904605984687805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6413161158561707,
      "epoch": 8.03,
      "learning_rate": 2.5829680651221037e-05,
      "loss": 0.6003,
      "step": 9495,
      "task_loss": 0.6954140663146973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6340187191963196,
      "epoch": 8.03,
      "learning_rate": 2.5826549780839076e-05,
      "loss": 0.5339,
      "step": 9496,
      "task_loss": 0.5692787170410156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7334662079811096,
      "epoch": 8.03,
      "learning_rate": 2.5823418910457107e-05,
      "loss": 0.6078,
      "step": 9497,
      "task_loss": 0.47687798738479614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7268984317779541,
      "epoch": 8.03,
      "learning_rate": 2.5820288040075143e-05,
      "loss": 0.531,
      "step": 9498,
      "task_loss": 0.618720293045044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.51483553647995,
      "epoch": 8.03,
      "learning_rate": 2.5817157169693174e-05,
      "loss": 0.4996,
      "step": 9499,
      "task_loss": 0.2620408535003662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.535693883895874,
      "epoch": 8.03,
      "learning_rate": 2.5814026299311213e-05,
      "loss": 0.6021,
      "step": 9500,
      "task_loss": 1.0126409530639648
    },
    {
      "epoch": 8.03,
      "eval_accuracy": 0.8979009900990099,
      "eval_loss": 0.4202496111392975,
      "eval_runtime": 207.1964,
      "eval_samples_per_second": 121.865,
      "eval_steps_per_second": 0.956,
      "step": 9500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48358774185180664,
      "epoch": 8.03,
      "learning_rate": 2.5810895428929245e-05,
      "loss": 0.5775,
      "step": 9501,
      "task_loss": 0.57383793592453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6048062443733215,
      "epoch": 8.03,
      "learning_rate": 2.5807764558547276e-05,
      "loss": 0.6382,
      "step": 9502,
      "task_loss": 1.2340830564498901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6741732358932495,
      "epoch": 8.03,
      "learning_rate": 2.5804633688165315e-05,
      "loss": 0.5898,
      "step": 9503,
      "task_loss": 0.8179440498352051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9456860423088074,
      "epoch": 8.03,
      "learning_rate": 2.5801502817783347e-05,
      "loss": 0.6483,
      "step": 9504,
      "task_loss": 1.3663380146026611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5779914259910583,
      "epoch": 8.03,
      "learning_rate": 2.579837194740138e-05,
      "loss": 0.6303,
      "step": 9505,
      "task_loss": 0.7185970544815063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7610511779785156,
      "epoch": 8.04,
      "learning_rate": 2.579524107701941e-05,
      "loss": 0.6949,
      "step": 9506,
      "task_loss": 0.5917132496833801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6034567356109619,
      "epoch": 8.04,
      "learning_rate": 2.579211020663745e-05,
      "loss": 0.6168,
      "step": 9507,
      "task_loss": 0.7493675947189331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8272644281387329,
      "epoch": 8.04,
      "learning_rate": 2.578897933625548e-05,
      "loss": 0.6557,
      "step": 9508,
      "task_loss": 1.0381020307540894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5597089529037476,
      "epoch": 8.04,
      "learning_rate": 2.5785848465873513e-05,
      "loss": 0.5871,
      "step": 9509,
      "task_loss": 0.19758839905261993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1473991870880127,
      "epoch": 8.04,
      "learning_rate": 2.5782717595491544e-05,
      "loss": 0.6547,
      "step": 9510,
      "task_loss": 1.5422964096069336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29744890332221985,
      "epoch": 8.04,
      "learning_rate": 2.5779586725109583e-05,
      "loss": 0.5276,
      "step": 9511,
      "task_loss": 0.7286332845687866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27245599031448364,
      "epoch": 8.04,
      "learning_rate": 2.5776455854727615e-05,
      "loss": 0.3935,
      "step": 9512,
      "task_loss": 0.45734575390815735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5940107107162476,
      "epoch": 8.04,
      "learning_rate": 2.577332498434565e-05,
      "loss": 0.4837,
      "step": 9513,
      "task_loss": 1.3543310165405273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4970851242542267,
      "epoch": 8.04,
      "learning_rate": 2.577019411396368e-05,
      "loss": 0.7043,
      "step": 9514,
      "task_loss": 0.6898879408836365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6582046747207642,
      "epoch": 8.04,
      "learning_rate": 2.5767063243581717e-05,
      "loss": 0.6196,
      "step": 9515,
      "task_loss": 0.9002025127410889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42652738094329834,
      "epoch": 8.04,
      "learning_rate": 2.5763932373199752e-05,
      "loss": 0.532,
      "step": 9516,
      "task_loss": 0.49857544898986816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40560728311538696,
      "epoch": 8.04,
      "learning_rate": 2.5760801502817784e-05,
      "loss": 0.5408,
      "step": 9517,
      "task_loss": 0.3382502496242523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9616913795471191,
      "epoch": 8.05,
      "learning_rate": 2.5757670632435822e-05,
      "loss": 0.6746,
      "step": 9518,
      "task_loss": 1.2382404804229736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.611966609954834,
      "epoch": 8.05,
      "learning_rate": 2.5754539762053854e-05,
      "loss": 0.6559,
      "step": 9519,
      "task_loss": 0.9553315043449402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6029883623123169,
      "epoch": 8.05,
      "learning_rate": 2.5751408891671886e-05,
      "loss": 0.5583,
      "step": 9520,
      "task_loss": 0.14849939942359924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8744843006134033,
      "epoch": 8.05,
      "learning_rate": 2.5748278021289918e-05,
      "loss": 0.7241,
      "step": 9521,
      "task_loss": 0.43535900115966797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.153090476989746,
      "epoch": 8.05,
      "learning_rate": 2.5745147150907956e-05,
      "loss": 0.9187,
      "step": 9522,
      "task_loss": 0.8058032393455505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5794163942337036,
      "epoch": 8.05,
      "learning_rate": 2.5742016280525988e-05,
      "loss": 0.7354,
      "step": 9523,
      "task_loss": 0.503695547580719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4858200252056122,
      "epoch": 8.05,
      "learning_rate": 2.573888541014402e-05,
      "loss": 0.8327,
      "step": 9524,
      "task_loss": 0.4191473722457886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3775385618209839,
      "epoch": 8.05,
      "learning_rate": 2.573575453976205e-05,
      "loss": 0.5329,
      "step": 9525,
      "task_loss": 0.6246687173843384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.712108314037323,
      "epoch": 8.05,
      "learning_rate": 2.573262366938009e-05,
      "loss": 0.6411,
      "step": 9526,
      "task_loss": 0.11870142817497253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8974450826644897,
      "epoch": 8.05,
      "learning_rate": 2.5729492798998122e-05,
      "loss": 0.6187,
      "step": 9527,
      "task_loss": 1.290686011314392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030809044837952,
      "epoch": 8.05,
      "learning_rate": 2.5726361928616154e-05,
      "loss": 0.4542,
      "step": 9528,
      "task_loss": 0.7721290588378906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3780890107154846,
      "epoch": 8.05,
      "learning_rate": 2.5723231058234192e-05,
      "loss": 0.6497,
      "step": 9529,
      "task_loss": 0.8706468939781189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5306352376937866,
      "epoch": 8.06,
      "learning_rate": 2.5720100187852224e-05,
      "loss": 0.6317,
      "step": 9530,
      "task_loss": 0.4210657775402069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6945241093635559,
      "epoch": 8.06,
      "learning_rate": 2.571696931747026e-05,
      "loss": 0.6628,
      "step": 9531,
      "task_loss": 0.4057821035385132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8563560247421265,
      "epoch": 8.06,
      "learning_rate": 2.571383844708829e-05,
      "loss": 0.4995,
      "step": 9532,
      "task_loss": 0.3340384364128113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7213001251220703,
      "epoch": 8.06,
      "learning_rate": 2.5710707576706326e-05,
      "loss": 0.6187,
      "step": 9533,
      "task_loss": 0.991081953048706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5799235105514526,
      "epoch": 8.06,
      "learning_rate": 2.570757670632436e-05,
      "loss": 0.6332,
      "step": 9534,
      "task_loss": 1.1296018362045288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7479032278060913,
      "epoch": 8.06,
      "learning_rate": 2.5704445835942393e-05,
      "loss": 0.5621,
      "step": 9535,
      "task_loss": 0.3671419024467468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5578415989875793,
      "epoch": 8.06,
      "learning_rate": 2.5701314965560425e-05,
      "loss": 0.4745,
      "step": 9536,
      "task_loss": 0.3837338984012604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5913974642753601,
      "epoch": 8.06,
      "learning_rate": 2.5698184095178463e-05,
      "loss": 0.4401,
      "step": 9537,
      "task_loss": 0.7473679184913635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6994251012802124,
      "epoch": 8.06,
      "learning_rate": 2.5695053224796495e-05,
      "loss": 0.4842,
      "step": 9538,
      "task_loss": 0.7453098297119141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7720438241958618,
      "epoch": 8.06,
      "learning_rate": 2.5691922354414527e-05,
      "loss": 0.5414,
      "step": 9539,
      "task_loss": 1.5022172927856445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3230380117893219,
      "epoch": 8.06,
      "learning_rate": 2.5688791484032565e-05,
      "loss": 0.628,
      "step": 9540,
      "task_loss": 0.11658510565757751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7793655395507812,
      "epoch": 8.07,
      "learning_rate": 2.5685660613650597e-05,
      "loss": 0.7186,
      "step": 9541,
      "task_loss": 0.6225934028625488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5107183456420898,
      "epoch": 8.07,
      "learning_rate": 2.568252974326863e-05,
      "loss": 0.7468,
      "step": 9542,
      "task_loss": 1.1425209045410156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7070357203483582,
      "epoch": 8.07,
      "learning_rate": 2.567939887288666e-05,
      "loss": 0.7377,
      "step": 9543,
      "task_loss": 0.5094785094261169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6440021991729736,
      "epoch": 8.07,
      "learning_rate": 2.56762680025047e-05,
      "loss": 0.6431,
      "step": 9544,
      "task_loss": 0.5144655108451843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6095285415649414,
      "epoch": 8.07,
      "learning_rate": 2.567313713212273e-05,
      "loss": 0.5927,
      "step": 9545,
      "task_loss": 0.550056517124176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9433820247650146,
      "epoch": 8.07,
      "learning_rate": 2.5670006261740763e-05,
      "loss": 0.7019,
      "step": 9546,
      "task_loss": 1.3092015981674194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5735055804252625,
      "epoch": 8.07,
      "learning_rate": 2.5666875391358798e-05,
      "loss": 0.7936,
      "step": 9547,
      "task_loss": 0.6648797988891602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6498998999595642,
      "epoch": 8.07,
      "learning_rate": 2.5663744520976833e-05,
      "loss": 0.7473,
      "step": 9548,
      "task_loss": 0.8122998476028442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5301042199134827,
      "epoch": 8.07,
      "learning_rate": 2.566061365059487e-05,
      "loss": 0.6938,
      "step": 9549,
      "task_loss": 1.1722551584243774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6366837620735168,
      "epoch": 8.07,
      "learning_rate": 2.56574827802129e-05,
      "loss": 0.6718,
      "step": 9550,
      "task_loss": 0.13064587116241455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6808183789253235,
      "epoch": 8.07,
      "learning_rate": 2.5654351909830932e-05,
      "loss": 0.6107,
      "step": 9551,
      "task_loss": 0.6895596981048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4425044655799866,
      "epoch": 8.07,
      "learning_rate": 2.565122103944897e-05,
      "loss": 0.365,
      "step": 9552,
      "task_loss": 0.7876421213150024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6202681064605713,
      "epoch": 8.08,
      "learning_rate": 2.5648090169067002e-05,
      "loss": 0.6366,
      "step": 9553,
      "task_loss": 0.3348346948623657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7779496908187866,
      "epoch": 8.08,
      "learning_rate": 2.5644959298685034e-05,
      "loss": 0.7076,
      "step": 9554,
      "task_loss": 0.7305543422698975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8965659141540527,
      "epoch": 8.08,
      "learning_rate": 2.5641828428303073e-05,
      "loss": 0.7051,
      "step": 9555,
      "task_loss": 0.9974831342697144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7835591435432434,
      "epoch": 8.08,
      "learning_rate": 2.5638697557921104e-05,
      "loss": 0.5683,
      "step": 9556,
      "task_loss": 0.5769684314727783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5753788948059082,
      "epoch": 8.08,
      "learning_rate": 2.5635566687539136e-05,
      "loss": 0.5816,
      "step": 9557,
      "task_loss": 0.4654757082462311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35605379939079285,
      "epoch": 8.08,
      "learning_rate": 2.5632435817157168e-05,
      "loss": 0.5144,
      "step": 9558,
      "task_loss": 0.31107622385025024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5308482050895691,
      "epoch": 8.08,
      "learning_rate": 2.5629304946775207e-05,
      "loss": 0.6899,
      "step": 9559,
      "task_loss": 0.44707223773002625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5910089612007141,
      "epoch": 8.08,
      "learning_rate": 2.562617407639324e-05,
      "loss": 0.6585,
      "step": 9560,
      "task_loss": 0.7067992687225342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7970684170722961,
      "epoch": 8.08,
      "learning_rate": 2.562304320601127e-05,
      "loss": 0.5841,
      "step": 9561,
      "task_loss": 0.9572331309318542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6173934936523438,
      "epoch": 8.08,
      "learning_rate": 2.5619912335629302e-05,
      "loss": 0.6534,
      "step": 9562,
      "task_loss": 0.29756224155426025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4951367974281311,
      "epoch": 8.08,
      "learning_rate": 2.561678146524734e-05,
      "loss": 0.7064,
      "step": 9563,
      "task_loss": 1.0754907131195068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6889551877975464,
      "epoch": 8.08,
      "learning_rate": 2.5613650594865372e-05,
      "loss": 0.6638,
      "step": 9564,
      "task_loss": 0.9315205216407776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6017736792564392,
      "epoch": 8.09,
      "learning_rate": 2.5610519724483407e-05,
      "loss": 0.7311,
      "step": 9565,
      "task_loss": 0.6515302658081055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5555147528648376,
      "epoch": 8.09,
      "learning_rate": 2.5607388854101443e-05,
      "loss": 0.5795,
      "step": 9566,
      "task_loss": 0.5221213102340698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8576714992523193,
      "epoch": 8.09,
      "learning_rate": 2.5604257983719478e-05,
      "loss": 0.7232,
      "step": 9567,
      "task_loss": 1.3987363576889038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0119340419769287,
      "epoch": 8.09,
      "learning_rate": 2.560112711333751e-05,
      "loss": 0.6977,
      "step": 9568,
      "task_loss": 1.4994897842407227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1301989555358887,
      "epoch": 8.09,
      "learning_rate": 2.559799624295554e-05,
      "loss": 0.8764,
      "step": 9569,
      "task_loss": 1.321608543395996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6715595126152039,
      "epoch": 8.09,
      "learning_rate": 2.559486537257358e-05,
      "loss": 0.7286,
      "step": 9570,
      "task_loss": 1.4764540195465088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9168463945388794,
      "epoch": 8.09,
      "learning_rate": 2.559173450219161e-05,
      "loss": 0.6218,
      "step": 9571,
      "task_loss": 1.6275674104690552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5858972668647766,
      "epoch": 8.09,
      "learning_rate": 2.5588603631809643e-05,
      "loss": 0.6429,
      "step": 9572,
      "task_loss": 0.6500300765037537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8399564027786255,
      "epoch": 8.09,
      "learning_rate": 2.5585472761427675e-05,
      "loss": 0.4252,
      "step": 9573,
      "task_loss": 1.1648294925689697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5321627855300903,
      "epoch": 8.09,
      "learning_rate": 2.5582341891045714e-05,
      "loss": 0.6886,
      "step": 9574,
      "task_loss": 0.36192697286605835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0696601867675781,
      "epoch": 8.09,
      "learning_rate": 2.5579211020663746e-05,
      "loss": 0.8208,
      "step": 9575,
      "task_loss": 0.7199418544769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7306951284408569,
      "epoch": 8.09,
      "learning_rate": 2.5576080150281777e-05,
      "loss": 0.6862,
      "step": 9576,
      "task_loss": 0.7682673931121826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.75617915391922,
      "epoch": 8.1,
      "learning_rate": 2.5572949279899816e-05,
      "loss": 0.5953,
      "step": 9577,
      "task_loss": 0.838303804397583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7792779207229614,
      "epoch": 8.1,
      "learning_rate": 2.5569818409517848e-05,
      "loss": 0.5689,
      "step": 9578,
      "task_loss": 1.0271424055099487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8277554512023926,
      "epoch": 8.1,
      "learning_rate": 2.556668753913588e-05,
      "loss": 0.758,
      "step": 9579,
      "task_loss": 1.0490671396255493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9833515286445618,
      "epoch": 8.1,
      "learning_rate": 2.5563556668753915e-05,
      "loss": 0.6554,
      "step": 9580,
      "task_loss": 0.6816461682319641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7996233105659485,
      "epoch": 8.1,
      "learning_rate": 2.556042579837195e-05,
      "loss": 0.5705,
      "step": 9581,
      "task_loss": 1.0755360126495361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31369146704673767,
      "epoch": 8.1,
      "learning_rate": 2.555729492798998e-05,
      "loss": 0.5092,
      "step": 9582,
      "task_loss": 0.6770860552787781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.578947901725769,
      "epoch": 8.1,
      "learning_rate": 2.5554164057608017e-05,
      "loss": 0.5972,
      "step": 9583,
      "task_loss": 0.9392202496528625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5867350101470947,
      "epoch": 8.1,
      "learning_rate": 2.555103318722605e-05,
      "loss": 0.6754,
      "step": 9584,
      "task_loss": 0.4179498553276062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.245731920003891,
      "epoch": 8.1,
      "learning_rate": 2.5547902316844087e-05,
      "loss": 0.5912,
      "step": 9585,
      "task_loss": 0.4553441107273102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46888723969459534,
      "epoch": 8.1,
      "learning_rate": 2.554477144646212e-05,
      "loss": 0.6222,
      "step": 9586,
      "task_loss": 1.2910476922988892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.668941855430603,
      "epoch": 8.1,
      "learning_rate": 2.554164057608015e-05,
      "loss": 0.554,
      "step": 9587,
      "task_loss": 1.0155181884765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4167858362197876,
      "epoch": 8.1,
      "learning_rate": 2.5538509705698182e-05,
      "loss": 0.8064,
      "step": 9588,
      "task_loss": 1.1315107345581055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45227572321891785,
      "epoch": 8.11,
      "learning_rate": 2.553537883531622e-05,
      "loss": 0.6359,
      "step": 9589,
      "task_loss": 0.16220325231552124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7347128391265869,
      "epoch": 8.11,
      "learning_rate": 2.5532247964934253e-05,
      "loss": 0.5774,
      "step": 9590,
      "task_loss": 0.6392708420753479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5246169567108154,
      "epoch": 8.11,
      "learning_rate": 2.5529117094552285e-05,
      "loss": 0.7192,
      "step": 9591,
      "task_loss": 0.657183825969696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8130521774291992,
      "epoch": 8.11,
      "learning_rate": 2.5525986224170323e-05,
      "loss": 0.6726,
      "step": 9592,
      "task_loss": 1.514998435974121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8547704219818115,
      "epoch": 8.11,
      "learning_rate": 2.5522855353788355e-05,
      "loss": 0.5982,
      "step": 9593,
      "task_loss": 0.8979197144508362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46386539936065674,
      "epoch": 8.11,
      "learning_rate": 2.5519724483406387e-05,
      "loss": 0.6414,
      "step": 9594,
      "task_loss": 0.4809092581272125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8833751678466797,
      "epoch": 8.11,
      "learning_rate": 2.551659361302442e-05,
      "loss": 0.7629,
      "step": 9595,
      "task_loss": 1.017622470855713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7868577241897583,
      "epoch": 8.11,
      "learning_rate": 2.5513462742642457e-05,
      "loss": 0.6774,
      "step": 9596,
      "task_loss": 0.35974374413490295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4300953149795532,
      "epoch": 8.11,
      "learning_rate": 2.551033187226049e-05,
      "loss": 0.4592,
      "step": 9597,
      "task_loss": 0.4454633295536041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45883291959762573,
      "epoch": 8.11,
      "learning_rate": 2.5507201001878524e-05,
      "loss": 0.5351,
      "step": 9598,
      "task_loss": 0.23750022053718567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9552971124649048,
      "epoch": 8.11,
      "learning_rate": 2.5504070131496556e-05,
      "loss": 0.7307,
      "step": 9599,
      "task_loss": 0.2768580913543701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29829153418540955,
      "epoch": 8.11,
      "learning_rate": 2.550093926111459e-05,
      "loss": 0.4871,
      "step": 9600,
      "task_loss": 0.8613899946212769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6438475847244263,
      "epoch": 8.12,
      "learning_rate": 2.5497808390732626e-05,
      "loss": 0.6919,
      "step": 9601,
      "task_loss": 1.2424225807189941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164478421211243,
      "epoch": 8.12,
      "learning_rate": 2.5494677520350658e-05,
      "loss": 0.5019,
      "step": 9602,
      "task_loss": 0.7268494367599487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7925105094909668,
      "epoch": 8.12,
      "learning_rate": 2.5491546649968696e-05,
      "loss": 0.9615,
      "step": 9603,
      "task_loss": 1.6412252187728882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5080054998397827,
      "epoch": 8.12,
      "learning_rate": 2.5488415779586728e-05,
      "loss": 0.4558,
      "step": 9604,
      "task_loss": 0.19533167779445648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7837927341461182,
      "epoch": 8.12,
      "learning_rate": 2.548528490920476e-05,
      "loss": 0.6181,
      "step": 9605,
      "task_loss": 0.8471038341522217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.571692705154419,
      "epoch": 8.12,
      "learning_rate": 2.5482154038822792e-05,
      "loss": 0.5855,
      "step": 9606,
      "task_loss": 0.39977994561195374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4399479627609253,
      "epoch": 8.12,
      "learning_rate": 2.547902316844083e-05,
      "loss": 0.563,
      "step": 9607,
      "task_loss": 0.6484033465385437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8446363210678101,
      "epoch": 8.12,
      "learning_rate": 2.5475892298058862e-05,
      "loss": 0.6362,
      "step": 9608,
      "task_loss": 0.8657239675521851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4532686471939087,
      "epoch": 8.12,
      "learning_rate": 2.5472761427676894e-05,
      "loss": 0.5774,
      "step": 9609,
      "task_loss": 0.11240512877702713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7023826241493225,
      "epoch": 8.12,
      "learning_rate": 2.5469630557294926e-05,
      "loss": 0.5309,
      "step": 9610,
      "task_loss": 1.5416871309280396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7240844964981079,
      "epoch": 8.12,
      "learning_rate": 2.5466499686912964e-05,
      "loss": 0.5956,
      "step": 9611,
      "task_loss": 0.6635152101516724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5511894822120667,
      "epoch": 8.13,
      "learning_rate": 2.5463368816530996e-05,
      "loss": 0.5923,
      "step": 9612,
      "task_loss": 0.16926248371601105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7315818071365356,
      "epoch": 8.13,
      "learning_rate": 2.5460237946149028e-05,
      "loss": 0.7396,
      "step": 9613,
      "task_loss": 0.8151178956031799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4139784872531891,
      "epoch": 8.13,
      "learning_rate": 2.5457107075767066e-05,
      "loss": 0.5352,
      "step": 9614,
      "task_loss": 0.0864553451538086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9371407628059387,
      "epoch": 8.13,
      "learning_rate": 2.5453976205385098e-05,
      "loss": 0.7291,
      "step": 9615,
      "task_loss": 0.6554353833198547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49250197410583496,
      "epoch": 8.13,
      "learning_rate": 2.5450845335003133e-05,
      "loss": 0.4657,
      "step": 9616,
      "task_loss": 1.225512981414795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8915331363677979,
      "epoch": 8.13,
      "learning_rate": 2.5447714464621165e-05,
      "loss": 0.7989,
      "step": 9617,
      "task_loss": 0.7773279547691345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4731777012348175,
      "epoch": 8.13,
      "learning_rate": 2.54445835942392e-05,
      "loss": 0.5119,
      "step": 9618,
      "task_loss": 0.1723177433013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6641817092895508,
      "epoch": 8.13,
      "learning_rate": 2.5441452723857235e-05,
      "loss": 0.7718,
      "step": 9619,
      "task_loss": 1.086281180381775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4389575719833374,
      "epoch": 8.13,
      "learning_rate": 2.5438321853475267e-05,
      "loss": 0.4604,
      "step": 9620,
      "task_loss": 0.9568436145782471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46343883872032166,
      "epoch": 8.13,
      "learning_rate": 2.54351909830933e-05,
      "loss": 0.6942,
      "step": 9621,
      "task_loss": 1.0595747232437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4939122796058655,
      "epoch": 8.13,
      "learning_rate": 2.5432060112711338e-05,
      "loss": 0.6796,
      "step": 9622,
      "task_loss": 0.7629585862159729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3883133828639984,
      "epoch": 8.13,
      "learning_rate": 2.542892924232937e-05,
      "loss": 0.5526,
      "step": 9623,
      "task_loss": 0.41494420170783997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7220919728279114,
      "epoch": 8.14,
      "learning_rate": 2.54257983719474e-05,
      "loss": 0.5812,
      "step": 9624,
      "task_loss": 1.2785509824752808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7011469006538391,
      "epoch": 8.14,
      "learning_rate": 2.5422667501565433e-05,
      "loss": 0.6938,
      "step": 9625,
      "task_loss": 0.27214160561561584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5268486738204956,
      "epoch": 8.14,
      "learning_rate": 2.541953663118347e-05,
      "loss": 0.488,
      "step": 9626,
      "task_loss": 0.09654208272695541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7060502171516418,
      "epoch": 8.14,
      "learning_rate": 2.5416405760801503e-05,
      "loss": 0.718,
      "step": 9627,
      "task_loss": 1.0160988569259644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24678410589694977,
      "epoch": 8.14,
      "learning_rate": 2.5413274890419535e-05,
      "loss": 0.6448,
      "step": 9628,
      "task_loss": 0.032727278769016266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0448825359344482,
      "epoch": 8.14,
      "learning_rate": 2.5410144020037574e-05,
      "loss": 0.7907,
      "step": 9629,
      "task_loss": 1.302258014678955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4778451919555664,
      "epoch": 8.14,
      "learning_rate": 2.5407013149655605e-05,
      "loss": 0.5581,
      "step": 9630,
      "task_loss": 0.6130968928337097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41670066118240356,
      "epoch": 8.14,
      "learning_rate": 2.5403882279273637e-05,
      "loss": 0.4744,
      "step": 9631,
      "task_loss": 0.5596149563789368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5824335813522339,
      "epoch": 8.14,
      "learning_rate": 2.5400751408891672e-05,
      "loss": 0.6759,
      "step": 9632,
      "task_loss": 0.46603837609291077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2820415794849396,
      "epoch": 8.14,
      "learning_rate": 2.5397620538509707e-05,
      "loss": 0.6071,
      "step": 9633,
      "task_loss": 0.24913251399993896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5396164059638977,
      "epoch": 8.14,
      "learning_rate": 2.5394489668127743e-05,
      "loss": 0.8013,
      "step": 9634,
      "task_loss": 0.9894593358039856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.719986617565155,
      "epoch": 8.14,
      "learning_rate": 2.5391358797745774e-05,
      "loss": 0.6673,
      "step": 9635,
      "task_loss": 1.042793869972229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8575578927993774,
      "epoch": 8.15,
      "learning_rate": 2.5388227927363806e-05,
      "loss": 0.7707,
      "step": 9636,
      "task_loss": 0.5016798973083496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9153276681900024,
      "epoch": 8.15,
      "learning_rate": 2.5385097056981845e-05,
      "loss": 0.8139,
      "step": 9637,
      "task_loss": 1.3980708122253418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6774334907531738,
      "epoch": 8.15,
      "learning_rate": 2.5381966186599877e-05,
      "loss": 0.6619,
      "step": 9638,
      "task_loss": 0.6898733377456665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3844747841358185,
      "epoch": 8.15,
      "learning_rate": 2.537883531621791e-05,
      "loss": 0.5771,
      "step": 9639,
      "task_loss": 1.3701329231262207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6570324897766113,
      "epoch": 8.15,
      "learning_rate": 2.5375704445835947e-05,
      "loss": 0.8157,
      "step": 9640,
      "task_loss": 0.5638008713722229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4445846974849701,
      "epoch": 8.15,
      "learning_rate": 2.537257357545398e-05,
      "loss": 0.6955,
      "step": 9641,
      "task_loss": 0.7954586148262024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4245174527168274,
      "epoch": 8.15,
      "learning_rate": 2.536944270507201e-05,
      "loss": 0.5999,
      "step": 9642,
      "task_loss": 0.5617968440055847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46280866861343384,
      "epoch": 8.15,
      "learning_rate": 2.5366311834690042e-05,
      "loss": 0.5405,
      "step": 9643,
      "task_loss": 1.4387035369873047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6392872333526611,
      "epoch": 8.15,
      "learning_rate": 2.536318096430808e-05,
      "loss": 0.4903,
      "step": 9644,
      "task_loss": 0.7769944071769714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5416843891143799,
      "epoch": 8.15,
      "learning_rate": 2.5360050093926113e-05,
      "loss": 0.5815,
      "step": 9645,
      "task_loss": 0.3541070520877838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5261127948760986,
      "epoch": 8.15,
      "learning_rate": 2.5356919223544144e-05,
      "loss": 0.5105,
      "step": 9646,
      "task_loss": 0.2480679303407669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.589089035987854,
      "epoch": 8.15,
      "learning_rate": 2.5353788353162176e-05,
      "loss": 0.7432,
      "step": 9647,
      "task_loss": 0.594060480594635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4982929527759552,
      "epoch": 8.16,
      "learning_rate": 2.5350657482780215e-05,
      "loss": 0.5632,
      "step": 9648,
      "task_loss": 0.9999788999557495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5776656866073608,
      "epoch": 8.16,
      "learning_rate": 2.5347526612398246e-05,
      "loss": 0.6447,
      "step": 9649,
      "task_loss": 0.06691469997167587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4507962167263031,
      "epoch": 8.16,
      "learning_rate": 2.534439574201628e-05,
      "loss": 0.4398,
      "step": 9650,
      "task_loss": 0.43898165225982666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.336259663105011,
      "epoch": 8.16,
      "learning_rate": 2.5341264871634317e-05,
      "loss": 0.5993,
      "step": 9651,
      "task_loss": 1.0443663597106934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9344462752342224,
      "epoch": 8.16,
      "learning_rate": 2.5338134001252352e-05,
      "loss": 0.7764,
      "step": 9652,
      "task_loss": 0.7063491940498352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8438107967376709,
      "epoch": 8.16,
      "learning_rate": 2.5335003130870384e-05,
      "loss": 0.6762,
      "step": 9653,
      "task_loss": 1.0690546035766602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9633786678314209,
      "epoch": 8.16,
      "learning_rate": 2.5331872260488416e-05,
      "loss": 0.7436,
      "step": 9654,
      "task_loss": 1.4770820140838623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5607155561447144,
      "epoch": 8.16,
      "learning_rate": 2.5328741390106454e-05,
      "loss": 0.7628,
      "step": 9655,
      "task_loss": 0.7228819131851196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0833505392074585,
      "epoch": 8.16,
      "learning_rate": 2.5325610519724486e-05,
      "loss": 0.767,
      "step": 9656,
      "task_loss": 0.8650422692298889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3220139443874359,
      "epoch": 8.16,
      "learning_rate": 2.5322479649342518e-05,
      "loss": 0.4939,
      "step": 9657,
      "task_loss": 0.6746513247489929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4000473916530609,
      "epoch": 8.16,
      "learning_rate": 2.531934877896055e-05,
      "loss": 0.5985,
      "step": 9658,
      "task_loss": 0.13283102214336395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5129899978637695,
      "epoch": 8.16,
      "learning_rate": 2.5316217908578588e-05,
      "loss": 0.7289,
      "step": 9659,
      "task_loss": 0.5478000044822693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5531086325645447,
      "epoch": 8.17,
      "learning_rate": 2.531308703819662e-05,
      "loss": 0.6924,
      "step": 9660,
      "task_loss": 1.520575761795044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7721791863441467,
      "epoch": 8.17,
      "learning_rate": 2.530995616781465e-05,
      "loss": 0.7424,
      "step": 9661,
      "task_loss": 1.375849723815918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6192275285720825,
      "epoch": 8.17,
      "learning_rate": 2.530682529743269e-05,
      "loss": 0.5168,
      "step": 9662,
      "task_loss": 0.7607097029685974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2975720167160034,
      "epoch": 8.17,
      "learning_rate": 2.5303694427050722e-05,
      "loss": 0.459,
      "step": 9663,
      "task_loss": 0.06372404098510742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5819917917251587,
      "epoch": 8.17,
      "learning_rate": 2.5300563556668754e-05,
      "loss": 0.619,
      "step": 9664,
      "task_loss": 1.4437073469161987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6770885586738586,
      "epoch": 8.17,
      "learning_rate": 2.529743268628679e-05,
      "loss": 0.7613,
      "step": 9665,
      "task_loss": 1.2764095067977905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5193214416503906,
      "epoch": 8.17,
      "learning_rate": 2.5294301815904824e-05,
      "loss": 0.6322,
      "step": 9666,
      "task_loss": 0.9418734312057495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7502713203430176,
      "epoch": 8.17,
      "learning_rate": 2.5291170945522856e-05,
      "loss": 0.5744,
      "step": 9667,
      "task_loss": 0.8527737259864807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35305190086364746,
      "epoch": 8.17,
      "learning_rate": 2.528804007514089e-05,
      "loss": 0.711,
      "step": 9668,
      "task_loss": 0.2415962666273117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6614627838134766,
      "epoch": 8.17,
      "learning_rate": 2.5284909204758923e-05,
      "loss": 0.9664,
      "step": 9669,
      "task_loss": 0.5813974142074585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38990408182144165,
      "epoch": 8.17,
      "learning_rate": 2.528177833437696e-05,
      "loss": 0.5806,
      "step": 9670,
      "task_loss": 0.9137741923332214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5822473168373108,
      "epoch": 8.17,
      "learning_rate": 2.5278647463994993e-05,
      "loss": 0.7463,
      "step": 9671,
      "task_loss": 0.5298535227775574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.034416913986206,
      "epoch": 8.18,
      "learning_rate": 2.5275516593613025e-05,
      "loss": 0.7411,
      "step": 9672,
      "task_loss": 0.9809331893920898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5049123764038086,
      "epoch": 8.18,
      "learning_rate": 2.5272385723231057e-05,
      "loss": 0.485,
      "step": 9673,
      "task_loss": 0.5540680289268494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8048176169395447,
      "epoch": 8.18,
      "learning_rate": 2.5269254852849095e-05,
      "loss": 0.5597,
      "step": 9674,
      "task_loss": 0.5085134506225586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030750036239624,
      "epoch": 8.18,
      "learning_rate": 2.5266123982467127e-05,
      "loss": 0.4319,
      "step": 9675,
      "task_loss": 0.9866622090339661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7414937615394592,
      "epoch": 8.18,
      "learning_rate": 2.526299311208516e-05,
      "loss": 0.7626,
      "step": 9676,
      "task_loss": 1.0730187892913818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6891570091247559,
      "epoch": 8.18,
      "learning_rate": 2.5259862241703197e-05,
      "loss": 0.5075,
      "step": 9677,
      "task_loss": 0.6283197402954102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4803940951824188,
      "epoch": 8.18,
      "learning_rate": 2.525673137132123e-05,
      "loss": 0.6871,
      "step": 9678,
      "task_loss": 0.7552738785743713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3502376079559326,
      "epoch": 8.18,
      "learning_rate": 2.525360050093926e-05,
      "loss": 0.5182,
      "step": 9679,
      "task_loss": 0.23687584698200226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9172979593276978,
      "epoch": 8.18,
      "learning_rate": 2.5250469630557293e-05,
      "loss": 0.5891,
      "step": 9680,
      "task_loss": 0.2064061462879181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0963844060897827,
      "epoch": 8.18,
      "learning_rate": 2.524733876017533e-05,
      "loss": 0.7393,
      "step": 9681,
      "task_loss": 0.9356691837310791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42726731300354004,
      "epoch": 8.18,
      "learning_rate": 2.5244207889793363e-05,
      "loss": 0.724,
      "step": 9682,
      "task_loss": 0.2098228931427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5561780333518982,
      "epoch": 8.19,
      "learning_rate": 2.5241077019411398e-05,
      "loss": 0.6201,
      "step": 9683,
      "task_loss": 0.41062262654304504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5559496283531189,
      "epoch": 8.19,
      "learning_rate": 2.523794614902943e-05,
      "loss": 0.5537,
      "step": 9684,
      "task_loss": 0.47007325291633606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.624455988407135,
      "epoch": 8.19,
      "learning_rate": 2.5234815278647465e-05,
      "loss": 0.4911,
      "step": 9685,
      "task_loss": 1.0104092359542847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3517225384712219,
      "epoch": 8.19,
      "learning_rate": 2.52316844082655e-05,
      "loss": 0.4943,
      "step": 9686,
      "task_loss": 0.7324825525283813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8056408166885376,
      "epoch": 8.19,
      "learning_rate": 2.5228553537883532e-05,
      "loss": 0.6706,
      "step": 9687,
      "task_loss": 1.4773486852645874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38224703073501587,
      "epoch": 8.19,
      "learning_rate": 2.522542266750157e-05,
      "loss": 0.7189,
      "step": 9688,
      "task_loss": 0.8729695081710815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7384762167930603,
      "epoch": 8.19,
      "learning_rate": 2.5222291797119602e-05,
      "loss": 0.8112,
      "step": 9689,
      "task_loss": 0.633073627948761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4297798275947571,
      "epoch": 8.19,
      "learning_rate": 2.5219160926737634e-05,
      "loss": 0.6124,
      "step": 9690,
      "task_loss": 0.4007762372493744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9344835877418518,
      "epoch": 8.19,
      "learning_rate": 2.5216030056355666e-05,
      "loss": 0.7457,
      "step": 9691,
      "task_loss": 1.1234118938446045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7709020376205444,
      "epoch": 8.19,
      "learning_rate": 2.5212899185973705e-05,
      "loss": 0.8252,
      "step": 9692,
      "task_loss": 0.8488457798957825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30341804027557373,
      "epoch": 8.19,
      "learning_rate": 2.5209768315591736e-05,
      "loss": 0.5516,
      "step": 9693,
      "task_loss": 0.17449010908603668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6301251649856567,
      "epoch": 8.19,
      "learning_rate": 2.5206637445209768e-05,
      "loss": 0.4833,
      "step": 9694,
      "task_loss": 0.4440884590148926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6665301322937012,
      "epoch": 8.2,
      "learning_rate": 2.52035065748278e-05,
      "loss": 0.5638,
      "step": 9695,
      "task_loss": 1.7943780422210693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.831689715385437,
      "epoch": 8.2,
      "learning_rate": 2.520037570444584e-05,
      "loss": 0.7506,
      "step": 9696,
      "task_loss": 0.907779335975647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3005545735359192,
      "epoch": 8.2,
      "learning_rate": 2.519724483406387e-05,
      "loss": 0.5586,
      "step": 9697,
      "task_loss": 0.2898761034011841
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3387804627418518,
      "epoch": 8.2,
      "learning_rate": 2.5194113963681902e-05,
      "loss": 0.6652,
      "step": 9698,
      "task_loss": 0.5504265427589417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3477489650249481,
      "epoch": 8.2,
      "learning_rate": 2.519098309329994e-05,
      "loss": 0.5171,
      "step": 9699,
      "task_loss": 0.6322521567344666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.654631495475769,
      "epoch": 8.2,
      "learning_rate": 2.5187852222917972e-05,
      "loss": 0.504,
      "step": 9700,
      "task_loss": 0.5685202479362488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5869540572166443,
      "epoch": 8.2,
      "learning_rate": 2.5184721352536008e-05,
      "loss": 0.6,
      "step": 9701,
      "task_loss": 0.5295785665512085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5934743285179138,
      "epoch": 8.2,
      "learning_rate": 2.518159048215404e-05,
      "loss": 0.5002,
      "step": 9702,
      "task_loss": 0.6681454181671143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6447452306747437,
      "epoch": 8.2,
      "learning_rate": 2.5178459611772074e-05,
      "loss": 0.5964,
      "step": 9703,
      "task_loss": 0.9834814071655273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6782992482185364,
      "epoch": 8.2,
      "learning_rate": 2.517532874139011e-05,
      "loss": 0.532,
      "step": 9704,
      "task_loss": 0.9407495260238647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5968315601348877,
      "epoch": 8.2,
      "learning_rate": 2.517219787100814e-05,
      "loss": 0.7341,
      "step": 9705,
      "task_loss": 0.9390581846237183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3887748122215271,
      "epoch": 8.2,
      "learning_rate": 2.5169067000626173e-05,
      "loss": 0.6567,
      "step": 9706,
      "task_loss": 1.1213641166687012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2977091372013092,
      "epoch": 8.21,
      "learning_rate": 2.5165936130244212e-05,
      "loss": 0.431,
      "step": 9707,
      "task_loss": 0.48944926261901855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5384232401847839,
      "epoch": 8.21,
      "learning_rate": 2.5162805259862244e-05,
      "loss": 0.5817,
      "step": 9708,
      "task_loss": 0.2208660989999771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5890361070632935,
      "epoch": 8.21,
      "learning_rate": 2.5159674389480275e-05,
      "loss": 0.704,
      "step": 9709,
      "task_loss": 0.5923968553543091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21685370802879333,
      "epoch": 8.21,
      "learning_rate": 2.5156543519098307e-05,
      "loss": 0.5748,
      "step": 9710,
      "task_loss": 0.10080135613679886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9523053169250488,
      "epoch": 8.21,
      "learning_rate": 2.5153412648716346e-05,
      "loss": 0.7474,
      "step": 9711,
      "task_loss": 0.8837370276451111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4278120994567871,
      "epoch": 8.21,
      "learning_rate": 2.5150281778334377e-05,
      "loss": 0.4596,
      "step": 9712,
      "task_loss": 0.459662526845932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.551475465297699,
      "epoch": 8.21,
      "learning_rate": 2.514715090795241e-05,
      "loss": 0.6275,
      "step": 9713,
      "task_loss": 0.5588355660438538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3735628128051758,
      "epoch": 8.21,
      "learning_rate": 2.5144020037570448e-05,
      "loss": 0.5977,
      "step": 9714,
      "task_loss": 0.45972955226898193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.525063693523407,
      "epoch": 8.21,
      "learning_rate": 2.514088916718848e-05,
      "loss": 0.5396,
      "step": 9715,
      "task_loss": 0.59718918800354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25382721424102783,
      "epoch": 8.21,
      "learning_rate": 2.513775829680651e-05,
      "loss": 0.4196,
      "step": 9716,
      "task_loss": 0.298596054315567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6730455756187439,
      "epoch": 8.21,
      "learning_rate": 2.5134627426424547e-05,
      "loss": 0.6617,
      "step": 9717,
      "task_loss": 0.8860340714454651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6133168935775757,
      "epoch": 8.21,
      "learning_rate": 2.513149655604258e-05,
      "loss": 0.6371,
      "step": 9718,
      "task_loss": 0.95582515001297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3021832704544067,
      "epoch": 8.22,
      "learning_rate": 2.5128365685660617e-05,
      "loss": 0.7068,
      "step": 9719,
      "task_loss": 1.3813908100128174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6871944665908813,
      "epoch": 8.22,
      "learning_rate": 2.512523481527865e-05,
      "loss": 0.5303,
      "step": 9720,
      "task_loss": 0.411578506231308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5037197470664978,
      "epoch": 8.22,
      "learning_rate": 2.512210394489668e-05,
      "loss": 0.5508,
      "step": 9721,
      "task_loss": 1.258310317993164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5444134473800659,
      "epoch": 8.22,
      "learning_rate": 2.511897307451472e-05,
      "loss": 0.4807,
      "step": 9722,
      "task_loss": 0.6924225091934204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9285165071487427,
      "epoch": 8.22,
      "learning_rate": 2.511584220413275e-05,
      "loss": 0.7159,
      "step": 9723,
      "task_loss": 1.530746579170227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7767833471298218,
      "epoch": 8.22,
      "learning_rate": 2.5112711333750783e-05,
      "loss": 0.6384,
      "step": 9724,
      "task_loss": 0.6033667325973511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.780463695526123,
      "epoch": 8.22,
      "learning_rate": 2.510958046336882e-05,
      "loss": 0.6029,
      "step": 9725,
      "task_loss": 0.4881612956523895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6265745162963867,
      "epoch": 8.22,
      "learning_rate": 2.5106449592986853e-05,
      "loss": 0.4402,
      "step": 9726,
      "task_loss": 0.24621140956878662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6851193904876709,
      "epoch": 8.22,
      "learning_rate": 2.5103318722604885e-05,
      "loss": 0.4908,
      "step": 9727,
      "task_loss": 1.1177592277526855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.695264458656311,
      "epoch": 8.22,
      "learning_rate": 2.5100187852222916e-05,
      "loss": 0.7591,
      "step": 9728,
      "task_loss": 1.2605290412902832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8009285926818848,
      "epoch": 8.22,
      "learning_rate": 2.5097056981840955e-05,
      "loss": 0.6929,
      "step": 9729,
      "task_loss": 0.5387163162231445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2753615081310272,
      "epoch": 8.22,
      "learning_rate": 2.5093926111458987e-05,
      "loss": 0.3889,
      "step": 9730,
      "task_loss": 0.661942720413208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37279006838798523,
      "epoch": 8.23,
      "learning_rate": 2.509079524107702e-05,
      "loss": 0.5228,
      "step": 9731,
      "task_loss": 0.3500799238681793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36901283264160156,
      "epoch": 8.23,
      "learning_rate": 2.5087664370695054e-05,
      "loss": 0.5869,
      "step": 9732,
      "task_loss": 0.5313740372657776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6581944227218628,
      "epoch": 8.23,
      "learning_rate": 2.508453350031309e-05,
      "loss": 0.6964,
      "step": 9733,
      "task_loss": 0.6531825661659241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7060216069221497,
      "epoch": 8.23,
      "learning_rate": 2.508140262993112e-05,
      "loss": 0.6405,
      "step": 9734,
      "task_loss": 0.8174428343772888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41080838441848755,
      "epoch": 8.23,
      "learning_rate": 2.5078271759549156e-05,
      "loss": 0.5928,
      "step": 9735,
      "task_loss": 0.1935158520936966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6998468041419983,
      "epoch": 8.23,
      "learning_rate": 2.507514088916719e-05,
      "loss": 0.8209,
      "step": 9736,
      "task_loss": 1.4009943008422852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4285593032836914,
      "epoch": 8.23,
      "learning_rate": 2.5072010018785226e-05,
      "loss": 0.6817,
      "step": 9737,
      "task_loss": 0.4511098265647888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40663355588912964,
      "epoch": 8.23,
      "learning_rate": 2.5068879148403258e-05,
      "loss": 0.4785,
      "step": 9738,
      "task_loss": 1.1511794328689575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5158841609954834,
      "epoch": 8.23,
      "learning_rate": 2.506574827802129e-05,
      "loss": 0.4908,
      "step": 9739,
      "task_loss": 1.5321252346038818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9355796575546265,
      "epoch": 8.23,
      "learning_rate": 2.5062617407639328e-05,
      "loss": 0.7805,
      "step": 9740,
      "task_loss": 1.3391231298446655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5939784646034241,
      "epoch": 8.23,
      "learning_rate": 2.505948653725736e-05,
      "loss": 0.6694,
      "step": 9741,
      "task_loss": 0.6121826767921448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6689040660858154,
      "epoch": 8.23,
      "learning_rate": 2.5056355666875392e-05,
      "loss": 0.5078,
      "step": 9742,
      "task_loss": 0.9044114351272583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7162946462631226,
      "epoch": 8.24,
      "learning_rate": 2.5053224796493424e-05,
      "loss": 0.4995,
      "step": 9743,
      "task_loss": 0.9830955266952515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5199261903762817,
      "epoch": 8.24,
      "learning_rate": 2.5050093926111462e-05,
      "loss": 0.6114,
      "step": 9744,
      "task_loss": 0.41753652691841125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45577213168144226,
      "epoch": 8.24,
      "learning_rate": 2.5046963055729494e-05,
      "loss": 0.4151,
      "step": 9745,
      "task_loss": 0.9322614669799805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5690054297447205,
      "epoch": 8.24,
      "learning_rate": 2.5043832185347526e-05,
      "loss": 0.6482,
      "step": 9746,
      "task_loss": 0.6894667744636536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8027087450027466,
      "epoch": 8.24,
      "learning_rate": 2.5040701314965558e-05,
      "loss": 0.6203,
      "step": 9747,
      "task_loss": 1.0763559341430664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5643907785415649,
      "epoch": 8.24,
      "learning_rate": 2.5037570444583596e-05,
      "loss": 0.542,
      "step": 9748,
      "task_loss": 1.3799687623977661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39440640807151794,
      "epoch": 8.24,
      "learning_rate": 2.5034439574201628e-05,
      "loss": 0.5557,
      "step": 9749,
      "task_loss": 0.6879622936248779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5068648457527161,
      "epoch": 8.24,
      "learning_rate": 2.5031308703819663e-05,
      "loss": 0.4259,
      "step": 9750,
      "task_loss": 0.5996882915496826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8313378095626831,
      "epoch": 8.24,
      "learning_rate": 2.5028177833437698e-05,
      "loss": 0.7052,
      "step": 9751,
      "task_loss": 1.4271879196166992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47955000400543213,
      "epoch": 8.24,
      "learning_rate": 2.502504696305573e-05,
      "loss": 0.6307,
      "step": 9752,
      "task_loss": 0.6445948481559753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8037792444229126,
      "epoch": 8.24,
      "learning_rate": 2.5021916092673765e-05,
      "loss": 0.6165,
      "step": 9753,
      "task_loss": 0.5567881464958191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3897264003753662,
      "epoch": 8.24,
      "learning_rate": 2.5018785222291797e-05,
      "loss": 0.4543,
      "step": 9754,
      "task_loss": 0.35491886734962463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3952568769454956,
      "epoch": 8.25,
      "learning_rate": 2.5015654351909836e-05,
      "loss": 0.4875,
      "step": 9755,
      "task_loss": 1.1545878648757935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5054922103881836,
      "epoch": 8.25,
      "learning_rate": 2.5012523481527867e-05,
      "loss": 0.515,
      "step": 9756,
      "task_loss": 0.5881970524787903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5330572724342346,
      "epoch": 8.25,
      "learning_rate": 2.50093926111459e-05,
      "loss": 0.5433,
      "step": 9757,
      "task_loss": 0.9034220576286316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7116758823394775,
      "epoch": 8.25,
      "learning_rate": 2.500626174076393e-05,
      "loss": 0.5214,
      "step": 9758,
      "task_loss": 0.6816636323928833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42546501755714417,
      "epoch": 8.25,
      "learning_rate": 2.500313087038197e-05,
      "loss": 0.4186,
      "step": 9759,
      "task_loss": 0.5598639249801636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27842020988464355,
      "epoch": 8.25,
      "learning_rate": 2.5e-05,
      "loss": 0.4466,
      "step": 9760,
      "task_loss": 0.3172523081302643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8322896957397461,
      "epoch": 8.25,
      "learning_rate": 2.4996869129618036e-05,
      "loss": 0.6107,
      "step": 9761,
      "task_loss": 1.0653760433197021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9027613401412964,
      "epoch": 8.25,
      "learning_rate": 2.4993738259236068e-05,
      "loss": 0.713,
      "step": 9762,
      "task_loss": 0.6902487874031067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4165083169937134,
      "epoch": 8.25,
      "learning_rate": 2.4990607388854103e-05,
      "loss": 0.5594,
      "step": 9763,
      "task_loss": 0.5994189977645874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5048587918281555,
      "epoch": 8.25,
      "learning_rate": 2.4987476518472135e-05,
      "loss": 0.7399,
      "step": 9764,
      "task_loss": 0.47846612334251404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4988597333431244,
      "epoch": 8.25,
      "learning_rate": 2.498434564809017e-05,
      "loss": 0.4251,
      "step": 9765,
      "task_loss": 0.8319604396820068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.617461621761322,
      "epoch": 8.26,
      "learning_rate": 2.4981214777708202e-05,
      "loss": 0.7457,
      "step": 9766,
      "task_loss": 0.7916346192359924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.446189284324646,
      "epoch": 8.26,
      "learning_rate": 2.4978083907326237e-05,
      "loss": 0.6142,
      "step": 9767,
      "task_loss": 0.0719948410987854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7715965509414673,
      "epoch": 8.26,
      "learning_rate": 2.4974953036944272e-05,
      "loss": 0.6097,
      "step": 9768,
      "task_loss": 0.5898035764694214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9232056140899658,
      "epoch": 8.26,
      "learning_rate": 2.4971822166562308e-05,
      "loss": 0.7637,
      "step": 9769,
      "task_loss": 0.8287847638130188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7511048316955566,
      "epoch": 8.26,
      "learning_rate": 2.496869129618034e-05,
      "loss": 0.7581,
      "step": 9770,
      "task_loss": 0.875433087348938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9275923371315002,
      "epoch": 8.26,
      "learning_rate": 2.4965560425798375e-05,
      "loss": 0.6748,
      "step": 9771,
      "task_loss": 1.1024384498596191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8835299611091614,
      "epoch": 8.26,
      "learning_rate": 2.4962429555416406e-05,
      "loss": 0.6811,
      "step": 9772,
      "task_loss": 0.6389249563217163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3322923481464386,
      "epoch": 8.26,
      "learning_rate": 2.495929868503444e-05,
      "loss": 0.523,
      "step": 9773,
      "task_loss": 0.10774056613445282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6005110740661621,
      "epoch": 8.26,
      "learning_rate": 2.4956167814652477e-05,
      "loss": 0.7037,
      "step": 9774,
      "task_loss": 0.6089823246002197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.289539635181427,
      "epoch": 8.26,
      "learning_rate": 2.495303694427051e-05,
      "loss": 0.5155,
      "step": 9775,
      "task_loss": 0.6378463506698608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8447316884994507,
      "epoch": 8.26,
      "learning_rate": 2.4949906073888544e-05,
      "loss": 0.5385,
      "step": 9776,
      "task_loss": 1.0898407697677612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3522007167339325,
      "epoch": 8.26,
      "learning_rate": 2.4946775203506575e-05,
      "loss": 0.6297,
      "step": 9777,
      "task_loss": 0.34557488560676575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45411217212677,
      "epoch": 8.27,
      "learning_rate": 2.494364433312461e-05,
      "loss": 0.6143,
      "step": 9778,
      "task_loss": 0.5791823267936707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5594055652618408,
      "epoch": 8.27,
      "learning_rate": 2.4940513462742642e-05,
      "loss": 0.6921,
      "step": 9779,
      "task_loss": 0.7267779111862183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.370950847864151,
      "epoch": 8.27,
      "learning_rate": 2.4937382592360677e-05,
      "loss": 0.5133,
      "step": 9780,
      "task_loss": 0.062184982001781464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.586974024772644,
      "epoch": 8.27,
      "learning_rate": 2.493425172197871e-05,
      "loss": 0.6772,
      "step": 9781,
      "task_loss": 0.4926864802837372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4595065116882324,
      "epoch": 8.27,
      "learning_rate": 2.4931120851596744e-05,
      "loss": 0.5703,
      "step": 9782,
      "task_loss": 0.5684661865234375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.522114098072052,
      "epoch": 8.27,
      "learning_rate": 2.4927989981214776e-05,
      "loss": 0.5526,
      "step": 9783,
      "task_loss": 1.1456571817398071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7290828824043274,
      "epoch": 8.27,
      "learning_rate": 2.492485911083281e-05,
      "loss": 0.4901,
      "step": 9784,
      "task_loss": 0.9151787757873535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47360944747924805,
      "epoch": 8.27,
      "learning_rate": 2.4921728240450847e-05,
      "loss": 0.6254,
      "step": 9785,
      "task_loss": 0.9127264618873596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9442384839057922,
      "epoch": 8.27,
      "learning_rate": 2.4918597370068882e-05,
      "loss": 0.7879,
      "step": 9786,
      "task_loss": 0.6726751923561096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7030582427978516,
      "epoch": 8.27,
      "learning_rate": 2.4915466499686917e-05,
      "loss": 0.6473,
      "step": 9787,
      "task_loss": 0.9800394773483276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6978806853294373,
      "epoch": 8.27,
      "learning_rate": 2.491233562930495e-05,
      "loss": 0.7229,
      "step": 9788,
      "task_loss": 0.621996283531189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6398156881332397,
      "epoch": 8.27,
      "learning_rate": 2.4909204758922984e-05,
      "loss": 0.6498,
      "step": 9789,
      "task_loss": 0.8311284184455872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6060096025466919,
      "epoch": 8.28,
      "learning_rate": 2.4906073888541016e-05,
      "loss": 0.7353,
      "step": 9790,
      "task_loss": 1.0580732822418213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5791722536087036,
      "epoch": 8.28,
      "learning_rate": 2.490294301815905e-05,
      "loss": 0.7514,
      "step": 9791,
      "task_loss": 1.3705590963363647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8838489651679993,
      "epoch": 8.28,
      "learning_rate": 2.4899812147777083e-05,
      "loss": 0.6007,
      "step": 9792,
      "task_loss": 2.0057320594787598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5771565437316895,
      "epoch": 8.28,
      "learning_rate": 2.4896681277395118e-05,
      "loss": 0.5672,
      "step": 9793,
      "task_loss": 0.6778990030288696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4481932520866394,
      "epoch": 8.28,
      "learning_rate": 2.489355040701315e-05,
      "loss": 0.4802,
      "step": 9794,
      "task_loss": 0.5558140873908997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6865863800048828,
      "epoch": 8.28,
      "learning_rate": 2.4890419536631185e-05,
      "loss": 0.5807,
      "step": 9795,
      "task_loss": 1.336366891860962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6308372020721436,
      "epoch": 8.28,
      "learning_rate": 2.4887288666249216e-05,
      "loss": 0.7172,
      "step": 9796,
      "task_loss": 0.8156384229660034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7888388633728027,
      "epoch": 8.28,
      "learning_rate": 2.488415779586725e-05,
      "loss": 0.6356,
      "step": 9797,
      "task_loss": 0.6191509366035461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4926626980304718,
      "epoch": 8.28,
      "learning_rate": 2.4881026925485287e-05,
      "loss": 0.4349,
      "step": 9798,
      "task_loss": 0.03461359068751335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6761987209320068,
      "epoch": 8.28,
      "learning_rate": 2.487789605510332e-05,
      "loss": 0.6501,
      "step": 9799,
      "task_loss": 0.5202962756156921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0001249313354492,
      "epoch": 8.28,
      "learning_rate": 2.4874765184721354e-05,
      "loss": 0.5901,
      "step": 9800,
      "task_loss": 1.032617449760437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4301905930042267,
      "epoch": 8.28,
      "learning_rate": 2.4871634314339386e-05,
      "loss": 0.5714,
      "step": 9801,
      "task_loss": 0.8728812336921692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36374250054359436,
      "epoch": 8.29,
      "learning_rate": 2.486850344395742e-05,
      "loss": 0.5214,
      "step": 9802,
      "task_loss": 0.7105289101600647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5905493497848511,
      "epoch": 8.29,
      "learning_rate": 2.4865372573575456e-05,
      "loss": 0.5964,
      "step": 9803,
      "task_loss": 0.2358376532793045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40099385380744934,
      "epoch": 8.29,
      "learning_rate": 2.486224170319349e-05,
      "loss": 0.4617,
      "step": 9804,
      "task_loss": 0.5151045918464661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.560271680355072,
      "epoch": 8.29,
      "learning_rate": 2.4859110832811523e-05,
      "loss": 0.6567,
      "step": 9805,
      "task_loss": 0.45720091462135315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6772330403327942,
      "epoch": 8.29,
      "learning_rate": 2.4855979962429558e-05,
      "loss": 0.5291,
      "step": 9806,
      "task_loss": 1.3350905179977417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24696660041809082,
      "epoch": 8.29,
      "learning_rate": 2.485284909204759e-05,
      "loss": 0.6288,
      "step": 9807,
      "task_loss": 0.6429446339607239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196793675422668,
      "epoch": 8.29,
      "learning_rate": 2.4849718221665625e-05,
      "loss": 0.4752,
      "step": 9808,
      "task_loss": 0.43215757608413696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.646846354007721,
      "epoch": 8.29,
      "learning_rate": 2.4846587351283657e-05,
      "loss": 0.8215,
      "step": 9809,
      "task_loss": 1.4600716829299927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.803666353225708,
      "epoch": 8.29,
      "learning_rate": 2.4843456480901692e-05,
      "loss": 0.5307,
      "step": 9810,
      "task_loss": 0.903242290019989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43563300371170044,
      "epoch": 8.29,
      "learning_rate": 2.4840325610519727e-05,
      "loss": 0.4953,
      "step": 9811,
      "task_loss": 0.43490755558013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.59868985414505,
      "epoch": 8.29,
      "learning_rate": 2.483719474013776e-05,
      "loss": 0.6484,
      "step": 9812,
      "task_loss": 0.6087547540664673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31849607825279236,
      "epoch": 8.29,
      "learning_rate": 2.4834063869755794e-05,
      "loss": 0.4534,
      "step": 9813,
      "task_loss": 0.26377278566360474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.578727126121521,
      "epoch": 8.3,
      "learning_rate": 2.4830932999373826e-05,
      "loss": 0.6984,
      "step": 9814,
      "task_loss": 0.6595275402069092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8201743364334106,
      "epoch": 8.3,
      "learning_rate": 2.482780212899186e-05,
      "loss": 0.6974,
      "step": 9815,
      "task_loss": 0.4420449137687683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7716559171676636,
      "epoch": 8.3,
      "learning_rate": 2.4824671258609893e-05,
      "loss": 0.5462,
      "step": 9816,
      "task_loss": 0.9571405649185181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48683983087539673,
      "epoch": 8.3,
      "learning_rate": 2.4821540388227928e-05,
      "loss": 0.6399,
      "step": 9817,
      "task_loss": 0.37899547815322876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25826671719551086,
      "epoch": 8.3,
      "learning_rate": 2.481840951784596e-05,
      "loss": 0.5003,
      "step": 9818,
      "task_loss": 1.1129982471466064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42819541692733765,
      "epoch": 8.3,
      "learning_rate": 2.4815278647463995e-05,
      "loss": 0.7256,
      "step": 9819,
      "task_loss": 0.5075312852859497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35246962308883667,
      "epoch": 8.3,
      "learning_rate": 2.481214777708203e-05,
      "loss": 0.4882,
      "step": 9820,
      "task_loss": 1.0756168365478516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9138228893280029,
      "epoch": 8.3,
      "learning_rate": 2.4809016906700065e-05,
      "loss": 0.6041,
      "step": 9821,
      "task_loss": 0.9418540000915527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8453227877616882,
      "epoch": 8.3,
      "learning_rate": 2.48058860363181e-05,
      "loss": 0.7089,
      "step": 9822,
      "task_loss": 1.5711437463760376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.846814751625061,
      "epoch": 8.3,
      "learning_rate": 2.4802755165936132e-05,
      "loss": 0.5759,
      "step": 9823,
      "task_loss": 0.717609167098999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205470204353333,
      "epoch": 8.3,
      "learning_rate": 2.4799624295554167e-05,
      "loss": 0.5016,
      "step": 9824,
      "task_loss": 0.7568073272705078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3810436725616455,
      "epoch": 8.3,
      "learning_rate": 2.47964934251722e-05,
      "loss": 0.5267,
      "step": 9825,
      "task_loss": 0.6432167291641235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395567417144775,
      "epoch": 8.31,
      "learning_rate": 2.4793362554790234e-05,
      "loss": 0.572,
      "step": 9826,
      "task_loss": 0.4770897626876831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5763996839523315,
      "epoch": 8.31,
      "learning_rate": 2.4790231684408266e-05,
      "loss": 0.5513,
      "step": 9827,
      "task_loss": 0.18301555514335632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5889967679977417,
      "epoch": 8.31,
      "learning_rate": 2.47871008140263e-05,
      "loss": 0.7693,
      "step": 9828,
      "task_loss": 0.8509719371795654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4895634353160858,
      "epoch": 8.31,
      "learning_rate": 2.4783969943644333e-05,
      "loss": 0.4969,
      "step": 9829,
      "task_loss": 0.5889846086502075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6162539720535278,
      "epoch": 8.31,
      "learning_rate": 2.4780839073262368e-05,
      "loss": 0.5706,
      "step": 9830,
      "task_loss": 0.6609732508659363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23041072487831116,
      "epoch": 8.31,
      "learning_rate": 2.47777082028804e-05,
      "loss": 0.6049,
      "step": 9831,
      "task_loss": 0.4625551104545593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.514205276966095,
      "epoch": 8.31,
      "learning_rate": 2.4774577332498435e-05,
      "loss": 0.4153,
      "step": 9832,
      "task_loss": 0.6173587441444397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6452626585960388,
      "epoch": 8.31,
      "learning_rate": 2.4771446462116467e-05,
      "loss": 0.6064,
      "step": 9833,
      "task_loss": 0.8224924802780151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7317449450492859,
      "epoch": 8.31,
      "learning_rate": 2.4768315591734502e-05,
      "loss": 0.7362,
      "step": 9834,
      "task_loss": 0.3640364110469818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4431402385234833,
      "epoch": 8.31,
      "learning_rate": 2.4765184721352537e-05,
      "loss": 0.5029,
      "step": 9835,
      "task_loss": 0.4230149984359741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7061294317245483,
      "epoch": 8.31,
      "learning_rate": 2.4762053850970572e-05,
      "loss": 0.8085,
      "step": 9836,
      "task_loss": 0.685654878616333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6785064339637756,
      "epoch": 8.32,
      "learning_rate": 2.4758922980588604e-05,
      "loss": 0.6537,
      "step": 9837,
      "task_loss": 0.7557619214057922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5097963213920593,
      "epoch": 8.32,
      "learning_rate": 2.475579211020664e-05,
      "loss": 0.7413,
      "step": 9838,
      "task_loss": 0.8827743530273438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5368660092353821,
      "epoch": 8.32,
      "learning_rate": 2.4752661239824675e-05,
      "loss": 0.6517,
      "step": 9839,
      "task_loss": 0.47442033886909485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5106333494186401,
      "epoch": 8.32,
      "learning_rate": 2.4749530369442706e-05,
      "loss": 0.6059,
      "step": 9840,
      "task_loss": 0.6703458428382874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5872725248336792,
      "epoch": 8.32,
      "learning_rate": 2.474639949906074e-05,
      "loss": 0.5007,
      "step": 9841,
      "task_loss": 0.8153627514839172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2969198226928711,
      "epoch": 8.32,
      "learning_rate": 2.4743268628678773e-05,
      "loss": 0.4252,
      "step": 9842,
      "task_loss": 0.3649481534957886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6012288331985474,
      "epoch": 8.32,
      "learning_rate": 2.474013775829681e-05,
      "loss": 0.7112,
      "step": 9843,
      "task_loss": 0.7785567045211792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7293040752410889,
      "epoch": 8.32,
      "learning_rate": 2.473700688791484e-05,
      "loss": 0.5862,
      "step": 9844,
      "task_loss": 0.583050012588501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4419546127319336,
      "epoch": 8.32,
      "learning_rate": 2.4733876017532875e-05,
      "loss": 0.7271,
      "step": 9845,
      "task_loss": 0.2402992695569992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6005607843399048,
      "epoch": 8.32,
      "learning_rate": 2.473074514715091e-05,
      "loss": 0.6238,
      "step": 9846,
      "task_loss": 1.16754150390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.789362907409668,
      "epoch": 8.32,
      "learning_rate": 2.4727614276768942e-05,
      "loss": 0.7373,
      "step": 9847,
      "task_loss": 0.4799686372280121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3846607804298401,
      "epoch": 8.32,
      "learning_rate": 2.4724483406386978e-05,
      "loss": 0.4133,
      "step": 9848,
      "task_loss": 0.47650423645973206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9437605142593384,
      "epoch": 8.33,
      "learning_rate": 2.472135253600501e-05,
      "loss": 0.5426,
      "step": 9849,
      "task_loss": 0.9442684650421143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9144519567489624,
      "epoch": 8.33,
      "learning_rate": 2.4718221665623044e-05,
      "loss": 0.6273,
      "step": 9850,
      "task_loss": 1.1353188753128052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6332501173019409,
      "epoch": 8.33,
      "learning_rate": 2.4715090795241076e-05,
      "loss": 0.5556,
      "step": 9851,
      "task_loss": 0.8133047223091125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5231428146362305,
      "epoch": 8.33,
      "learning_rate": 2.471195992485911e-05,
      "loss": 0.5109,
      "step": 9852,
      "task_loss": 0.5231909155845642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8956202864646912,
      "epoch": 8.33,
      "learning_rate": 2.4708829054477147e-05,
      "loss": 0.7053,
      "step": 9853,
      "task_loss": 0.675145149230957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1399009227752686,
      "epoch": 8.33,
      "learning_rate": 2.4705698184095182e-05,
      "loss": 0.6794,
      "step": 9854,
      "task_loss": 1.0677565336227417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5294022560119629,
      "epoch": 8.33,
      "learning_rate": 2.4702567313713214e-05,
      "loss": 0.6131,
      "step": 9855,
      "task_loss": 0.6205459833145142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4171682596206665,
      "epoch": 8.33,
      "learning_rate": 2.469943644333125e-05,
      "loss": 0.5023,
      "step": 9856,
      "task_loss": 0.037686292082071304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8402076959609985,
      "epoch": 8.33,
      "learning_rate": 2.469630557294928e-05,
      "loss": 0.6469,
      "step": 9857,
      "task_loss": 0.5891963839530945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5141419172286987,
      "epoch": 8.33,
      "learning_rate": 2.4693174702567316e-05,
      "loss": 0.5572,
      "step": 9858,
      "task_loss": 0.7667086720466614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6158074736595154,
      "epoch": 8.33,
      "learning_rate": 2.469004383218535e-05,
      "loss": 0.5794,
      "step": 9859,
      "task_loss": 0.3401864469051361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4195372760295868,
      "epoch": 8.33,
      "learning_rate": 2.4686912961803383e-05,
      "loss": 0.6774,
      "step": 9860,
      "task_loss": 1.0835553407669067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4078543782234192,
      "epoch": 8.34,
      "learning_rate": 2.4683782091421418e-05,
      "loss": 0.6458,
      "step": 9861,
      "task_loss": 0.2916333079338074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34048277139663696,
      "epoch": 8.34,
      "learning_rate": 2.468065122103945e-05,
      "loss": 0.7472,
      "step": 9862,
      "task_loss": 0.7828197479248047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293551325798035,
      "epoch": 8.34,
      "learning_rate": 2.4677520350657485e-05,
      "loss": 0.539,
      "step": 9863,
      "task_loss": 0.7441173195838928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5367777347564697,
      "epoch": 8.34,
      "learning_rate": 2.4674389480275517e-05,
      "loss": 0.58,
      "step": 9864,
      "task_loss": 0.3959091007709503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35975193977355957,
      "epoch": 8.34,
      "learning_rate": 2.467125860989355e-05,
      "loss": 0.5073,
      "step": 9865,
      "task_loss": 0.23721276223659515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828965783119202,
      "epoch": 8.34,
      "learning_rate": 2.4668127739511583e-05,
      "loss": 0.6859,
      "step": 9866,
      "task_loss": 0.9274908304214478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40985533595085144,
      "epoch": 8.34,
      "learning_rate": 2.466499686912962e-05,
      "loss": 0.5682,
      "step": 9867,
      "task_loss": 0.18314972519874573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5380086898803711,
      "epoch": 8.34,
      "learning_rate": 2.466186599874765e-05,
      "loss": 0.5556,
      "step": 9868,
      "task_loss": 0.6917690634727478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463570356369019,
      "epoch": 8.34,
      "learning_rate": 2.4658735128365686e-05,
      "loss": 0.5163,
      "step": 9869,
      "task_loss": 0.16490790247917175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6575272083282471,
      "epoch": 8.34,
      "learning_rate": 2.465560425798372e-05,
      "loss": 0.5537,
      "step": 9870,
      "task_loss": 0.8246152997016907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33709871768951416,
      "epoch": 8.34,
      "learning_rate": 2.4652473387601756e-05,
      "loss": 0.3581,
      "step": 9871,
      "task_loss": 0.7172170281410217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6032953262329102,
      "epoch": 8.34,
      "learning_rate": 2.464934251721979e-05,
      "loss": 0.6673,
      "step": 9872,
      "task_loss": 0.42482560873031616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4876018762588501,
      "epoch": 8.35,
      "learning_rate": 2.4646211646837823e-05,
      "loss": 0.5915,
      "step": 9873,
      "task_loss": 0.7916715145111084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3742116093635559,
      "epoch": 8.35,
      "learning_rate": 2.4643080776455858e-05,
      "loss": 0.7431,
      "step": 9874,
      "task_loss": 0.6383658051490784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6789668798446655,
      "epoch": 8.35,
      "learning_rate": 2.463994990607389e-05,
      "loss": 0.6481,
      "step": 9875,
      "task_loss": 1.7623684406280518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4184691309928894,
      "epoch": 8.35,
      "learning_rate": 2.4636819035691925e-05,
      "loss": 0.4883,
      "step": 9876,
      "task_loss": 0.06622372567653656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21534386277198792,
      "epoch": 8.35,
      "learning_rate": 2.4633688165309957e-05,
      "loss": 0.4421,
      "step": 9877,
      "task_loss": 0.4368375837802887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6860195398330688,
      "epoch": 8.35,
      "learning_rate": 2.4630557294927992e-05,
      "loss": 0.5637,
      "step": 9878,
      "task_loss": 0.8221977353096008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29188886284828186,
      "epoch": 8.35,
      "learning_rate": 2.4627426424546024e-05,
      "loss": 0.3283,
      "step": 9879,
      "task_loss": 0.0759565532207489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21478693187236786,
      "epoch": 8.35,
      "learning_rate": 2.462429555416406e-05,
      "loss": 0.5437,
      "step": 9880,
      "task_loss": 0.4772525131702423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6138417720794678,
      "epoch": 8.35,
      "learning_rate": 2.462116468378209e-05,
      "loss": 0.7148,
      "step": 9881,
      "task_loss": 0.34902307391166687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7106969952583313,
      "epoch": 8.35,
      "learning_rate": 2.4618033813400126e-05,
      "loss": 0.6,
      "step": 9882,
      "task_loss": 0.7208659648895264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7422816753387451,
      "epoch": 8.35,
      "learning_rate": 2.461490294301816e-05,
      "loss": 0.5683,
      "step": 9883,
      "task_loss": 0.897875964641571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5673907995223999,
      "epoch": 8.35,
      "learning_rate": 2.4611772072636193e-05,
      "loss": 0.7471,
      "step": 9884,
      "task_loss": 0.5297415256500244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4081304967403412,
      "epoch": 8.36,
      "learning_rate": 2.4608641202254228e-05,
      "loss": 0.4634,
      "step": 9885,
      "task_loss": 0.6357421875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.434589684009552,
      "epoch": 8.36,
      "learning_rate": 2.460551033187226e-05,
      "loss": 0.3888,
      "step": 9886,
      "task_loss": 0.47533607482910156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6000601053237915,
      "epoch": 8.36,
      "learning_rate": 2.4602379461490295e-05,
      "loss": 0.4618,
      "step": 9887,
      "task_loss": 1.30251145362854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5206533074378967,
      "epoch": 8.36,
      "learning_rate": 2.459924859110833e-05,
      "loss": 0.6049,
      "step": 9888,
      "task_loss": 0.8804683685302734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7371069192886353,
      "epoch": 8.36,
      "learning_rate": 2.4596117720726365e-05,
      "loss": 0.7538,
      "step": 9889,
      "task_loss": 0.4413435757160187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41529735922813416,
      "epoch": 8.36,
      "learning_rate": 2.4592986850344397e-05,
      "loss": 0.6814,
      "step": 9890,
      "task_loss": 0.46244531869888306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3115867078304291,
      "epoch": 8.36,
      "learning_rate": 2.4589855979962432e-05,
      "loss": 0.4341,
      "step": 9891,
      "task_loss": 0.30138614773750305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8029758930206299,
      "epoch": 8.36,
      "learning_rate": 2.4586725109580464e-05,
      "loss": 0.7064,
      "step": 9892,
      "task_loss": 0.8548686504364014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4826154112815857,
      "epoch": 8.36,
      "learning_rate": 2.45835942391985e-05,
      "loss": 0.5168,
      "step": 9893,
      "task_loss": 0.7385037541389465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46660467982292175,
      "epoch": 8.36,
      "learning_rate": 2.458046336881653e-05,
      "loss": 0.4911,
      "step": 9894,
      "task_loss": 0.4055531322956085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48844194412231445,
      "epoch": 8.36,
      "learning_rate": 2.4577332498434566e-05,
      "loss": 0.4976,
      "step": 9895,
      "task_loss": 0.4661655128002167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25871533155441284,
      "epoch": 8.36,
      "learning_rate": 2.45742016280526e-05,
      "loss": 0.493,
      "step": 9896,
      "task_loss": 0.6176729798316956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32276540994644165,
      "epoch": 8.37,
      "learning_rate": 2.4571070757670633e-05,
      "loss": 0.4519,
      "step": 9897,
      "task_loss": 0.7840133905410767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46233344078063965,
      "epoch": 8.37,
      "learning_rate": 2.4567939887288668e-05,
      "loss": 0.6279,
      "step": 9898,
      "task_loss": 0.633537769317627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1750200986862183,
      "epoch": 8.37,
      "learning_rate": 2.45648090169067e-05,
      "loss": 0.7871,
      "step": 9899,
      "task_loss": 0.5443633794784546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7930914759635925,
      "epoch": 8.37,
      "learning_rate": 2.4561678146524735e-05,
      "loss": 0.836,
      "step": 9900,
      "task_loss": 1.156526803970337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9664674997329712,
      "epoch": 8.37,
      "learning_rate": 2.4558547276142767e-05,
      "loss": 0.7363,
      "step": 9901,
      "task_loss": 1.19019615650177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7851515412330627,
      "epoch": 8.37,
      "learning_rate": 2.4555416405760802e-05,
      "loss": 0.7644,
      "step": 9902,
      "task_loss": 0.8157622218132019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34464430809020996,
      "epoch": 8.37,
      "learning_rate": 2.4552285535378834e-05,
      "loss": 0.5382,
      "step": 9903,
      "task_loss": 0.1706211417913437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.657658576965332,
      "epoch": 8.37,
      "learning_rate": 2.454915466499687e-05,
      "loss": 0.6409,
      "step": 9904,
      "task_loss": 0.30190494656562805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6913620233535767,
      "epoch": 8.37,
      "learning_rate": 2.4546023794614904e-05,
      "loss": 0.5071,
      "step": 9905,
      "task_loss": 0.30070996284484863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6792372465133667,
      "epoch": 8.37,
      "learning_rate": 2.454289292423294e-05,
      "loss": 0.7744,
      "step": 9906,
      "task_loss": 1.4710584878921509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45893043279647827,
      "epoch": 8.37,
      "learning_rate": 2.453976205385097e-05,
      "loss": 0.5484,
      "step": 9907,
      "task_loss": 0.44546574354171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6444333791732788,
      "epoch": 8.38,
      "learning_rate": 2.4536631183469006e-05,
      "loss": 0.5832,
      "step": 9908,
      "task_loss": 0.909501314163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4099351167678833,
      "epoch": 8.38,
      "learning_rate": 2.453350031308704e-05,
      "loss": 0.6337,
      "step": 9909,
      "task_loss": 1.043605923652649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5520780086517334,
      "epoch": 8.38,
      "learning_rate": 2.4530369442705073e-05,
      "loss": 0.4879,
      "step": 9910,
      "task_loss": 0.47671180963516235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1342377662658691,
      "epoch": 8.38,
      "learning_rate": 2.452723857232311e-05,
      "loss": 0.6362,
      "step": 9911,
      "task_loss": 1.4097089767456055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5928246378898621,
      "epoch": 8.38,
      "learning_rate": 2.452410770194114e-05,
      "loss": 0.4965,
      "step": 9912,
      "task_loss": 0.3586793541908264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3315298557281494,
      "epoch": 8.38,
      "learning_rate": 2.4520976831559175e-05,
      "loss": 0.5426,
      "step": 9913,
      "task_loss": 1.1511166095733643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5311892628669739,
      "epoch": 8.38,
      "learning_rate": 2.4517845961177207e-05,
      "loss": 0.5549,
      "step": 9914,
      "task_loss": 0.5487390160560608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27792179584503174,
      "epoch": 8.38,
      "learning_rate": 2.4514715090795242e-05,
      "loss": 0.5044,
      "step": 9915,
      "task_loss": 0.07966852188110352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6477609276771545,
      "epoch": 8.38,
      "learning_rate": 2.4511584220413274e-05,
      "loss": 0.673,
      "step": 9916,
      "task_loss": 0.44931381940841675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3145618140697479,
      "epoch": 8.38,
      "learning_rate": 2.450845335003131e-05,
      "loss": 0.784,
      "step": 9917,
      "task_loss": 0.25357958674430847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5165849924087524,
      "epoch": 8.38,
      "learning_rate": 2.450532247964934e-05,
      "loss": 0.6877,
      "step": 9918,
      "task_loss": 0.36811959743499756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6639126539230347,
      "epoch": 8.38,
      "learning_rate": 2.4502191609267376e-05,
      "loss": 0.4586,
      "step": 9919,
      "task_loss": 1.0195274353027344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6723572015762329,
      "epoch": 8.39,
      "learning_rate": 2.449906073888541e-05,
      "loss": 0.628,
      "step": 9920,
      "task_loss": 1.3522298336029053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3856327533721924,
      "epoch": 8.39,
      "learning_rate": 2.4495929868503447e-05,
      "loss": 0.4572,
      "step": 9921,
      "task_loss": 0.2986103892326355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2274285852909088,
      "epoch": 8.39,
      "learning_rate": 2.449279899812148e-05,
      "loss": 0.5942,
      "step": 9922,
      "task_loss": 0.42663300037384033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3421671986579895,
      "epoch": 8.39,
      "learning_rate": 2.4489668127739514e-05,
      "loss": 0.5683,
      "step": 9923,
      "task_loss": 0.21007700264453888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3910793960094452,
      "epoch": 8.39,
      "learning_rate": 2.448653725735755e-05,
      "loss": 0.5779,
      "step": 9924,
      "task_loss": 0.5518826842308044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828851938247681,
      "epoch": 8.39,
      "learning_rate": 2.448340638697558e-05,
      "loss": 0.6664,
      "step": 9925,
      "task_loss": 0.7176758050918579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5850119590759277,
      "epoch": 8.39,
      "learning_rate": 2.4480275516593616e-05,
      "loss": 0.5331,
      "step": 9926,
      "task_loss": 0.9597911238670349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6099032163619995,
      "epoch": 8.39,
      "learning_rate": 2.4477144646211647e-05,
      "loss": 0.7603,
      "step": 9927,
      "task_loss": 0.6709460616111755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6014007925987244,
      "epoch": 8.39,
      "learning_rate": 2.4474013775829683e-05,
      "loss": 0.589,
      "step": 9928,
      "task_loss": 0.8610801696777344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49778586626052856,
      "epoch": 8.39,
      "learning_rate": 2.4470882905447714e-05,
      "loss": 0.6271,
      "step": 9929,
      "task_loss": 0.12230429798364639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5932390689849854,
      "epoch": 8.39,
      "learning_rate": 2.446775203506575e-05,
      "loss": 0.5,
      "step": 9930,
      "task_loss": 0.603852391242981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7614178657531738,
      "epoch": 8.39,
      "learning_rate": 2.446462116468378e-05,
      "loss": 0.5277,
      "step": 9931,
      "task_loss": 0.5778088569641113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6240192651748657,
      "epoch": 8.4,
      "learning_rate": 2.4461490294301817e-05,
      "loss": 0.8097,
      "step": 9932,
      "task_loss": 0.6008275151252747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6886321902275085,
      "epoch": 8.4,
      "learning_rate": 2.4458359423919852e-05,
      "loss": 0.5711,
      "step": 9933,
      "task_loss": 0.4352661669254303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.448507159948349,
      "epoch": 8.4,
      "learning_rate": 2.4455228553537883e-05,
      "loss": 0.4347,
      "step": 9934,
      "task_loss": 0.5392898321151733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5317127108573914,
      "epoch": 8.4,
      "learning_rate": 2.445209768315592e-05,
      "loss": 0.4773,
      "step": 9935,
      "task_loss": 0.7487993836402893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3034961223602295,
      "epoch": 8.4,
      "learning_rate": 2.444896681277395e-05,
      "loss": 0.5321,
      "step": 9936,
      "task_loss": 0.08846379816532135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41622430086135864,
      "epoch": 8.4,
      "learning_rate": 2.4445835942391986e-05,
      "loss": 0.5276,
      "step": 9937,
      "task_loss": 0.5625048875808716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4710637331008911,
      "epoch": 8.4,
      "learning_rate": 2.444270507201002e-05,
      "loss": 0.5442,
      "step": 9938,
      "task_loss": 0.34839844703674316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44591912627220154,
      "epoch": 8.4,
      "learning_rate": 2.4439574201628056e-05,
      "loss": 0.5019,
      "step": 9939,
      "task_loss": 0.3428493142127991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7319766283035278,
      "epoch": 8.4,
      "learning_rate": 2.4436443331246088e-05,
      "loss": 0.5354,
      "step": 9940,
      "task_loss": 0.5464314818382263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5178499221801758,
      "epoch": 8.4,
      "learning_rate": 2.4433312460864123e-05,
      "loss": 0.6034,
      "step": 9941,
      "task_loss": 0.5528638958930969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6277734041213989,
      "epoch": 8.4,
      "learning_rate": 2.4430181590482155e-05,
      "loss": 0.6536,
      "step": 9942,
      "task_loss": 0.6893191337585449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3855842053890228,
      "epoch": 8.4,
      "learning_rate": 2.442705072010019e-05,
      "loss": 0.493,
      "step": 9943,
      "task_loss": 0.2892525792121887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3788519501686096,
      "epoch": 8.41,
      "learning_rate": 2.4423919849718225e-05,
      "loss": 0.5061,
      "step": 9944,
      "task_loss": 0.18143777549266815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.455813467502594,
      "epoch": 8.41,
      "learning_rate": 2.4420788979336257e-05,
      "loss": 0.5828,
      "step": 9945,
      "task_loss": 0.3734906017780304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5464104413986206,
      "epoch": 8.41,
      "learning_rate": 2.4417658108954292e-05,
      "loss": 0.8566,
      "step": 9946,
      "task_loss": 0.6741085052490234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43964749574661255,
      "epoch": 8.41,
      "learning_rate": 2.4414527238572324e-05,
      "loss": 0.547,
      "step": 9947,
      "task_loss": 0.9466725587844849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5698896050453186,
      "epoch": 8.41,
      "learning_rate": 2.441139636819036e-05,
      "loss": 0.7493,
      "step": 9948,
      "task_loss": 0.5391853451728821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7117801308631897,
      "epoch": 8.41,
      "learning_rate": 2.440826549780839e-05,
      "loss": 0.7075,
      "step": 9949,
      "task_loss": 1.6436822414398193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3445143699645996,
      "epoch": 8.41,
      "learning_rate": 2.4405134627426426e-05,
      "loss": 0.443,
      "step": 9950,
      "task_loss": 0.219416543841362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.358405590057373,
      "epoch": 8.41,
      "learning_rate": 2.4402003757044458e-05,
      "loss": 0.7483,
      "step": 9951,
      "task_loss": 1.4144647121429443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7176732420921326,
      "epoch": 8.41,
      "learning_rate": 2.4398872886662493e-05,
      "loss": 0.6294,
      "step": 9952,
      "task_loss": 0.5734506845474243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3244240880012512,
      "epoch": 8.41,
      "learning_rate": 2.4395742016280525e-05,
      "loss": 0.4581,
      "step": 9953,
      "task_loss": 0.618253231048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6196889281272888,
      "epoch": 8.41,
      "learning_rate": 2.439261114589856e-05,
      "loss": 0.6069,
      "step": 9954,
      "task_loss": 1.1679439544677734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3547516167163849,
      "epoch": 8.41,
      "learning_rate": 2.4389480275516595e-05,
      "loss": 0.5014,
      "step": 9955,
      "task_loss": 1.1187589168548584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6418308615684509,
      "epoch": 8.42,
      "learning_rate": 2.438634940513463e-05,
      "loss": 0.6135,
      "step": 9956,
      "task_loss": 1.3975107669830322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44960618019104004,
      "epoch": 8.42,
      "learning_rate": 2.4383218534752665e-05,
      "loss": 0.4314,
      "step": 9957,
      "task_loss": 0.46712368726730347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3678209185600281,
      "epoch": 8.42,
      "learning_rate": 2.4380087664370697e-05,
      "loss": 0.499,
      "step": 9958,
      "task_loss": 0.7347737550735474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6811479330062866,
      "epoch": 8.42,
      "learning_rate": 2.4376956793988732e-05,
      "loss": 0.6027,
      "step": 9959,
      "task_loss": 0.9821649193763733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3231372833251953,
      "epoch": 8.42,
      "learning_rate": 2.4373825923606764e-05,
      "loss": 0.5054,
      "step": 9960,
      "task_loss": 0.25403353571891785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8462283611297607,
      "epoch": 8.42,
      "learning_rate": 2.43706950532248e-05,
      "loss": 0.6002,
      "step": 9961,
      "task_loss": 0.34565621614456177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9598999619483948,
      "epoch": 8.42,
      "learning_rate": 2.436756418284283e-05,
      "loss": 0.6388,
      "step": 9962,
      "task_loss": 1.0221996307373047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7037984132766724,
      "epoch": 8.42,
      "learning_rate": 2.4364433312460866e-05,
      "loss": 0.5015,
      "step": 9963,
      "task_loss": 1.7381186485290527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6254231929779053,
      "epoch": 8.42,
      "learning_rate": 2.4361302442078898e-05,
      "loss": 0.8332,
      "step": 9964,
      "task_loss": 1.2084017992019653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3993983268737793,
      "epoch": 8.42,
      "learning_rate": 2.4358171571696933e-05,
      "loss": 0.5726,
      "step": 9965,
      "task_loss": 1.1140997409820557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7023029327392578,
      "epoch": 8.42,
      "learning_rate": 2.4355040701314965e-05,
      "loss": 0.6658,
      "step": 9966,
      "task_loss": 0.3759397864341736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.910719633102417,
      "epoch": 8.42,
      "learning_rate": 2.4351909830933e-05,
      "loss": 0.6888,
      "step": 9967,
      "task_loss": 0.7321150898933411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7067651748657227,
      "epoch": 8.43,
      "learning_rate": 2.4348778960551032e-05,
      "loss": 0.6746,
      "step": 9968,
      "task_loss": 1.856488585472107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7458220720291138,
      "epoch": 8.43,
      "learning_rate": 2.4345648090169067e-05,
      "loss": 0.4836,
      "step": 9969,
      "task_loss": 0.49604514241218567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3404237627983093,
      "epoch": 8.43,
      "learning_rate": 2.4342517219787102e-05,
      "loss": 0.5289,
      "step": 9970,
      "task_loss": 1.1282235383987427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38179469108581543,
      "epoch": 8.43,
      "learning_rate": 2.4339386349405134e-05,
      "loss": 0.4583,
      "step": 9971,
      "task_loss": 0.23799386620521545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.404116153717041,
      "epoch": 8.43,
      "learning_rate": 2.433625547902317e-05,
      "loss": 0.5364,
      "step": 9972,
      "task_loss": 0.47067582607269287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6628414392471313,
      "epoch": 8.43,
      "learning_rate": 2.4333124608641204e-05,
      "loss": 0.6524,
      "step": 9973,
      "task_loss": 1.064932107925415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5949008464813232,
      "epoch": 8.43,
      "learning_rate": 2.432999373825924e-05,
      "loss": 0.5537,
      "step": 9974,
      "task_loss": 1.1405278444290161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5190251469612122,
      "epoch": 8.43,
      "learning_rate": 2.432686286787727e-05,
      "loss": 0.6075,
      "step": 9975,
      "task_loss": 0.5566295385360718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7141621112823486,
      "epoch": 8.43,
      "learning_rate": 2.4323731997495306e-05,
      "loss": 0.6823,
      "step": 9976,
      "task_loss": 0.811552882194519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7980354428291321,
      "epoch": 8.43,
      "learning_rate": 2.4320601127113338e-05,
      "loss": 0.7002,
      "step": 9977,
      "task_loss": 0.8878332376480103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5444315671920776,
      "epoch": 8.43,
      "learning_rate": 2.4317470256731373e-05,
      "loss": 0.5103,
      "step": 9978,
      "task_loss": 0.8267861008644104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5498738288879395,
      "epoch": 8.44,
      "learning_rate": 2.4314339386349405e-05,
      "loss": 0.6799,
      "step": 9979,
      "task_loss": 2.00424861907959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.672055721282959,
      "epoch": 8.44,
      "learning_rate": 2.431120851596744e-05,
      "loss": 0.756,
      "step": 9980,
      "task_loss": 1.1604928970336914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5658978223800659,
      "epoch": 8.44,
      "learning_rate": 2.4308077645585475e-05,
      "loss": 0.5219,
      "step": 9981,
      "task_loss": 0.3493707478046417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9688014984130859,
      "epoch": 8.44,
      "learning_rate": 2.4304946775203507e-05,
      "loss": 0.7177,
      "step": 9982,
      "task_loss": 1.7470383644104004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23485460877418518,
      "epoch": 8.44,
      "learning_rate": 2.4301815904821542e-05,
      "loss": 0.488,
      "step": 9983,
      "task_loss": 0.3482387065887451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5366823673248291,
      "epoch": 8.44,
      "learning_rate": 2.4298685034439574e-05,
      "loss": 0.5734,
      "step": 9984,
      "task_loss": 1.0642200708389282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4551658630371094,
      "epoch": 8.44,
      "learning_rate": 2.429555416405761e-05,
      "loss": 0.655,
      "step": 9985,
      "task_loss": 0.16337250173091888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40326690673828125,
      "epoch": 8.44,
      "learning_rate": 2.429242329367564e-05,
      "loss": 0.535,
      "step": 9986,
      "task_loss": 0.5087176561355591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9036825895309448,
      "epoch": 8.44,
      "learning_rate": 2.4289292423293676e-05,
      "loss": 0.6947,
      "step": 9987,
      "task_loss": 1.3097330331802368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3586169481277466,
      "epoch": 8.44,
      "learning_rate": 2.428616155291171e-05,
      "loss": 0.6005,
      "step": 9988,
      "task_loss": 0.7905902862548828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5670782327651978,
      "epoch": 8.44,
      "learning_rate": 2.4283030682529743e-05,
      "loss": 0.5376,
      "step": 9989,
      "task_loss": 0.6293444633483887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.606636643409729,
      "epoch": 8.44,
      "learning_rate": 2.427989981214778e-05,
      "loss": 0.5831,
      "step": 9990,
      "task_loss": 0.763329803943634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8373957872390747,
      "epoch": 8.45,
      "learning_rate": 2.4276768941765814e-05,
      "loss": 0.7246,
      "step": 9991,
      "task_loss": 0.5222405791282654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0980116128921509,
      "epoch": 8.45,
      "learning_rate": 2.4273638071383845e-05,
      "loss": 0.7213,
      "step": 9992,
      "task_loss": 1.1848018169403076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40121960639953613,
      "epoch": 8.45,
      "learning_rate": 2.427050720100188e-05,
      "loss": 0.7836,
      "step": 9993,
      "task_loss": 0.12637750804424286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7144135236740112,
      "epoch": 8.45,
      "learning_rate": 2.4267376330619916e-05,
      "loss": 0.6367,
      "step": 9994,
      "task_loss": 0.5235933661460876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.666379451751709,
      "epoch": 8.45,
      "learning_rate": 2.4264245460237948e-05,
      "loss": 0.5273,
      "step": 9995,
      "task_loss": 0.6461248993873596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.342473566532135,
      "epoch": 8.45,
      "learning_rate": 2.4261114589855983e-05,
      "loss": 0.6032,
      "step": 9996,
      "task_loss": 0.3875517249107361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8045641183853149,
      "epoch": 8.45,
      "learning_rate": 2.4257983719474014e-05,
      "loss": 0.7739,
      "step": 9997,
      "task_loss": 1.0643842220306396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5942565202713013,
      "epoch": 8.45,
      "learning_rate": 2.425485284909205e-05,
      "loss": 0.5301,
      "step": 9998,
      "task_loss": 0.6240968108177185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0759449005126953,
      "epoch": 8.45,
      "learning_rate": 2.425172197871008e-05,
      "loss": 0.6748,
      "step": 9999,
      "task_loss": 1.446075439453125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7185943722724915,
      "epoch": 8.45,
      "learning_rate": 2.4248591108328117e-05,
      "loss": 0.5617,
      "step": 10000,
      "task_loss": 0.48977795243263245
    },
    {
      "epoch": 8.45,
      "eval_accuracy": 0.9002772277227723,
      "eval_loss": 0.3940442204475403,
      "eval_runtime": 208.9848,
      "eval_samples_per_second": 120.822,
      "eval_steps_per_second": 0.947,
      "step": 10000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4695115387439728,
      "epoch": 8.45,
      "learning_rate": 2.424546023794615e-05,
      "loss": 0.4896,
      "step": 10001,
      "task_loss": 0.8285620808601379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6521762609481812,
      "epoch": 8.45,
      "learning_rate": 2.4242329367564184e-05,
      "loss": 0.6095,
      "step": 10002,
      "task_loss": 0.7066267728805542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43545934557914734,
      "epoch": 8.46,
      "learning_rate": 2.4239198497182215e-05,
      "loss": 0.4137,
      "step": 10003,
      "task_loss": 0.6516613960266113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6728017330169678,
      "epoch": 8.46,
      "learning_rate": 2.423606762680025e-05,
      "loss": 0.6438,
      "step": 10004,
      "task_loss": 0.43445441126823425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4340176582336426,
      "epoch": 8.46,
      "learning_rate": 2.4232936756418286e-05,
      "loss": 0.7331,
      "step": 10005,
      "task_loss": 0.36168721318244934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4232768714427948,
      "epoch": 8.46,
      "learning_rate": 2.422980588603632e-05,
      "loss": 0.4833,
      "step": 10006,
      "task_loss": 0.7519941329956055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8345622420310974,
      "epoch": 8.46,
      "learning_rate": 2.4226675015654353e-05,
      "loss": 0.7483,
      "step": 10007,
      "task_loss": 0.23146821558475494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32085973024368286,
      "epoch": 8.46,
      "learning_rate": 2.4223544145272388e-05,
      "loss": 0.5392,
      "step": 10008,
      "task_loss": 0.4156527519226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6315290331840515,
      "epoch": 8.46,
      "learning_rate": 2.4220413274890423e-05,
      "loss": 0.4606,
      "step": 10009,
      "task_loss": 0.3406989574432373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30340293049812317,
      "epoch": 8.46,
      "learning_rate": 2.4217282404508455e-05,
      "loss": 0.5055,
      "step": 10010,
      "task_loss": 0.5106039643287659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7309026718139648,
      "epoch": 8.46,
      "learning_rate": 2.421415153412649e-05,
      "loss": 0.6509,
      "step": 10011,
      "task_loss": 0.65108722448349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8221062421798706,
      "epoch": 8.46,
      "learning_rate": 2.421102066374452e-05,
      "loss": 0.758,
      "step": 10012,
      "task_loss": 0.9883490204811096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5622241497039795,
      "epoch": 8.46,
      "learning_rate": 2.4207889793362557e-05,
      "loss": 0.6013,
      "step": 10013,
      "task_loss": 0.8154910802841187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7545502781867981,
      "epoch": 8.46,
      "learning_rate": 2.420475892298059e-05,
      "loss": 0.6365,
      "step": 10014,
      "task_loss": 1.3718868494033813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3548926115036011,
      "epoch": 8.47,
      "learning_rate": 2.4201628052598624e-05,
      "loss": 0.6287,
      "step": 10015,
      "task_loss": 0.48067307472229004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6058254837989807,
      "epoch": 8.47,
      "learning_rate": 2.4198497182216656e-05,
      "loss": 0.7065,
      "step": 10016,
      "task_loss": 0.21324816346168518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6380953788757324,
      "epoch": 8.47,
      "learning_rate": 2.419536631183469e-05,
      "loss": 0.7247,
      "step": 10017,
      "task_loss": 0.42369064688682556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6375634074211121,
      "epoch": 8.47,
      "learning_rate": 2.4192235441452726e-05,
      "loss": 0.5986,
      "step": 10018,
      "task_loss": 0.4677978754043579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25553107261657715,
      "epoch": 8.47,
      "learning_rate": 2.4189104571070758e-05,
      "loss": 0.4137,
      "step": 10019,
      "task_loss": 0.20135992765426636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.669151782989502,
      "epoch": 8.47,
      "learning_rate": 2.4185973700688793e-05,
      "loss": 0.716,
      "step": 10020,
      "task_loss": 0.20380055904388428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.576530396938324,
      "epoch": 8.47,
      "learning_rate": 2.4182842830306825e-05,
      "loss": 0.4179,
      "step": 10021,
      "task_loss": 0.1882864087820053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3519124388694763,
      "epoch": 8.47,
      "learning_rate": 2.417971195992486e-05,
      "loss": 0.5184,
      "step": 10022,
      "task_loss": 0.585736870765686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5820249915122986,
      "epoch": 8.47,
      "learning_rate": 2.4176581089542895e-05,
      "loss": 0.5561,
      "step": 10023,
      "task_loss": 1.1234941482543945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5387487411499023,
      "epoch": 8.47,
      "learning_rate": 2.417345021916093e-05,
      "loss": 0.693,
      "step": 10024,
      "task_loss": 0.7885149121284485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6121490597724915,
      "epoch": 8.47,
      "learning_rate": 2.4170319348778962e-05,
      "loss": 0.5819,
      "step": 10025,
      "task_loss": 1.032874584197998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.849434494972229,
      "epoch": 8.47,
      "learning_rate": 2.4167188478396997e-05,
      "loss": 0.6349,
      "step": 10026,
      "task_loss": 0.49951547384262085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6523745059967041,
      "epoch": 8.48,
      "learning_rate": 2.416405760801503e-05,
      "loss": 0.6163,
      "step": 10027,
      "task_loss": 0.950152575969696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6120736598968506,
      "epoch": 8.48,
      "learning_rate": 2.4160926737633064e-05,
      "loss": 0.537,
      "step": 10028,
      "task_loss": 0.9116626977920532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6619846820831299,
      "epoch": 8.48,
      "learning_rate": 2.4157795867251096e-05,
      "loss": 0.7883,
      "step": 10029,
      "task_loss": 0.9125848412513733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4165514409542084,
      "epoch": 8.48,
      "learning_rate": 2.415466499686913e-05,
      "loss": 0.506,
      "step": 10030,
      "task_loss": 0.3042545020580292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.83123779296875,
      "epoch": 8.48,
      "learning_rate": 2.4151534126487166e-05,
      "loss": 0.5891,
      "step": 10031,
      "task_loss": 1.307411551475525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4516924023628235,
      "epoch": 8.48,
      "learning_rate": 2.4148403256105198e-05,
      "loss": 0.6436,
      "step": 10032,
      "task_loss": 0.7145549058914185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7274592518806458,
      "epoch": 8.48,
      "learning_rate": 2.4145272385723233e-05,
      "loss": 0.6287,
      "step": 10033,
      "task_loss": 0.33185163140296936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4643300175666809,
      "epoch": 8.48,
      "learning_rate": 2.4142141515341265e-05,
      "loss": 0.5584,
      "step": 10034,
      "task_loss": 0.5079402923583984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5182172060012817,
      "epoch": 8.48,
      "learning_rate": 2.41390106449593e-05,
      "loss": 0.662,
      "step": 10035,
      "task_loss": 0.5576354265213013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6107136607170105,
      "epoch": 8.48,
      "learning_rate": 2.4135879774577332e-05,
      "loss": 0.5055,
      "step": 10036,
      "task_loss": 0.6720110774040222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43989989161491394,
      "epoch": 8.48,
      "learning_rate": 2.4132748904195367e-05,
      "loss": 0.5675,
      "step": 10037,
      "task_loss": 0.8424568176269531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7813329100608826,
      "epoch": 8.48,
      "learning_rate": 2.41296180338134e-05,
      "loss": 0.6757,
      "step": 10038,
      "task_loss": 0.6108272671699524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6076241731643677,
      "epoch": 8.49,
      "learning_rate": 2.4126487163431434e-05,
      "loss": 0.5644,
      "step": 10039,
      "task_loss": 1.3787912130355835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5449113845825195,
      "epoch": 8.49,
      "learning_rate": 2.412335629304947e-05,
      "loss": 0.5371,
      "step": 10040,
      "task_loss": 0.3515976667404175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47949302196502686,
      "epoch": 8.49,
      "learning_rate": 2.4120225422667504e-05,
      "loss": 0.6352,
      "step": 10041,
      "task_loss": 0.34261560440063477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8516799211502075,
      "epoch": 8.49,
      "learning_rate": 2.4117094552285536e-05,
      "loss": 0.6789,
      "step": 10042,
      "task_loss": 1.3319565057754517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.814790666103363,
      "epoch": 8.49,
      "learning_rate": 2.411396368190357e-05,
      "loss": 0.6965,
      "step": 10043,
      "task_loss": 1.2482868432998657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7649241089820862,
      "epoch": 8.49,
      "learning_rate": 2.4110832811521606e-05,
      "loss": 0.5795,
      "step": 10044,
      "task_loss": 0.8935831785202026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6489366292953491,
      "epoch": 8.49,
      "learning_rate": 2.4107701941139638e-05,
      "loss": 0.6531,
      "step": 10045,
      "task_loss": 0.9061636328697205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8481380343437195,
      "epoch": 8.49,
      "learning_rate": 2.4104571070757673e-05,
      "loss": 0.5394,
      "step": 10046,
      "task_loss": 1.5611951351165771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7463185787200928,
      "epoch": 8.49,
      "learning_rate": 2.4101440200375705e-05,
      "loss": 0.5059,
      "step": 10047,
      "task_loss": 0.8823367953300476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4578933119773865,
      "epoch": 8.49,
      "learning_rate": 2.409830932999374e-05,
      "loss": 0.5355,
      "step": 10048,
      "task_loss": 0.6856697797775269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3959437906742096,
      "epoch": 8.49,
      "learning_rate": 2.4095178459611772e-05,
      "loss": 0.6058,
      "step": 10049,
      "task_loss": 0.39225563406944275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8268585205078125,
      "epoch": 8.5,
      "learning_rate": 2.4092047589229807e-05,
      "loss": 0.5898,
      "step": 10050,
      "task_loss": 0.3212881088256836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37715452909469604,
      "epoch": 8.5,
      "learning_rate": 2.408891671884784e-05,
      "loss": 0.4795,
      "step": 10051,
      "task_loss": 0.15342839062213898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5306301116943359,
      "epoch": 8.5,
      "learning_rate": 2.4085785848465874e-05,
      "loss": 0.6753,
      "step": 10052,
      "task_loss": 0.48091644048690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6271367073059082,
      "epoch": 8.5,
      "learning_rate": 2.4082654978083906e-05,
      "loss": 0.6638,
      "step": 10053,
      "task_loss": 1.0990879535675049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7916500568389893,
      "epoch": 8.5,
      "learning_rate": 2.407952410770194e-05,
      "loss": 0.6897,
      "step": 10054,
      "task_loss": 0.427519291639328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5497397184371948,
      "epoch": 8.5,
      "learning_rate": 2.4076393237319976e-05,
      "loss": 0.5039,
      "step": 10055,
      "task_loss": 0.3319660425186157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6097036600112915,
      "epoch": 8.5,
      "learning_rate": 2.4073262366938008e-05,
      "loss": 0.6168,
      "step": 10056,
      "task_loss": 0.7948583960533142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6388046741485596,
      "epoch": 8.5,
      "learning_rate": 2.4070131496556043e-05,
      "loss": 0.6594,
      "step": 10057,
      "task_loss": 1.332379698753357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061922669410706,
      "epoch": 8.5,
      "learning_rate": 2.406700062617408e-05,
      "loss": 0.7999,
      "step": 10058,
      "task_loss": 0.6815206408500671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6328309774398804,
      "epoch": 8.5,
      "learning_rate": 2.4063869755792114e-05,
      "loss": 0.5189,
      "step": 10059,
      "task_loss": 0.9016672968864441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7039703726768494,
      "epoch": 8.5,
      "learning_rate": 2.4060738885410145e-05,
      "loss": 0.6212,
      "step": 10060,
      "task_loss": 0.2377149760723114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6217050552368164,
      "epoch": 8.5,
      "learning_rate": 2.405760801502818e-05,
      "loss": 0.6962,
      "step": 10061,
      "task_loss": 0.9154659509658813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4088413715362549,
      "epoch": 8.51,
      "learning_rate": 2.4054477144646212e-05,
      "loss": 0.495,
      "step": 10062,
      "task_loss": 0.38036972284317017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5422283411026001,
      "epoch": 8.51,
      "learning_rate": 2.4051346274264248e-05,
      "loss": 0.5549,
      "step": 10063,
      "task_loss": 0.15044796466827393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36089956760406494,
      "epoch": 8.51,
      "learning_rate": 2.404821540388228e-05,
      "loss": 0.451,
      "step": 10064,
      "task_loss": 0.4183090329170227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8278560638427734,
      "epoch": 8.51,
      "learning_rate": 2.4045084533500314e-05,
      "loss": 0.7388,
      "step": 10065,
      "task_loss": 1.2189710140228271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3243861794471741,
      "epoch": 8.51,
      "learning_rate": 2.4041953663118346e-05,
      "loss": 0.6845,
      "step": 10066,
      "task_loss": 0.364583820104599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6037830710411072,
      "epoch": 8.51,
      "learning_rate": 2.403882279273638e-05,
      "loss": 0.7455,
      "step": 10067,
      "task_loss": 0.5041179060935974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40328243374824524,
      "epoch": 8.51,
      "learning_rate": 2.4035691922354417e-05,
      "loss": 0.7154,
      "step": 10068,
      "task_loss": 0.5689697861671448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29852166771888733,
      "epoch": 8.51,
      "learning_rate": 2.403256105197245e-05,
      "loss": 0.4525,
      "step": 10069,
      "task_loss": 0.556950032711029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39268195629119873,
      "epoch": 8.51,
      "learning_rate": 2.4029430181590484e-05,
      "loss": 0.4177,
      "step": 10070,
      "task_loss": 1.085085391998291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4722900390625,
      "epoch": 8.51,
      "learning_rate": 2.4026299311208515e-05,
      "loss": 0.547,
      "step": 10071,
      "task_loss": 0.3280726969242096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5606147646903992,
      "epoch": 8.51,
      "learning_rate": 2.402316844082655e-05,
      "loss": 0.487,
      "step": 10072,
      "task_loss": 0.925628125667572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.703110933303833,
      "epoch": 8.51,
      "learning_rate": 2.4020037570444586e-05,
      "loss": 0.641,
      "step": 10073,
      "task_loss": 0.8123272061347961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6540012359619141,
      "epoch": 8.52,
      "learning_rate": 2.4016906700062617e-05,
      "loss": 0.711,
      "step": 10074,
      "task_loss": 1.0038928985595703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47289371490478516,
      "epoch": 8.52,
      "learning_rate": 2.4013775829680653e-05,
      "loss": 0.5714,
      "step": 10075,
      "task_loss": 0.5560613870620728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5598366260528564,
      "epoch": 8.52,
      "learning_rate": 2.4010644959298688e-05,
      "loss": 0.6244,
      "step": 10076,
      "task_loss": 0.7958265542984009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6754499077796936,
      "epoch": 8.52,
      "learning_rate": 2.400751408891672e-05,
      "loss": 0.7329,
      "step": 10077,
      "task_loss": 0.9756925702095032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48760074377059937,
      "epoch": 8.52,
      "learning_rate": 2.4004383218534755e-05,
      "loss": 0.5337,
      "step": 10078,
      "task_loss": 0.3495398461818695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7756227850914001,
      "epoch": 8.52,
      "learning_rate": 2.400125234815279e-05,
      "loss": 0.6639,
      "step": 10079,
      "task_loss": 0.7953657507896423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8964133858680725,
      "epoch": 8.52,
      "learning_rate": 2.3998121477770822e-05,
      "loss": 0.5806,
      "step": 10080,
      "task_loss": 1.6641080379486084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6283518075942993,
      "epoch": 8.52,
      "learning_rate": 2.3994990607388857e-05,
      "loss": 0.575,
      "step": 10081,
      "task_loss": 0.2374730110168457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4046695828437805,
      "epoch": 8.52,
      "learning_rate": 2.399185973700689e-05,
      "loss": 0.6469,
      "step": 10082,
      "task_loss": 1.0479753017425537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4784066081047058,
      "epoch": 8.52,
      "learning_rate": 2.3988728866624924e-05,
      "loss": 0.8183,
      "step": 10083,
      "task_loss": 0.8701391816139221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5335546731948853,
      "epoch": 8.52,
      "learning_rate": 2.3985597996242956e-05,
      "loss": 0.6281,
      "step": 10084,
      "task_loss": 0.7767938375473022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5283236503601074,
      "epoch": 8.52,
      "learning_rate": 2.398246712586099e-05,
      "loss": 0.613,
      "step": 10085,
      "task_loss": 0.2014520764350891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7104955911636353,
      "epoch": 8.53,
      "learning_rate": 2.3979336255479023e-05,
      "loss": 0.7022,
      "step": 10086,
      "task_loss": 1.0238661766052246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45077240467071533,
      "epoch": 8.53,
      "learning_rate": 2.3976205385097058e-05,
      "loss": 0.6749,
      "step": 10087,
      "task_loss": 0.6980252265930176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7209736108779907,
      "epoch": 8.53,
      "learning_rate": 2.397307451471509e-05,
      "loss": 0.5436,
      "step": 10088,
      "task_loss": 0.7870707511901855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4215553402900696,
      "epoch": 8.53,
      "learning_rate": 2.3969943644333125e-05,
      "loss": 0.4465,
      "step": 10089,
      "task_loss": 1.3785171508789062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5783225297927856,
      "epoch": 8.53,
      "learning_rate": 2.396681277395116e-05,
      "loss": 0.6192,
      "step": 10090,
      "task_loss": 0.956068754196167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5005993843078613,
      "epoch": 8.53,
      "learning_rate": 2.3963681903569195e-05,
      "loss": 0.5378,
      "step": 10091,
      "task_loss": 1.0372499227523804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5231114625930786,
      "epoch": 8.53,
      "learning_rate": 2.3960551033187227e-05,
      "loss": 0.7009,
      "step": 10092,
      "task_loss": 0.375636488199234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7257409691810608,
      "epoch": 8.53,
      "learning_rate": 2.3957420162805262e-05,
      "loss": 0.5055,
      "step": 10093,
      "task_loss": 0.34078606963157654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5953303575515747,
      "epoch": 8.53,
      "learning_rate": 2.3954289292423297e-05,
      "loss": 0.5227,
      "step": 10094,
      "task_loss": 0.26136958599090576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4498937427997589,
      "epoch": 8.53,
      "learning_rate": 2.395115842204133e-05,
      "loss": 0.4785,
      "step": 10095,
      "task_loss": 0.2831118702888489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5362799167633057,
      "epoch": 8.53,
      "learning_rate": 2.3948027551659364e-05,
      "loss": 0.6293,
      "step": 10096,
      "task_loss": 0.52106112241745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4418151378631592,
      "epoch": 8.53,
      "learning_rate": 2.3944896681277396e-05,
      "loss": 0.5312,
      "step": 10097,
      "task_loss": 0.6767556667327881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7232069969177246,
      "epoch": 8.54,
      "learning_rate": 2.394176581089543e-05,
      "loss": 0.4913,
      "step": 10098,
      "task_loss": 1.1303107738494873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39561253786087036,
      "epoch": 8.54,
      "learning_rate": 2.3938634940513463e-05,
      "loss": 0.5336,
      "step": 10099,
      "task_loss": 0.39325106143951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28984320163726807,
      "epoch": 8.54,
      "learning_rate": 2.3935504070131498e-05,
      "loss": 0.4767,
      "step": 10100,
      "task_loss": 0.10505656898021698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6892770528793335,
      "epoch": 8.54,
      "learning_rate": 2.393237319974953e-05,
      "loss": 0.5932,
      "step": 10101,
      "task_loss": 0.6771829128265381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3966529369354248,
      "epoch": 8.54,
      "learning_rate": 2.3929242329367565e-05,
      "loss": 0.5489,
      "step": 10102,
      "task_loss": 0.5574904680252075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3247409462928772,
      "epoch": 8.54,
      "learning_rate": 2.3926111458985597e-05,
      "loss": 0.696,
      "step": 10103,
      "task_loss": 0.1884775608778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5676581263542175,
      "epoch": 8.54,
      "learning_rate": 2.3922980588603632e-05,
      "loss": 0.5702,
      "step": 10104,
      "task_loss": 1.1835283041000366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6025272607803345,
      "epoch": 8.54,
      "learning_rate": 2.3919849718221667e-05,
      "loss": 0.6827,
      "step": 10105,
      "task_loss": 0.7730641961097717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22643622756004333,
      "epoch": 8.54,
      "learning_rate": 2.39167188478397e-05,
      "loss": 0.5675,
      "step": 10106,
      "task_loss": 0.25530001521110535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5551347732543945,
      "epoch": 8.54,
      "learning_rate": 2.3913587977457734e-05,
      "loss": 0.6922,
      "step": 10107,
      "task_loss": 0.49050480127334595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7737491726875305,
      "epoch": 8.54,
      "learning_rate": 2.391045710707577e-05,
      "loss": 0.4991,
      "step": 10108,
      "task_loss": 0.7795315980911255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5023193359375,
      "epoch": 8.54,
      "learning_rate": 2.3907326236693804e-05,
      "loss": 0.6547,
      "step": 10109,
      "task_loss": 0.05789393186569214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6899288296699524,
      "epoch": 8.55,
      "learning_rate": 2.3904195366311836e-05,
      "loss": 0.767,
      "step": 10110,
      "task_loss": 0.9030506610870361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28211578726768494,
      "epoch": 8.55,
      "learning_rate": 2.390106449592987e-05,
      "loss": 0.4335,
      "step": 10111,
      "task_loss": 0.5023936033248901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5140576362609863,
      "epoch": 8.55,
      "learning_rate": 2.3897933625547903e-05,
      "loss": 0.4648,
      "step": 10112,
      "task_loss": 0.505460798740387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40457332134246826,
      "epoch": 8.55,
      "learning_rate": 2.3894802755165938e-05,
      "loss": 0.4105,
      "step": 10113,
      "task_loss": 0.8458707928657532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6769025325775146,
      "epoch": 8.55,
      "learning_rate": 2.389167188478397e-05,
      "loss": 0.6678,
      "step": 10114,
      "task_loss": 1.7988958358764648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7296000719070435,
      "epoch": 8.55,
      "learning_rate": 2.3888541014402005e-05,
      "loss": 0.5592,
      "step": 10115,
      "task_loss": 1.114647626876831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4947141408920288,
      "epoch": 8.55,
      "learning_rate": 2.388541014402004e-05,
      "loss": 0.6461,
      "step": 10116,
      "task_loss": 1.4892443418502808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2927776873111725,
      "epoch": 8.55,
      "learning_rate": 2.3882279273638072e-05,
      "loss": 0.5758,
      "step": 10117,
      "task_loss": 2.2592933177948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5055782794952393,
      "epoch": 8.55,
      "learning_rate": 2.3879148403256107e-05,
      "loss": 0.5012,
      "step": 10118,
      "task_loss": 1.0046498775482178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7998346090316772,
      "epoch": 8.55,
      "learning_rate": 2.387601753287414e-05,
      "loss": 0.6496,
      "step": 10119,
      "task_loss": 0.6706708073616028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36393895745277405,
      "epoch": 8.55,
      "learning_rate": 2.3872886662492174e-05,
      "loss": 0.4271,
      "step": 10120,
      "task_loss": 0.6176459193229675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42988961935043335,
      "epoch": 8.56,
      "learning_rate": 2.3869755792110206e-05,
      "loss": 0.5664,
      "step": 10121,
      "task_loss": 0.7923341989517212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6605059504508972,
      "epoch": 8.56,
      "learning_rate": 2.386662492172824e-05,
      "loss": 0.5254,
      "step": 10122,
      "task_loss": 0.2701987624168396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39452454447746277,
      "epoch": 8.56,
      "learning_rate": 2.3863494051346273e-05,
      "loss": 0.4208,
      "step": 10123,
      "task_loss": 0.7490967512130737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5049225091934204,
      "epoch": 8.56,
      "learning_rate": 2.3860363180964308e-05,
      "loss": 0.5086,
      "step": 10124,
      "task_loss": 0.2576926052570343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2799944579601288,
      "epoch": 8.56,
      "learning_rate": 2.3857232310582343e-05,
      "loss": 0.5589,
      "step": 10125,
      "task_loss": 0.07580314576625824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5126856565475464,
      "epoch": 8.56,
      "learning_rate": 2.385410144020038e-05,
      "loss": 0.5531,
      "step": 10126,
      "task_loss": 0.8502635359764099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5862709879875183,
      "epoch": 8.56,
      "learning_rate": 2.385097056981841e-05,
      "loss": 0.5688,
      "step": 10127,
      "task_loss": 0.45631399750709534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29877597093582153,
      "epoch": 8.56,
      "learning_rate": 2.3847839699436445e-05,
      "loss": 0.4817,
      "step": 10128,
      "task_loss": 0.18970119953155518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3240800201892853,
      "epoch": 8.56,
      "learning_rate": 2.384470882905448e-05,
      "loss": 0.5062,
      "step": 10129,
      "task_loss": 0.36879992485046387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6782348155975342,
      "epoch": 8.56,
      "learning_rate": 2.3841577958672512e-05,
      "loss": 0.6933,
      "step": 10130,
      "task_loss": 0.5239977240562439
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4393279552459717,
      "epoch": 8.56,
      "learning_rate": 2.3838447088290548e-05,
      "loss": 0.6205,
      "step": 10131,
      "task_loss": 0.5055133700370789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6159020066261292,
      "epoch": 8.56,
      "learning_rate": 2.383531621790858e-05,
      "loss": 0.4791,
      "step": 10132,
      "task_loss": 1.5327608585357666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0358376502990723,
      "epoch": 8.57,
      "learning_rate": 2.3832185347526615e-05,
      "loss": 0.6785,
      "step": 10133,
      "task_loss": 0.6536751985549927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.564987063407898,
      "epoch": 8.57,
      "learning_rate": 2.3829054477144646e-05,
      "loss": 0.6899,
      "step": 10134,
      "task_loss": 0.6257984638214111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5802450776100159,
      "epoch": 8.57,
      "learning_rate": 2.382592360676268e-05,
      "loss": 0.6374,
      "step": 10135,
      "task_loss": 0.44522494077682495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7800324559211731,
      "epoch": 8.57,
      "learning_rate": 2.3822792736380713e-05,
      "loss": 0.6189,
      "step": 10136,
      "task_loss": 0.32860732078552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5211220979690552,
      "epoch": 8.57,
      "learning_rate": 2.381966186599875e-05,
      "loss": 0.4826,
      "step": 10137,
      "task_loss": 0.2220020741224289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7728121876716614,
      "epoch": 8.57,
      "learning_rate": 2.381653099561678e-05,
      "loss": 0.5525,
      "step": 10138,
      "task_loss": 0.44184428453445435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.641999363899231,
      "epoch": 8.57,
      "learning_rate": 2.3813400125234815e-05,
      "loss": 0.6037,
      "step": 10139,
      "task_loss": 0.6626383066177368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3547142446041107,
      "epoch": 8.57,
      "learning_rate": 2.381026925485285e-05,
      "loss": 0.5461,
      "step": 10140,
      "task_loss": 0.6293083429336548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5259841084480286,
      "epoch": 8.57,
      "learning_rate": 2.3807138384470882e-05,
      "loss": 0.548,
      "step": 10141,
      "task_loss": 0.6014701128005981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4086444675922394,
      "epoch": 8.57,
      "learning_rate": 2.3804007514088918e-05,
      "loss": 0.3251,
      "step": 10142,
      "task_loss": 0.39229798316955566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.597890317440033,
      "epoch": 8.57,
      "learning_rate": 2.3800876643706953e-05,
      "loss": 0.6016,
      "step": 10143,
      "task_loss": 0.7161086797714233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5337141752243042,
      "epoch": 8.57,
      "learning_rate": 2.3797745773324988e-05,
      "loss": 0.4734,
      "step": 10144,
      "task_loss": 0.3432406187057495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3428012430667877,
      "epoch": 8.58,
      "learning_rate": 2.379461490294302e-05,
      "loss": 0.5376,
      "step": 10145,
      "task_loss": 0.3800116777420044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32495027780532837,
      "epoch": 8.58,
      "learning_rate": 2.3791484032561055e-05,
      "loss": 0.4864,
      "step": 10146,
      "task_loss": 0.24609117209911346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.156248688697815,
      "epoch": 8.58,
      "learning_rate": 2.3788353162179087e-05,
      "loss": 0.55,
      "step": 10147,
      "task_loss": 0.8708246350288391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2911372780799866,
      "epoch": 8.58,
      "learning_rate": 2.3785222291797122e-05,
      "loss": 0.6192,
      "step": 10148,
      "task_loss": 0.8181488513946533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34719133377075195,
      "epoch": 8.58,
      "learning_rate": 2.3782091421415154e-05,
      "loss": 0.5126,
      "step": 10149,
      "task_loss": 0.8037369251251221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9989386796951294,
      "epoch": 8.58,
      "learning_rate": 2.377896055103319e-05,
      "loss": 0.568,
      "step": 10150,
      "task_loss": 0.8667119741439819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4438078701496124,
      "epoch": 8.58,
      "learning_rate": 2.377582968065122e-05,
      "loss": 0.6297,
      "step": 10151,
      "task_loss": 0.38925495743751526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5794225931167603,
      "epoch": 8.58,
      "learning_rate": 2.3772698810269256e-05,
      "loss": 0.5005,
      "step": 10152,
      "task_loss": 0.6384279131889343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7459295988082886,
      "epoch": 8.58,
      "learning_rate": 2.376956793988729e-05,
      "loss": 0.7543,
      "step": 10153,
      "task_loss": 1.0766552686691284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5179533958435059,
      "epoch": 8.58,
      "learning_rate": 2.3766437069505323e-05,
      "loss": 0.5514,
      "step": 10154,
      "task_loss": 0.3289638161659241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6605609655380249,
      "epoch": 8.58,
      "learning_rate": 2.3763306199123358e-05,
      "loss": 0.702,
      "step": 10155,
      "task_loss": 0.48800450563430786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6476040482521057,
      "epoch": 8.58,
      "learning_rate": 2.376017532874139e-05,
      "loss": 0.6308,
      "step": 10156,
      "task_loss": 0.7089284062385559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5036085844039917,
      "epoch": 8.59,
      "learning_rate": 2.3757044458359425e-05,
      "loss": 0.6419,
      "step": 10157,
      "task_loss": 0.15392273664474487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5704149007797241,
      "epoch": 8.59,
      "learning_rate": 2.375391358797746e-05,
      "loss": 0.4624,
      "step": 10158,
      "task_loss": 0.7008436322212219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49258989095687866,
      "epoch": 8.59,
      "learning_rate": 2.375078271759549e-05,
      "loss": 0.5904,
      "step": 10159,
      "task_loss": 0.6355120539665222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6202499270439148,
      "epoch": 8.59,
      "learning_rate": 2.3747651847213527e-05,
      "loss": 0.5779,
      "step": 10160,
      "task_loss": 0.6147964000701904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46213942766189575,
      "epoch": 8.59,
      "learning_rate": 2.3744520976831562e-05,
      "loss": 0.6163,
      "step": 10161,
      "task_loss": 0.4554673135280609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7612292766571045,
      "epoch": 8.59,
      "learning_rate": 2.3741390106449594e-05,
      "loss": 0.6354,
      "step": 10162,
      "task_loss": 1.3618316650390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611318349838257,
      "epoch": 8.59,
      "learning_rate": 2.373825923606763e-05,
      "loss": 0.5422,
      "step": 10163,
      "task_loss": 0.870278000831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4214290380477905,
      "epoch": 8.59,
      "learning_rate": 2.373512836568566e-05,
      "loss": 0.4682,
      "step": 10164,
      "task_loss": 0.4936971068382263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5270121097564697,
      "epoch": 8.59,
      "learning_rate": 2.3731997495303696e-05,
      "loss": 0.5984,
      "step": 10165,
      "task_loss": 0.9372133016586304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2579607367515564,
      "epoch": 8.59,
      "learning_rate": 2.372886662492173e-05,
      "loss": 0.4882,
      "step": 10166,
      "task_loss": 0.21810606122016907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44191205501556396,
      "epoch": 8.59,
      "learning_rate": 2.3725735754539763e-05,
      "loss": 0.4483,
      "step": 10167,
      "task_loss": 0.35128718614578247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6154458522796631,
      "epoch": 8.59,
      "learning_rate": 2.3722604884157798e-05,
      "loss": 0.4887,
      "step": 10168,
      "task_loss": 0.7379226684570312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6482371091842651,
      "epoch": 8.6,
      "learning_rate": 2.371947401377583e-05,
      "loss": 0.6923,
      "step": 10169,
      "task_loss": 0.8343385457992554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7869358062744141,
      "epoch": 8.6,
      "learning_rate": 2.3716343143393865e-05,
      "loss": 0.6943,
      "step": 10170,
      "task_loss": 1.2994048595428467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5930205583572388,
      "epoch": 8.6,
      "learning_rate": 2.3713212273011897e-05,
      "loss": 0.6406,
      "step": 10171,
      "task_loss": 0.4785839319229126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6378641724586487,
      "epoch": 8.6,
      "learning_rate": 2.3710081402629932e-05,
      "loss": 0.5762,
      "step": 10172,
      "task_loss": 0.7836578488349915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.61504065990448,
      "epoch": 8.6,
      "learning_rate": 2.3706950532247964e-05,
      "loss": 0.6354,
      "step": 10173,
      "task_loss": 0.23387162387371063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48103588819503784,
      "epoch": 8.6,
      "learning_rate": 2.3703819661866e-05,
      "loss": 0.6106,
      "step": 10174,
      "task_loss": 1.0581769943237305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3434467613697052,
      "epoch": 8.6,
      "learning_rate": 2.3700688791484034e-05,
      "loss": 0.4765,
      "step": 10175,
      "task_loss": 0.19560149312019348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7814637422561646,
      "epoch": 8.6,
      "learning_rate": 2.369755792110207e-05,
      "loss": 0.6161,
      "step": 10176,
      "task_loss": 0.5739794373512268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7519869804382324,
      "epoch": 8.6,
      "learning_rate": 2.36944270507201e-05,
      "loss": 0.792,
      "step": 10177,
      "task_loss": 0.6717224717140198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4525953531265259,
      "epoch": 8.6,
      "learning_rate": 2.3691296180338136e-05,
      "loss": 0.5494,
      "step": 10178,
      "task_loss": 0.7758942246437073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5517619252204895,
      "epoch": 8.6,
      "learning_rate": 2.368816530995617e-05,
      "loss": 0.5368,
      "step": 10179,
      "task_loss": 0.23561213910579681
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44188347458839417,
      "epoch": 8.6,
      "learning_rate": 2.3685034439574203e-05,
      "loss": 0.6238,
      "step": 10180,
      "task_loss": 0.07732204347848892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0012847185134888,
      "epoch": 8.61,
      "learning_rate": 2.3681903569192238e-05,
      "loss": 0.7495,
      "step": 10181,
      "task_loss": 0.9096921682357788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7883697748184204,
      "epoch": 8.61,
      "learning_rate": 2.367877269881027e-05,
      "loss": 0.761,
      "step": 10182,
      "task_loss": 0.9211120009422302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5370867252349854,
      "epoch": 8.61,
      "learning_rate": 2.3675641828428305e-05,
      "loss": 0.4746,
      "step": 10183,
      "task_loss": 0.7954909801483154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6515308618545532,
      "epoch": 8.61,
      "learning_rate": 2.3672510958046337e-05,
      "loss": 0.6392,
      "step": 10184,
      "task_loss": 0.49216729402542114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6592167615890503,
      "epoch": 8.61,
      "learning_rate": 2.3669380087664372e-05,
      "loss": 0.4646,
      "step": 10185,
      "task_loss": 1.0732494592666626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48789912462234497,
      "epoch": 8.61,
      "learning_rate": 2.3666249217282404e-05,
      "loss": 0.6219,
      "step": 10186,
      "task_loss": 0.7316896915435791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3229483962059021,
      "epoch": 8.61,
      "learning_rate": 2.366311834690044e-05,
      "loss": 0.4998,
      "step": 10187,
      "task_loss": 0.8267841339111328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3462075889110565,
      "epoch": 8.61,
      "learning_rate": 2.365998747651847e-05,
      "loss": 0.5374,
      "step": 10188,
      "task_loss": 0.6354756355285645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.606490433216095,
      "epoch": 8.61,
      "learning_rate": 2.3656856606136506e-05,
      "loss": 0.6793,
      "step": 10189,
      "task_loss": 0.2299000322818756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6095920205116272,
      "epoch": 8.61,
      "learning_rate": 2.365372573575454e-05,
      "loss": 0.6887,
      "step": 10190,
      "task_loss": 1.418766975402832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7626671195030212,
      "epoch": 8.61,
      "learning_rate": 2.3650594865372573e-05,
      "loss": 0.5522,
      "step": 10191,
      "task_loss": 0.5805853009223938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5445733070373535,
      "epoch": 8.61,
      "learning_rate": 2.3647463994990608e-05,
      "loss": 0.5416,
      "step": 10192,
      "task_loss": 0.25713858008384705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45664137601852417,
      "epoch": 8.62,
      "learning_rate": 2.3644333124608643e-05,
      "loss": 0.5857,
      "step": 10193,
      "task_loss": 0.7254993915557861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5652408599853516,
      "epoch": 8.62,
      "learning_rate": 2.364120225422668e-05,
      "loss": 0.7031,
      "step": 10194,
      "task_loss": 0.9663349986076355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5212764739990234,
      "epoch": 8.62,
      "learning_rate": 2.363807138384471e-05,
      "loss": 0.602,
      "step": 10195,
      "task_loss": 1.1425092220306396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7307181358337402,
      "epoch": 8.62,
      "learning_rate": 2.3634940513462746e-05,
      "loss": 0.8597,
      "step": 10196,
      "task_loss": 0.764624297618866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3545001149177551,
      "epoch": 8.62,
      "learning_rate": 2.3631809643080777e-05,
      "loss": 0.6162,
      "step": 10197,
      "task_loss": 0.18777787685394287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.760377049446106,
      "epoch": 8.62,
      "learning_rate": 2.3628678772698812e-05,
      "loss": 0.5657,
      "step": 10198,
      "task_loss": 0.8651447296142578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5090301036834717,
      "epoch": 8.62,
      "learning_rate": 2.3625547902316844e-05,
      "loss": 0.7072,
      "step": 10199,
      "task_loss": 0.4183909296989441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.375724196434021,
      "epoch": 8.62,
      "learning_rate": 2.362241703193488e-05,
      "loss": 0.5832,
      "step": 10200,
      "task_loss": 0.9365507364273071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.755237340927124,
      "epoch": 8.62,
      "learning_rate": 2.361928616155291e-05,
      "loss": 0.6535,
      "step": 10201,
      "task_loss": 0.3650089204311371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9193294644355774,
      "epoch": 8.62,
      "learning_rate": 2.3616155291170946e-05,
      "loss": 0.6912,
      "step": 10202,
      "task_loss": 1.4943350553512573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5407570004463196,
      "epoch": 8.62,
      "learning_rate": 2.361302442078898e-05,
      "loss": 0.686,
      "step": 10203,
      "task_loss": 0.919589102268219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7966090440750122,
      "epoch": 8.63,
      "learning_rate": 2.3609893550407013e-05,
      "loss": 0.7019,
      "step": 10204,
      "task_loss": 1.3591121435165405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.59217369556427,
      "epoch": 8.63,
      "learning_rate": 2.360676268002505e-05,
      "loss": 0.7158,
      "step": 10205,
      "task_loss": 0.7182009220123291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3928186893463135,
      "epoch": 8.63,
      "learning_rate": 2.360363180964308e-05,
      "loss": 0.4948,
      "step": 10206,
      "task_loss": 1.3313243389129639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5183713436126709,
      "epoch": 8.63,
      "learning_rate": 2.3600500939261115e-05,
      "loss": 0.7336,
      "step": 10207,
      "task_loss": 0.31375083327293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5726734399795532,
      "epoch": 8.63,
      "learning_rate": 2.3597370068879147e-05,
      "loss": 0.683,
      "step": 10208,
      "task_loss": 0.90077805519104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6111127734184265,
      "epoch": 8.63,
      "learning_rate": 2.3594239198497182e-05,
      "loss": 0.5395,
      "step": 10209,
      "task_loss": 1.7960373163223267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49353837966918945,
      "epoch": 8.63,
      "learning_rate": 2.3591108328115218e-05,
      "loss": 0.5678,
      "step": 10210,
      "task_loss": 1.1405293941497803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48263102769851685,
      "epoch": 8.63,
      "learning_rate": 2.3587977457733253e-05,
      "loss": 0.671,
      "step": 10211,
      "task_loss": 1.5126467943191528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5896906852722168,
      "epoch": 8.63,
      "learning_rate": 2.3584846587351284e-05,
      "loss": 0.6967,
      "step": 10212,
      "task_loss": 0.8166379332542419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43555283546447754,
      "epoch": 8.63,
      "learning_rate": 2.358171571696932e-05,
      "loss": 0.5345,
      "step": 10213,
      "task_loss": 0.969637393951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6552468538284302,
      "epoch": 8.63,
      "learning_rate": 2.3578584846587355e-05,
      "loss": 0.7621,
      "step": 10214,
      "task_loss": 0.32959964871406555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9020136594772339,
      "epoch": 8.63,
      "learning_rate": 2.3575453976205387e-05,
      "loss": 0.7742,
      "step": 10215,
      "task_loss": 1.217661738395691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8649163246154785,
      "epoch": 8.64,
      "learning_rate": 2.3572323105823422e-05,
      "loss": 0.6599,
      "step": 10216,
      "task_loss": 0.7724397778511047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4835333526134491,
      "epoch": 8.64,
      "learning_rate": 2.3569192235441454e-05,
      "loss": 0.5913,
      "step": 10217,
      "task_loss": 0.11627571284770966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7342992424964905,
      "epoch": 8.64,
      "learning_rate": 2.356606136505949e-05,
      "loss": 0.7337,
      "step": 10218,
      "task_loss": 1.1766886711120605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6544406414031982,
      "epoch": 8.64,
      "learning_rate": 2.356293049467752e-05,
      "loss": 0.6405,
      "step": 10219,
      "task_loss": 0.5235410928726196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6336920261383057,
      "epoch": 8.64,
      "learning_rate": 2.3559799624295556e-05,
      "loss": 0.5363,
      "step": 10220,
      "task_loss": 0.8673962354660034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5932207703590393,
      "epoch": 8.64,
      "learning_rate": 2.3556668753913587e-05,
      "loss": 0.5586,
      "step": 10221,
      "task_loss": 1.0572631359100342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3851572275161743,
      "epoch": 8.64,
      "learning_rate": 2.3553537883531623e-05,
      "loss": 0.5198,
      "step": 10222,
      "task_loss": 0.928636372089386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3696083128452301,
      "epoch": 8.64,
      "learning_rate": 2.3550407013149654e-05,
      "loss": 0.5065,
      "step": 10223,
      "task_loss": 0.6655989289283752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6929459571838379,
      "epoch": 8.64,
      "learning_rate": 2.354727614276769e-05,
      "loss": 0.5984,
      "step": 10224,
      "task_loss": 0.2993921637535095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41333869099617004,
      "epoch": 8.64,
      "learning_rate": 2.3544145272385725e-05,
      "loss": 0.6409,
      "step": 10225,
      "task_loss": 0.5133637189865112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40386107563972473,
      "epoch": 8.64,
      "learning_rate": 2.3541014402003757e-05,
      "loss": 0.6907,
      "step": 10226,
      "task_loss": 0.06004468351602554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4937637746334076,
      "epoch": 8.64,
      "learning_rate": 2.3537883531621792e-05,
      "loss": 0.5789,
      "step": 10227,
      "task_loss": 1.2446749210357666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5677509307861328,
      "epoch": 8.65,
      "learning_rate": 2.3534752661239827e-05,
      "loss": 0.5158,
      "step": 10228,
      "task_loss": 0.4868806004524231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.445784330368042,
      "epoch": 8.65,
      "learning_rate": 2.3531621790857862e-05,
      "loss": 0.5756,
      "step": 10229,
      "task_loss": 0.6537379026412964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8189799189567566,
      "epoch": 8.65,
      "learning_rate": 2.3528490920475894e-05,
      "loss": 0.786,
      "step": 10230,
      "task_loss": 1.1868191957473755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3963119089603424,
      "epoch": 8.65,
      "learning_rate": 2.352536005009393e-05,
      "loss": 0.6197,
      "step": 10231,
      "task_loss": 0.4576316475868225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.365081250667572,
      "epoch": 8.65,
      "learning_rate": 2.352222917971196e-05,
      "loss": 0.6358,
      "step": 10232,
      "task_loss": 0.42643409967422485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8328432440757751,
      "epoch": 8.65,
      "learning_rate": 2.3519098309329996e-05,
      "loss": 0.5451,
      "step": 10233,
      "task_loss": 0.898066520690918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5133947134017944,
      "epoch": 8.65,
      "learning_rate": 2.3515967438948028e-05,
      "loss": 0.6584,
      "step": 10234,
      "task_loss": 0.7849518060684204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7227649688720703,
      "epoch": 8.65,
      "learning_rate": 2.3512836568566063e-05,
      "loss": 0.6963,
      "step": 10235,
      "task_loss": 1.0644264221191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43648916482925415,
      "epoch": 8.65,
      "learning_rate": 2.3509705698184095e-05,
      "loss": 0.4462,
      "step": 10236,
      "task_loss": 1.2865588665008545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23773285746574402,
      "epoch": 8.65,
      "learning_rate": 2.350657482780213e-05,
      "loss": 0.4787,
      "step": 10237,
      "task_loss": 0.23250730335712433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9015463590621948,
      "epoch": 8.65,
      "learning_rate": 2.350344395742016e-05,
      "loss": 0.6142,
      "step": 10238,
      "task_loss": 0.20014029741287231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6011427640914917,
      "epoch": 8.65,
      "learning_rate": 2.3500313087038197e-05,
      "loss": 0.5275,
      "step": 10239,
      "task_loss": 0.6751869320869446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5382883548736572,
      "epoch": 8.66,
      "learning_rate": 2.3497182216656232e-05,
      "loss": 0.6847,
      "step": 10240,
      "task_loss": 1.5955243110656738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4175835847854614,
      "epoch": 8.66,
      "learning_rate": 2.3494051346274264e-05,
      "loss": 0.6096,
      "step": 10241,
      "task_loss": 0.07652056962251663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6698815822601318,
      "epoch": 8.66,
      "learning_rate": 2.34909204758923e-05,
      "loss": 0.6078,
      "step": 10242,
      "task_loss": 0.4699294865131378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5716478824615479,
      "epoch": 8.66,
      "learning_rate": 2.3487789605510334e-05,
      "loss": 0.4836,
      "step": 10243,
      "task_loss": 0.2379196286201477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0789819955825806,
      "epoch": 8.66,
      "learning_rate": 2.348465873512837e-05,
      "loss": 0.8194,
      "step": 10244,
      "task_loss": 1.114412784576416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44963499903678894,
      "epoch": 8.66,
      "learning_rate": 2.34815278647464e-05,
      "loss": 0.505,
      "step": 10245,
      "task_loss": 0.5425290465354919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21674859523773193,
      "epoch": 8.66,
      "learning_rate": 2.3478396994364436e-05,
      "loss": 0.6226,
      "step": 10246,
      "task_loss": 0.6663046479225159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6089035272598267,
      "epoch": 8.66,
      "learning_rate": 2.3475266123982468e-05,
      "loss": 0.673,
      "step": 10247,
      "task_loss": 2.0963926315307617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5344479084014893,
      "epoch": 8.66,
      "learning_rate": 2.3472135253600503e-05,
      "loss": 0.6988,
      "step": 10248,
      "task_loss": 0.798233687877655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43697845935821533,
      "epoch": 8.66,
      "learning_rate": 2.3469004383218535e-05,
      "loss": 0.4569,
      "step": 10249,
      "task_loss": 0.17511732876300812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48328661918640137,
      "epoch": 8.66,
      "learning_rate": 2.346587351283657e-05,
      "loss": 0.5402,
      "step": 10250,
      "task_loss": 0.9041722416877747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48356392979621887,
      "epoch": 8.66,
      "learning_rate": 2.3462742642454605e-05,
      "loss": 0.6926,
      "step": 10251,
      "task_loss": 0.11360824108123779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5112522840499878,
      "epoch": 8.67,
      "learning_rate": 2.3459611772072637e-05,
      "loss": 0.7173,
      "step": 10252,
      "task_loss": 0.7050277590751648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6018706560134888,
      "epoch": 8.67,
      "learning_rate": 2.3456480901690672e-05,
      "loss": 0.6045,
      "step": 10253,
      "task_loss": 1.2196855545043945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3503519296646118,
      "epoch": 8.67,
      "learning_rate": 2.3453350031308704e-05,
      "loss": 0.5124,
      "step": 10254,
      "task_loss": 0.38163700699806213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.575977087020874,
      "epoch": 8.67,
      "learning_rate": 2.345021916092674e-05,
      "loss": 0.5124,
      "step": 10255,
      "task_loss": 0.8662415146827698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.775056004524231,
      "epoch": 8.67,
      "learning_rate": 2.344708829054477e-05,
      "loss": 0.5932,
      "step": 10256,
      "task_loss": 0.7554023265838623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191013813018799,
      "epoch": 8.67,
      "learning_rate": 2.3443957420162806e-05,
      "loss": 0.6826,
      "step": 10257,
      "task_loss": 0.7773323059082031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5732079744338989,
      "epoch": 8.67,
      "learning_rate": 2.3440826549780838e-05,
      "loss": 0.6976,
      "step": 10258,
      "task_loss": 0.4773746430873871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38019293546676636,
      "epoch": 8.67,
      "learning_rate": 2.3437695679398873e-05,
      "loss": 0.4847,
      "step": 10259,
      "task_loss": 0.2062562108039856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41675451397895813,
      "epoch": 8.67,
      "learning_rate": 2.3434564809016908e-05,
      "loss": 0.4836,
      "step": 10260,
      "task_loss": 0.39620476961135864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6373957395553589,
      "epoch": 8.67,
      "learning_rate": 2.3431433938634943e-05,
      "loss": 0.5364,
      "step": 10261,
      "task_loss": 1.0597769021987915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48288804292678833,
      "epoch": 8.67,
      "learning_rate": 2.3428303068252975e-05,
      "loss": 0.5169,
      "step": 10262,
      "task_loss": 0.35738739371299744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37541988492012024,
      "epoch": 8.67,
      "learning_rate": 2.342517219787101e-05,
      "loss": 0.4372,
      "step": 10263,
      "task_loss": 0.31247490644454956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36405372619628906,
      "epoch": 8.68,
      "learning_rate": 2.3422041327489046e-05,
      "loss": 0.4902,
      "step": 10264,
      "task_loss": 0.6912161707878113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.106175422668457,
      "epoch": 8.68,
      "learning_rate": 2.3418910457107077e-05,
      "loss": 0.7215,
      "step": 10265,
      "task_loss": 1.5190690755844116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6646531820297241,
      "epoch": 8.68,
      "learning_rate": 2.3415779586725112e-05,
      "loss": 0.5573,
      "step": 10266,
      "task_loss": 1.307455062866211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6335834860801697,
      "epoch": 8.68,
      "learning_rate": 2.3412648716343144e-05,
      "loss": 0.5666,
      "step": 10267,
      "task_loss": 0.8601988554000854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6858842968940735,
      "epoch": 8.68,
      "learning_rate": 2.340951784596118e-05,
      "loss": 0.5506,
      "step": 10268,
      "task_loss": 1.8724411725997925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37020719051361084,
      "epoch": 8.68,
      "learning_rate": 2.340638697557921e-05,
      "loss": 0.5036,
      "step": 10269,
      "task_loss": 0.38777589797973633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8541181087493896,
      "epoch": 8.68,
      "learning_rate": 2.3403256105197246e-05,
      "loss": 0.5353,
      "step": 10270,
      "task_loss": 0.971590518951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4853457808494568,
      "epoch": 8.68,
      "learning_rate": 2.3400125234815278e-05,
      "loss": 0.501,
      "step": 10271,
      "task_loss": 0.8051766753196716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40960627794265747,
      "epoch": 8.68,
      "learning_rate": 2.3396994364433313e-05,
      "loss": 0.455,
      "step": 10272,
      "task_loss": 0.75418621301651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4105125665664673,
      "epoch": 8.68,
      "learning_rate": 2.3393863494051345e-05,
      "loss": 0.611,
      "step": 10273,
      "task_loss": 2.1385154724121094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34540629386901855,
      "epoch": 8.68,
      "learning_rate": 2.339073262366938e-05,
      "loss": 0.5775,
      "step": 10274,
      "task_loss": 0.14466191828250885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2903979420661926,
      "epoch": 8.69,
      "learning_rate": 2.3387601753287412e-05,
      "loss": 0.537,
      "step": 10275,
      "task_loss": 0.2829439640045166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5231016874313354,
      "epoch": 8.69,
      "learning_rate": 2.3384470882905447e-05,
      "loss": 0.53,
      "step": 10276,
      "task_loss": 0.5824772119522095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6705288290977478,
      "epoch": 8.69,
      "learning_rate": 2.3381340012523482e-05,
      "loss": 0.6924,
      "step": 10277,
      "task_loss": 1.088320255279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7023051977157593,
      "epoch": 8.69,
      "learning_rate": 2.3378209142141518e-05,
      "loss": 0.5876,
      "step": 10278,
      "task_loss": 1.2503266334533691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5109679698944092,
      "epoch": 8.69,
      "learning_rate": 2.3375078271759553e-05,
      "loss": 0.4983,
      "step": 10279,
      "task_loss": 0.5295658707618713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6716022491455078,
      "epoch": 8.69,
      "learning_rate": 2.3371947401377585e-05,
      "loss": 0.824,
      "step": 10280,
      "task_loss": 2.075610399246216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8557205200195312,
      "epoch": 8.69,
      "learning_rate": 2.336881653099562e-05,
      "loss": 0.7601,
      "step": 10281,
      "task_loss": 0.988161027431488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5889851450920105,
      "epoch": 8.69,
      "learning_rate": 2.336568566061365e-05,
      "loss": 0.5716,
      "step": 10282,
      "task_loss": 0.9852766990661621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24255861341953278,
      "epoch": 8.69,
      "learning_rate": 2.3362554790231687e-05,
      "loss": 0.6842,
      "step": 10283,
      "task_loss": 0.3701871931552887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5441357493400574,
      "epoch": 8.69,
      "learning_rate": 2.335942391984972e-05,
      "loss": 0.4441,
      "step": 10284,
      "task_loss": 0.46320801973342896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46973317861557007,
      "epoch": 8.69,
      "learning_rate": 2.3356293049467754e-05,
      "loss": 0.6034,
      "step": 10285,
      "task_loss": 0.7599964141845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42817240953445435,
      "epoch": 8.69,
      "learning_rate": 2.3353162179085785e-05,
      "loss": 0.4884,
      "step": 10286,
      "task_loss": 0.25398361682891846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245505571365356,
      "epoch": 8.7,
      "learning_rate": 2.335003130870382e-05,
      "loss": 0.7992,
      "step": 10287,
      "task_loss": 0.449176162481308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40319257974624634,
      "epoch": 8.7,
      "learning_rate": 2.3346900438321856e-05,
      "loss": 0.6094,
      "step": 10288,
      "task_loss": 1.0919468402862549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44393983483314514,
      "epoch": 8.7,
      "learning_rate": 2.3343769567939888e-05,
      "loss": 0.5004,
      "step": 10289,
      "task_loss": 0.5630022287368774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.717318058013916,
      "epoch": 8.7,
      "learning_rate": 2.3340638697557923e-05,
      "loss": 0.5617,
      "step": 10290,
      "task_loss": 0.705776035785675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7217721939086914,
      "epoch": 8.7,
      "learning_rate": 2.3337507827175954e-05,
      "loss": 0.6057,
      "step": 10291,
      "task_loss": 1.0932133197784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.939380943775177,
      "epoch": 8.7,
      "learning_rate": 2.333437695679399e-05,
      "loss": 0.7829,
      "step": 10292,
      "task_loss": 1.6592435836791992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3660343289375305,
      "epoch": 8.7,
      "learning_rate": 2.333124608641202e-05,
      "loss": 0.6972,
      "step": 10293,
      "task_loss": 0.5820684432983398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3937099874019623,
      "epoch": 8.7,
      "learning_rate": 2.3328115216030057e-05,
      "loss": 0.7085,
      "step": 10294,
      "task_loss": 0.04206370562314987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2999074459075928,
      "epoch": 8.7,
      "learning_rate": 2.3324984345648092e-05,
      "loss": 0.546,
      "step": 10295,
      "task_loss": 0.06856942176818848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31668537855148315,
      "epoch": 8.7,
      "learning_rate": 2.3321853475266127e-05,
      "loss": 0.5801,
      "step": 10296,
      "task_loss": 0.6736817955970764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7234536409378052,
      "epoch": 8.7,
      "learning_rate": 2.331872260488416e-05,
      "loss": 0.8226,
      "step": 10297,
      "task_loss": 1.2139898538589478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5414732694625854,
      "epoch": 8.7,
      "learning_rate": 2.3315591734502194e-05,
      "loss": 0.4729,
      "step": 10298,
      "task_loss": 0.4459790289402008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7360880374908447,
      "epoch": 8.71,
      "learning_rate": 2.3312460864120226e-05,
      "loss": 0.6093,
      "step": 10299,
      "task_loss": 0.4897862672805786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.497170090675354,
      "epoch": 8.71,
      "learning_rate": 2.330932999373826e-05,
      "loss": 0.4692,
      "step": 10300,
      "task_loss": 0.828575074672699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5708574652671814,
      "epoch": 8.71,
      "learning_rate": 2.3306199123356296e-05,
      "loss": 0.6296,
      "step": 10301,
      "task_loss": 0.49792754650115967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8382937908172607,
      "epoch": 8.71,
      "learning_rate": 2.3303068252974328e-05,
      "loss": 0.705,
      "step": 10302,
      "task_loss": 0.31073951721191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30283886194229126,
      "epoch": 8.71,
      "learning_rate": 2.3299937382592363e-05,
      "loss": 0.6858,
      "step": 10303,
      "task_loss": 0.44411832094192505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196468830108643,
      "epoch": 8.71,
      "learning_rate": 2.3296806512210395e-05,
      "loss": 0.4825,
      "step": 10304,
      "task_loss": 0.7928723096847534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6245046854019165,
      "epoch": 8.71,
      "learning_rate": 2.329367564182843e-05,
      "loss": 0.662,
      "step": 10305,
      "task_loss": 1.640119194984436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46317601203918457,
      "epoch": 8.71,
      "learning_rate": 2.329054477144646e-05,
      "loss": 0.7112,
      "step": 10306,
      "task_loss": 0.7012359499931335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6978142857551575,
      "epoch": 8.71,
      "learning_rate": 2.3287413901064497e-05,
      "loss": 0.7597,
      "step": 10307,
      "task_loss": 0.7923853993415833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35569173097610474,
      "epoch": 8.71,
      "learning_rate": 2.328428303068253e-05,
      "loss": 0.6559,
      "step": 10308,
      "task_loss": 0.6077647805213928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5507012605667114,
      "epoch": 8.71,
      "learning_rate": 2.3281152160300564e-05,
      "loss": 0.5437,
      "step": 10309,
      "task_loss": 0.7900258302688599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4463390111923218,
      "epoch": 8.71,
      "learning_rate": 2.32780212899186e-05,
      "loss": 0.5661,
      "step": 10310,
      "task_loss": 0.8078454732894897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37847432494163513,
      "epoch": 8.72,
      "learning_rate": 2.327489041953663e-05,
      "loss": 0.5449,
      "step": 10311,
      "task_loss": 0.43028491735458374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4232290983200073,
      "epoch": 8.72,
      "learning_rate": 2.3271759549154666e-05,
      "loss": 0.5566,
      "step": 10312,
      "task_loss": 0.6030418276786804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8381743431091309,
      "epoch": 8.72,
      "learning_rate": 2.32686286787727e-05,
      "loss": 0.5797,
      "step": 10313,
      "task_loss": 0.6536415219306946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5811944007873535,
      "epoch": 8.72,
      "learning_rate": 2.3265497808390736e-05,
      "loss": 0.4832,
      "step": 10314,
      "task_loss": 0.15809014439582825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48007017374038696,
      "epoch": 8.72,
      "learning_rate": 2.3262366938008768e-05,
      "loss": 0.4273,
      "step": 10315,
      "task_loss": 1.1659356355667114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5563874244689941,
      "epoch": 8.72,
      "learning_rate": 2.3259236067626803e-05,
      "loss": 0.542,
      "step": 10316,
      "task_loss": 0.7981234788894653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3422144651412964,
      "epoch": 8.72,
      "learning_rate": 2.3256105197244835e-05,
      "loss": 0.5809,
      "step": 10317,
      "task_loss": 0.95307457447052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8381541967391968,
      "epoch": 8.72,
      "learning_rate": 2.325297432686287e-05,
      "loss": 0.5826,
      "step": 10318,
      "task_loss": 0.9266279339790344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35719576478004456,
      "epoch": 8.72,
      "learning_rate": 2.3249843456480902e-05,
      "loss": 0.361,
      "step": 10319,
      "task_loss": 0.5242159962654114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3851388096809387,
      "epoch": 8.72,
      "learning_rate": 2.3246712586098937e-05,
      "loss": 0.5971,
      "step": 10320,
      "task_loss": 0.9548928141593933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.714460015296936,
      "epoch": 8.72,
      "learning_rate": 2.324358171571697e-05,
      "loss": 0.6114,
      "step": 10321,
      "task_loss": 0.8213605880737305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6149166822433472,
      "epoch": 8.72,
      "learning_rate": 2.3240450845335004e-05,
      "loss": 0.5568,
      "step": 10322,
      "task_loss": 0.5643141269683838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5283236503601074,
      "epoch": 8.73,
      "learning_rate": 2.3237319974953036e-05,
      "loss": 0.7838,
      "step": 10323,
      "task_loss": 0.45607781410217285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6325607299804688,
      "epoch": 8.73,
      "learning_rate": 2.323418910457107e-05,
      "loss": 0.605,
      "step": 10324,
      "task_loss": 0.9082795977592468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3709324300289154,
      "epoch": 8.73,
      "learning_rate": 2.3231058234189106e-05,
      "loss": 0.4665,
      "step": 10325,
      "task_loss": 0.2649557888507843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5796202421188354,
      "epoch": 8.73,
      "learning_rate": 2.3227927363807138e-05,
      "loss": 0.9118,
      "step": 10326,
      "task_loss": 1.5309813022613525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8744503259658813,
      "epoch": 8.73,
      "learning_rate": 2.3224796493425173e-05,
      "loss": 0.5709,
      "step": 10327,
      "task_loss": 0.9650465846061707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3466658890247345,
      "epoch": 8.73,
      "learning_rate": 2.3221665623043208e-05,
      "loss": 0.6257,
      "step": 10328,
      "task_loss": 0.6811246275901794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6590518951416016,
      "epoch": 8.73,
      "learning_rate": 2.3218534752661243e-05,
      "loss": 0.6909,
      "step": 10329,
      "task_loss": 0.8892730474472046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9255754947662354,
      "epoch": 8.73,
      "learning_rate": 2.3215403882279275e-05,
      "loss": 0.6387,
      "step": 10330,
      "task_loss": 0.7700848579406738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9049198627471924,
      "epoch": 8.73,
      "learning_rate": 2.321227301189731e-05,
      "loss": 0.7575,
      "step": 10331,
      "task_loss": 0.6786505579948425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31144559383392334,
      "epoch": 8.73,
      "learning_rate": 2.3209142141515342e-05,
      "loss": 0.5027,
      "step": 10332,
      "task_loss": 0.8281727433204651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48746463656425476,
      "epoch": 8.73,
      "learning_rate": 2.3206011271133377e-05,
      "loss": 0.5726,
      "step": 10333,
      "task_loss": 0.35931044816970825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46268534660339355,
      "epoch": 8.73,
      "learning_rate": 2.320288040075141e-05,
      "loss": 0.5789,
      "step": 10334,
      "task_loss": 0.3268965184688568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34380385279655457,
      "epoch": 8.74,
      "learning_rate": 2.3199749530369444e-05,
      "loss": 0.4592,
      "step": 10335,
      "task_loss": 0.2025119960308075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5249941349029541,
      "epoch": 8.74,
      "learning_rate": 2.3196618659987476e-05,
      "loss": 0.6895,
      "step": 10336,
      "task_loss": 1.230987310409546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1641499996185303,
      "epoch": 8.74,
      "learning_rate": 2.319348778960551e-05,
      "loss": 0.6884,
      "step": 10337,
      "task_loss": 1.3084943294525146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7166554927825928,
      "epoch": 8.74,
      "learning_rate": 2.3190356919223546e-05,
      "loss": 0.5877,
      "step": 10338,
      "task_loss": 1.3732205629348755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8807579874992371,
      "epoch": 8.74,
      "learning_rate": 2.3187226048841578e-05,
      "loss": 0.6876,
      "step": 10339,
      "task_loss": 2.1478803157806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0290751457214355,
      "epoch": 8.74,
      "learning_rate": 2.3184095178459613e-05,
      "loss": 0.8892,
      "step": 10340,
      "task_loss": 0.6659360527992249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4846385717391968,
      "epoch": 8.74,
      "learning_rate": 2.3180964308077645e-05,
      "loss": 0.4953,
      "step": 10341,
      "task_loss": 0.9364334344863892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5379605889320374,
      "epoch": 8.74,
      "learning_rate": 2.317783343769568e-05,
      "loss": 0.5873,
      "step": 10342,
      "task_loss": 0.419034481048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5499951839447021,
      "epoch": 8.74,
      "learning_rate": 2.3174702567313712e-05,
      "loss": 0.7221,
      "step": 10343,
      "task_loss": 0.5237514972686768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5779290795326233,
      "epoch": 8.74,
      "learning_rate": 2.3171571696931747e-05,
      "loss": 0.7022,
      "step": 10344,
      "task_loss": 1.2051113843917847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5470089912414551,
      "epoch": 8.74,
      "learning_rate": 2.3168440826549782e-05,
      "loss": 0.7055,
      "step": 10345,
      "task_loss": 0.6371253132820129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5930525064468384,
      "epoch": 8.75,
      "learning_rate": 2.3165309956167818e-05,
      "loss": 0.7203,
      "step": 10346,
      "task_loss": 1.8512521982192993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36674487590789795,
      "epoch": 8.75,
      "learning_rate": 2.316217908578585e-05,
      "loss": 0.6722,
      "step": 10347,
      "task_loss": 0.5891098380088806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.955354630947113,
      "epoch": 8.75,
      "learning_rate": 2.3159048215403885e-05,
      "loss": 0.6454,
      "step": 10348,
      "task_loss": 0.4280858039855957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5089486241340637,
      "epoch": 8.75,
      "learning_rate": 2.315591734502192e-05,
      "loss": 0.6259,
      "step": 10349,
      "task_loss": 0.32104092836380005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.379539430141449,
      "epoch": 8.75,
      "learning_rate": 2.315278647463995e-05,
      "loss": 0.5399,
      "step": 10350,
      "task_loss": 0.3490810692310333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47443920373916626,
      "epoch": 8.75,
      "learning_rate": 2.3149655604257987e-05,
      "loss": 0.6687,
      "step": 10351,
      "task_loss": 1.2928767204284668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7143051028251648,
      "epoch": 8.75,
      "learning_rate": 2.314652473387602e-05,
      "loss": 0.5771,
      "step": 10352,
      "task_loss": 0.9570068717002869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6997722387313843,
      "epoch": 8.75,
      "learning_rate": 2.3143393863494054e-05,
      "loss": 0.8043,
      "step": 10353,
      "task_loss": 1.3641871213912964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.692549467086792,
      "epoch": 8.75,
      "learning_rate": 2.3140262993112085e-05,
      "loss": 0.7886,
      "step": 10354,
      "task_loss": 0.7015074491500854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8476186394691467,
      "epoch": 8.75,
      "learning_rate": 2.313713212273012e-05,
      "loss": 0.5652,
      "step": 10355,
      "task_loss": 1.2228002548217773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8332419991493225,
      "epoch": 8.75,
      "learning_rate": 2.3134001252348152e-05,
      "loss": 0.7051,
      "step": 10356,
      "task_loss": 0.9708960652351379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6420169472694397,
      "epoch": 8.75,
      "learning_rate": 2.3130870381966188e-05,
      "loss": 0.6006,
      "step": 10357,
      "task_loss": 0.7974494099617004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3863992691040039,
      "epoch": 8.76,
      "learning_rate": 2.312773951158422e-05,
      "loss": 0.5049,
      "step": 10358,
      "task_loss": 0.25285446643829346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5578740835189819,
      "epoch": 8.76,
      "learning_rate": 2.3124608641202254e-05,
      "loss": 0.6277,
      "step": 10359,
      "task_loss": 1.9122505187988281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7356958389282227,
      "epoch": 8.76,
      "learning_rate": 2.3121477770820286e-05,
      "loss": 0.4733,
      "step": 10360,
      "task_loss": 1.0393308401107788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38609281182289124,
      "epoch": 8.76,
      "learning_rate": 2.311834690043832e-05,
      "loss": 0.6162,
      "step": 10361,
      "task_loss": 0.1925063133239746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37191784381866455,
      "epoch": 8.76,
      "learning_rate": 2.3115216030056357e-05,
      "loss": 0.5569,
      "step": 10362,
      "task_loss": 0.9600260853767395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6537123322486877,
      "epoch": 8.76,
      "learning_rate": 2.3112085159674392e-05,
      "loss": 0.7665,
      "step": 10363,
      "task_loss": 0.7764924764633179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3230307698249817,
      "epoch": 8.76,
      "learning_rate": 2.3108954289292427e-05,
      "loss": 0.562,
      "step": 10364,
      "task_loss": 0.22137141227722168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43140938878059387,
      "epoch": 8.76,
      "learning_rate": 2.310582341891046e-05,
      "loss": 0.6315,
      "step": 10365,
      "task_loss": 0.43146100640296936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5331190824508667,
      "epoch": 8.76,
      "learning_rate": 2.3102692548528494e-05,
      "loss": 0.5398,
      "step": 10366,
      "task_loss": 0.8127729296684265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6909347176551819,
      "epoch": 8.76,
      "learning_rate": 2.3099561678146526e-05,
      "loss": 0.5521,
      "step": 10367,
      "task_loss": 0.5541678667068481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4124220013618469,
      "epoch": 8.76,
      "learning_rate": 2.309643080776456e-05,
      "loss": 0.8441,
      "step": 10368,
      "task_loss": 0.27316808700561523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3350998163223267,
      "epoch": 8.76,
      "learning_rate": 2.3093299937382593e-05,
      "loss": 0.8253,
      "step": 10369,
      "task_loss": 1.588733434677124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6323912739753723,
      "epoch": 8.77,
      "learning_rate": 2.3090169067000628e-05,
      "loss": 0.5035,
      "step": 10370,
      "task_loss": 1.5203354358673096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30298763513565063,
      "epoch": 8.77,
      "learning_rate": 2.308703819661866e-05,
      "loss": 0.66,
      "step": 10371,
      "task_loss": 0.4342939555644989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4886600077152252,
      "epoch": 8.77,
      "learning_rate": 2.3083907326236695e-05,
      "loss": 0.5038,
      "step": 10372,
      "task_loss": 0.24454772472381592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6762925386428833,
      "epoch": 8.77,
      "learning_rate": 2.3080776455854727e-05,
      "loss": 0.5587,
      "step": 10373,
      "task_loss": 0.8766843676567078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3852609694004059,
      "epoch": 8.77,
      "learning_rate": 2.3077645585472762e-05,
      "loss": 0.4594,
      "step": 10374,
      "task_loss": 0.3457113206386566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6160033345222473,
      "epoch": 8.77,
      "learning_rate": 2.3074514715090797e-05,
      "loss": 0.5304,
      "step": 10375,
      "task_loss": 0.2684219181537628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5150679349899292,
      "epoch": 8.77,
      "learning_rate": 2.307138384470883e-05,
      "loss": 0.3969,
      "step": 10376,
      "task_loss": 0.4745836555957794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3950892686843872,
      "epoch": 8.77,
      "learning_rate": 2.3068252974326864e-05,
      "loss": 0.5512,
      "step": 10377,
      "task_loss": 0.3169928193092346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30836284160614014,
      "epoch": 8.77,
      "learning_rate": 2.3065122103944896e-05,
      "loss": 0.4878,
      "step": 10378,
      "task_loss": 0.09234236925840378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40844979882240295,
      "epoch": 8.77,
      "learning_rate": 2.306199123356293e-05,
      "loss": 0.4807,
      "step": 10379,
      "task_loss": 0.44722384214401245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4780873656272888,
      "epoch": 8.77,
      "learning_rate": 2.3058860363180966e-05,
      "loss": 0.556,
      "step": 10380,
      "task_loss": 1.2595882415771484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6175422072410583,
      "epoch": 8.77,
      "learning_rate": 2.3055729492799e-05,
      "loss": 0.5852,
      "step": 10381,
      "task_loss": 0.3905195891857147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2845686078071594,
      "epoch": 8.78,
      "learning_rate": 2.3052598622417033e-05,
      "loss": 0.4435,
      "step": 10382,
      "task_loss": 0.8841062188148499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030027627944946,
      "epoch": 8.78,
      "learning_rate": 2.3049467752035068e-05,
      "loss": 0.5746,
      "step": 10383,
      "task_loss": 0.7060868740081787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6126440763473511,
      "epoch": 8.78,
      "learning_rate": 2.30463368816531e-05,
      "loss": 0.5726,
      "step": 10384,
      "task_loss": 0.24917663633823395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6217581033706665,
      "epoch": 8.78,
      "learning_rate": 2.3043206011271135e-05,
      "loss": 0.5418,
      "step": 10385,
      "task_loss": 0.5350740551948547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6811140179634094,
      "epoch": 8.78,
      "learning_rate": 2.304007514088917e-05,
      "loss": 0.6088,
      "step": 10386,
      "task_loss": 0.7554417848587036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0173475742340088,
      "epoch": 8.78,
      "learning_rate": 2.3036944270507202e-05,
      "loss": 0.5678,
      "step": 10387,
      "task_loss": 1.1980688571929932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21973145008087158,
      "epoch": 8.78,
      "learning_rate": 2.3033813400125237e-05,
      "loss": 0.4085,
      "step": 10388,
      "task_loss": 0.30830666422843933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6924514770507812,
      "epoch": 8.78,
      "learning_rate": 2.303068252974327e-05,
      "loss": 0.7874,
      "step": 10389,
      "task_loss": 1.0641162395477295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.985315203666687,
      "epoch": 8.78,
      "learning_rate": 2.3027551659361304e-05,
      "loss": 0.7095,
      "step": 10390,
      "task_loss": 0.6731477379798889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3559461236000061,
      "epoch": 8.78,
      "learning_rate": 2.3024420788979336e-05,
      "loss": 0.5386,
      "step": 10391,
      "task_loss": 0.5954186916351318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36798295378685,
      "epoch": 8.78,
      "learning_rate": 2.302128991859737e-05,
      "loss": 0.4759,
      "step": 10392,
      "task_loss": 0.628623366355896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7061762809753418,
      "epoch": 8.78,
      "learning_rate": 2.3018159048215403e-05,
      "loss": 0.5152,
      "step": 10393,
      "task_loss": 0.7895524501800537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39230602979660034,
      "epoch": 8.79,
      "learning_rate": 2.3015028177833438e-05,
      "loss": 0.6226,
      "step": 10394,
      "task_loss": 0.3581845462322235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.534704864025116,
      "epoch": 8.79,
      "learning_rate": 2.3011897307451473e-05,
      "loss": 0.4115,
      "step": 10395,
      "task_loss": 0.4903393089771271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45188677310943604,
      "epoch": 8.79,
      "learning_rate": 2.300876643706951e-05,
      "loss": 0.5527,
      "step": 10396,
      "task_loss": 0.3470648229122162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7374054789543152,
      "epoch": 8.79,
      "learning_rate": 2.300563556668754e-05,
      "loss": 0.7796,
      "step": 10397,
      "task_loss": 0.5706772804260254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8489549160003662,
      "epoch": 8.79,
      "learning_rate": 2.3002504696305575e-05,
      "loss": 0.5696,
      "step": 10398,
      "task_loss": 0.22981072962284088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4644809663295746,
      "epoch": 8.79,
      "learning_rate": 2.299937382592361e-05,
      "loss": 0.602,
      "step": 10399,
      "task_loss": 0.4993766248226166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.702807605266571,
      "epoch": 8.79,
      "learning_rate": 2.2996242955541642e-05,
      "loss": 0.5768,
      "step": 10400,
      "task_loss": 1.3677982091903687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4047866761684418,
      "epoch": 8.79,
      "learning_rate": 2.2993112085159677e-05,
      "loss": 0.4902,
      "step": 10401,
      "task_loss": 0.5207951068878174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3349772095680237,
      "epoch": 8.79,
      "learning_rate": 2.298998121477771e-05,
      "loss": 0.5788,
      "step": 10402,
      "task_loss": 0.3992491364479065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36919423937797546,
      "epoch": 8.79,
      "learning_rate": 2.2986850344395744e-05,
      "loss": 0.5172,
      "step": 10403,
      "task_loss": 0.43982571363449097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.617461085319519,
      "epoch": 8.79,
      "learning_rate": 2.2983719474013776e-05,
      "loss": 0.5768,
      "step": 10404,
      "task_loss": 0.6602907776832581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7570123672485352,
      "epoch": 8.79,
      "learning_rate": 2.298058860363181e-05,
      "loss": 0.6989,
      "step": 10405,
      "task_loss": 0.5688965916633606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5079675316810608,
      "epoch": 8.8,
      "learning_rate": 2.2977457733249843e-05,
      "loss": 0.4478,
      "step": 10406,
      "task_loss": 1.8784152269363403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6953410506248474,
      "epoch": 8.8,
      "learning_rate": 2.2974326862867878e-05,
      "loss": 0.4968,
      "step": 10407,
      "task_loss": 0.766654372215271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2692314684391022,
      "epoch": 8.8,
      "learning_rate": 2.297119599248591e-05,
      "loss": 0.4501,
      "step": 10408,
      "task_loss": 0.6639240384101868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5535884499549866,
      "epoch": 8.8,
      "learning_rate": 2.2968065122103945e-05,
      "loss": 0.5346,
      "step": 10409,
      "task_loss": 0.2012121081352234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39217817783355713,
      "epoch": 8.8,
      "learning_rate": 2.2964934251721977e-05,
      "loss": 0.3439,
      "step": 10410,
      "task_loss": 0.22894737124443054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5869215726852417,
      "epoch": 8.8,
      "learning_rate": 2.2961803381340012e-05,
      "loss": 0.5956,
      "step": 10411,
      "task_loss": 1.0420713424682617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6027219295501709,
      "epoch": 8.8,
      "learning_rate": 2.2958672510958047e-05,
      "loss": 0.7561,
      "step": 10412,
      "task_loss": 1.8512935638427734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6672438979148865,
      "epoch": 8.8,
      "learning_rate": 2.2955541640576082e-05,
      "loss": 0.5567,
      "step": 10413,
      "task_loss": 0.8508520722389221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7304369211196899,
      "epoch": 8.8,
      "learning_rate": 2.2952410770194118e-05,
      "loss": 0.5593,
      "step": 10414,
      "task_loss": 0.764739453792572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6121387481689453,
      "epoch": 8.8,
      "learning_rate": 2.294927989981215e-05,
      "loss": 0.6845,
      "step": 10415,
      "task_loss": 1.1698776483535767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6708433032035828,
      "epoch": 8.8,
      "learning_rate": 2.2946149029430185e-05,
      "loss": 0.5895,
      "step": 10416,
      "task_loss": 0.09957325458526611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5544990301132202,
      "epoch": 8.81,
      "learning_rate": 2.2943018159048216e-05,
      "loss": 0.5826,
      "step": 10417,
      "task_loss": 1.5976804494857788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1258759498596191,
      "epoch": 8.81,
      "learning_rate": 2.293988728866625e-05,
      "loss": 0.7656,
      "step": 10418,
      "task_loss": 1.4027128219604492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6737262606620789,
      "epoch": 8.81,
      "learning_rate": 2.2936756418284283e-05,
      "loss": 0.6231,
      "step": 10419,
      "task_loss": 0.41880524158477783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4934385418891907,
      "epoch": 8.81,
      "learning_rate": 2.293362554790232e-05,
      "loss": 0.583,
      "step": 10420,
      "task_loss": 1.0891083478927612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6571741104125977,
      "epoch": 8.81,
      "learning_rate": 2.293049467752035e-05,
      "loss": 0.514,
      "step": 10421,
      "task_loss": 0.5284713506698608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20996138453483582,
      "epoch": 8.81,
      "learning_rate": 2.2927363807138385e-05,
      "loss": 0.4914,
      "step": 10422,
      "task_loss": 0.6232519149780273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34344664216041565,
      "epoch": 8.81,
      "learning_rate": 2.292423293675642e-05,
      "loss": 0.605,
      "step": 10423,
      "task_loss": 0.7824487686157227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9866288304328918,
      "epoch": 8.81,
      "learning_rate": 2.2921102066374452e-05,
      "loss": 0.6569,
      "step": 10424,
      "task_loss": 0.440986692905426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2630934417247772,
      "epoch": 8.81,
      "learning_rate": 2.2917971195992488e-05,
      "loss": 0.4356,
      "step": 10425,
      "task_loss": 0.44044554233551025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4033052921295166,
      "epoch": 8.81,
      "learning_rate": 2.291484032561052e-05,
      "loss": 0.6199,
      "step": 10426,
      "task_loss": 0.28292712569236755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967134237289429,
      "epoch": 8.81,
      "learning_rate": 2.2911709455228555e-05,
      "loss": 0.5678,
      "step": 10427,
      "task_loss": 1.1858819723129272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5336145758628845,
      "epoch": 8.81,
      "learning_rate": 2.2908578584846586e-05,
      "loss": 0.547,
      "step": 10428,
      "task_loss": 0.8411793112754822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49962884187698364,
      "epoch": 8.82,
      "learning_rate": 2.290544771446462e-05,
      "loss": 0.4258,
      "step": 10429,
      "task_loss": 0.6744248867034912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0279333591461182,
      "epoch": 8.82,
      "learning_rate": 2.2902316844082657e-05,
      "loss": 0.6781,
      "step": 10430,
      "task_loss": 0.8679706454277039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3892497420310974,
      "epoch": 8.82,
      "learning_rate": 2.2899185973700692e-05,
      "loss": 0.4964,
      "step": 10431,
      "task_loss": 0.943821132183075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5360161066055298,
      "epoch": 8.82,
      "learning_rate": 2.2896055103318724e-05,
      "loss": 0.7096,
      "step": 10432,
      "task_loss": 1.128258466720581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5027453899383545,
      "epoch": 8.82,
      "learning_rate": 2.289292423293676e-05,
      "loss": 0.5644,
      "step": 10433,
      "task_loss": 0.41313421726226807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7338376045227051,
      "epoch": 8.82,
      "learning_rate": 2.288979336255479e-05,
      "loss": 0.4578,
      "step": 10434,
      "task_loss": 0.43217289447784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33614733815193176,
      "epoch": 8.82,
      "learning_rate": 2.2886662492172826e-05,
      "loss": 0.5006,
      "step": 10435,
      "task_loss": 0.8646050095558167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46052443981170654,
      "epoch": 8.82,
      "learning_rate": 2.288353162179086e-05,
      "loss": 0.5788,
      "step": 10436,
      "task_loss": 0.5692204833030701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1146495342254639,
      "epoch": 8.82,
      "learning_rate": 2.2880400751408893e-05,
      "loss": 0.7403,
      "step": 10437,
      "task_loss": 1.8941160440444946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6668336391448975,
      "epoch": 8.82,
      "learning_rate": 2.2877269881026928e-05,
      "loss": 0.5534,
      "step": 10438,
      "task_loss": 1.4668835401535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5229263305664062,
      "epoch": 8.82,
      "learning_rate": 2.287413901064496e-05,
      "loss": 0.5167,
      "step": 10439,
      "task_loss": 0.5080314874649048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7871178388595581,
      "epoch": 8.82,
      "learning_rate": 2.2871008140262995e-05,
      "loss": 0.5991,
      "step": 10440,
      "task_loss": 1.3417716026306152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6589687466621399,
      "epoch": 8.83,
      "learning_rate": 2.2867877269881027e-05,
      "loss": 0.5845,
      "step": 10441,
      "task_loss": 0.9358371496200562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4896763563156128,
      "epoch": 8.83,
      "learning_rate": 2.2864746399499062e-05,
      "loss": 0.6071,
      "step": 10442,
      "task_loss": 0.6223272681236267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7814544439315796,
      "epoch": 8.83,
      "learning_rate": 2.2861615529117094e-05,
      "loss": 0.5188,
      "step": 10443,
      "task_loss": 1.9767159223556519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5879467725753784,
      "epoch": 8.83,
      "learning_rate": 2.285848465873513e-05,
      "loss": 0.6965,
      "step": 10444,
      "task_loss": 0.69621342420578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.751725435256958,
      "epoch": 8.83,
      "learning_rate": 2.285535378835316e-05,
      "loss": 0.6899,
      "step": 10445,
      "task_loss": 0.2655404210090637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7325441241264343,
      "epoch": 8.83,
      "learning_rate": 2.2852222917971196e-05,
      "loss": 0.5208,
      "step": 10446,
      "task_loss": 0.36884403228759766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5618202686309814,
      "epoch": 8.83,
      "learning_rate": 2.284909204758923e-05,
      "loss": 0.7542,
      "step": 10447,
      "task_loss": 1.0324609279632568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6579235792160034,
      "epoch": 8.83,
      "learning_rate": 2.2845961177207266e-05,
      "loss": 0.5558,
      "step": 10448,
      "task_loss": 0.3519543707370758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221633911132812,
      "epoch": 8.83,
      "learning_rate": 2.28428303068253e-05,
      "loss": 0.6164,
      "step": 10449,
      "task_loss": 0.6858883500099182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7290145754814148,
      "epoch": 8.83,
      "learning_rate": 2.2839699436443333e-05,
      "loss": 0.7059,
      "step": 10450,
      "task_loss": 0.8614007830619812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9180335402488708,
      "epoch": 8.83,
      "learning_rate": 2.2836568566061368e-05,
      "loss": 0.7761,
      "step": 10451,
      "task_loss": 1.2522287368774414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7286669611930847,
      "epoch": 8.83,
      "learning_rate": 2.28334376956794e-05,
      "loss": 0.6923,
      "step": 10452,
      "task_loss": 0.3248380124568939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41725075244903564,
      "epoch": 8.84,
      "learning_rate": 2.2830306825297435e-05,
      "loss": 0.5921,
      "step": 10453,
      "task_loss": 0.3158210813999176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8432713747024536,
      "epoch": 8.84,
      "learning_rate": 2.2827175954915467e-05,
      "loss": 0.6266,
      "step": 10454,
      "task_loss": 0.9793534278869629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8957875370979309,
      "epoch": 8.84,
      "learning_rate": 2.2824045084533502e-05,
      "loss": 0.6226,
      "step": 10455,
      "task_loss": 0.8345890641212463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4196119010448456,
      "epoch": 8.84,
      "learning_rate": 2.2820914214151534e-05,
      "loss": 0.5604,
      "step": 10456,
      "task_loss": 1.2297245264053345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7853177785873413,
      "epoch": 8.84,
      "learning_rate": 2.281778334376957e-05,
      "loss": 0.591,
      "step": 10457,
      "task_loss": 1.0229095220565796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569533705711365,
      "epoch": 8.84,
      "learning_rate": 2.28146524733876e-05,
      "loss": 0.4965,
      "step": 10458,
      "task_loss": 1.7872692346572876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5424090027809143,
      "epoch": 8.84,
      "learning_rate": 2.2811521603005636e-05,
      "loss": 0.4701,
      "step": 10459,
      "task_loss": 0.7421183586120605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.652808427810669,
      "epoch": 8.84,
      "learning_rate": 2.280839073262367e-05,
      "loss": 0.5357,
      "step": 10460,
      "task_loss": 0.9478225111961365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7929708957672119,
      "epoch": 8.84,
      "learning_rate": 2.2805259862241703e-05,
      "loss": 0.6332,
      "step": 10461,
      "task_loss": 1.2375218868255615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36287209391593933,
      "epoch": 8.84,
      "learning_rate": 2.2802128991859738e-05,
      "loss": 0.7238,
      "step": 10462,
      "task_loss": 0.8427521586418152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3722900152206421,
      "epoch": 8.84,
      "learning_rate": 2.279899812147777e-05,
      "loss": 0.5543,
      "step": 10463,
      "task_loss": 0.3778744041919708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6857789158821106,
      "epoch": 8.84,
      "learning_rate": 2.2795867251095805e-05,
      "loss": 0.5769,
      "step": 10464,
      "task_loss": 0.5193248987197876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5159193277359009,
      "epoch": 8.85,
      "learning_rate": 2.279273638071384e-05,
      "loss": 0.663,
      "step": 10465,
      "task_loss": 0.8453859090805054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47878706455230713,
      "epoch": 8.85,
      "learning_rate": 2.2789605510331875e-05,
      "loss": 0.504,
      "step": 10466,
      "task_loss": 0.7330911159515381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2631017565727234,
      "epoch": 8.85,
      "learning_rate": 2.2786474639949907e-05,
      "loss": 0.4961,
      "step": 10467,
      "task_loss": 1.042837142944336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5415751934051514,
      "epoch": 8.85,
      "learning_rate": 2.2783343769567942e-05,
      "loss": 0.6242,
      "step": 10468,
      "task_loss": 0.6013956665992737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3005352318286896,
      "epoch": 8.85,
      "learning_rate": 2.2780212899185974e-05,
      "loss": 0.5245,
      "step": 10469,
      "task_loss": 1.120347499847412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6120573282241821,
      "epoch": 8.85,
      "learning_rate": 2.277708202880401e-05,
      "loss": 0.6977,
      "step": 10470,
      "task_loss": 1.1221232414245605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3483387231826782,
      "epoch": 8.85,
      "learning_rate": 2.277395115842204e-05,
      "loss": 0.5292,
      "step": 10471,
      "task_loss": 0.6338210701942444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5100565552711487,
      "epoch": 8.85,
      "learning_rate": 2.2770820288040076e-05,
      "loss": 0.6053,
      "step": 10472,
      "task_loss": 0.9237958192825317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48464730381965637,
      "epoch": 8.85,
      "learning_rate": 2.276768941765811e-05,
      "loss": 0.7357,
      "step": 10473,
      "task_loss": 0.6939235329627991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.648261547088623,
      "epoch": 8.85,
      "learning_rate": 2.2764558547276143e-05,
      "loss": 0.5596,
      "step": 10474,
      "task_loss": 0.41609832644462585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4448244571685791,
      "epoch": 8.85,
      "learning_rate": 2.2761427676894178e-05,
      "loss": 0.5142,
      "step": 10475,
      "task_loss": 0.37247776985168457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36651432514190674,
      "epoch": 8.85,
      "learning_rate": 2.275829680651221e-05,
      "loss": 0.4419,
      "step": 10476,
      "task_loss": 0.5051535964012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5358697175979614,
      "epoch": 8.86,
      "learning_rate": 2.2755165936130245e-05,
      "loss": 0.503,
      "step": 10477,
      "task_loss": 0.4804258346557617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3328081965446472,
      "epoch": 8.86,
      "learning_rate": 2.2752035065748277e-05,
      "loss": 0.5096,
      "step": 10478,
      "task_loss": 0.16120098531246185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8418604731559753,
      "epoch": 8.86,
      "learning_rate": 2.2748904195366312e-05,
      "loss": 0.6516,
      "step": 10479,
      "task_loss": 0.3288886845111847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30376172065734863,
      "epoch": 8.86,
      "learning_rate": 2.2745773324984347e-05,
      "loss": 0.5074,
      "step": 10480,
      "task_loss": 0.5157417058944702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6025195717811584,
      "epoch": 8.86,
      "learning_rate": 2.2742642454602383e-05,
      "loss": 0.5719,
      "step": 10481,
      "task_loss": 1.1164966821670532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4370139539241791,
      "epoch": 8.86,
      "learning_rate": 2.2739511584220414e-05,
      "loss": 0.6286,
      "step": 10482,
      "task_loss": 1.3580635786056519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.088862657546997,
      "epoch": 8.86,
      "learning_rate": 2.273638071383845e-05,
      "loss": 0.6754,
      "step": 10483,
      "task_loss": 0.3700340688228607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5300573110580444,
      "epoch": 8.86,
      "learning_rate": 2.2733249843456485e-05,
      "loss": 0.5706,
      "step": 10484,
      "task_loss": 0.335488885641098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5880345106124878,
      "epoch": 8.86,
      "learning_rate": 2.2730118973074516e-05,
      "loss": 0.6712,
      "step": 10485,
      "task_loss": 1.2464828491210938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.529059886932373,
      "epoch": 8.86,
      "learning_rate": 2.272698810269255e-05,
      "loss": 0.521,
      "step": 10486,
      "task_loss": 0.683984100818634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7269982099533081,
      "epoch": 8.86,
      "learning_rate": 2.2723857232310583e-05,
      "loss": 0.5556,
      "step": 10487,
      "task_loss": 0.8668089509010315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4427383244037628,
      "epoch": 8.87,
      "learning_rate": 2.272072636192862e-05,
      "loss": 0.6575,
      "step": 10488,
      "task_loss": 1.0814142227172852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6097993850708008,
      "epoch": 8.87,
      "learning_rate": 2.271759549154665e-05,
      "loss": 0.4867,
      "step": 10489,
      "task_loss": 0.8811888098716736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5433340668678284,
      "epoch": 8.87,
      "learning_rate": 2.2714464621164685e-05,
      "loss": 0.597,
      "step": 10490,
      "task_loss": 0.35240957140922546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6685360670089722,
      "epoch": 8.87,
      "learning_rate": 2.2711333750782717e-05,
      "loss": 0.6268,
      "step": 10491,
      "task_loss": 0.5802634358406067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2729682922363281,
      "epoch": 8.87,
      "learning_rate": 2.2708202880400752e-05,
      "loss": 0.6238,
      "step": 10492,
      "task_loss": 0.5911088585853577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.815201997756958,
      "epoch": 8.87,
      "learning_rate": 2.2705072010018784e-05,
      "loss": 0.5418,
      "step": 10493,
      "task_loss": 1.1197336912155151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4049554467201233,
      "epoch": 8.87,
      "learning_rate": 2.270194113963682e-05,
      "loss": 0.4615,
      "step": 10494,
      "task_loss": 0.8980569839477539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7749455571174622,
      "epoch": 8.87,
      "learning_rate": 2.269881026925485e-05,
      "loss": 0.5951,
      "step": 10495,
      "task_loss": 1.2134231328964233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7167612314224243,
      "epoch": 8.87,
      "learning_rate": 2.2695679398872886e-05,
      "loss": 0.6021,
      "step": 10496,
      "task_loss": 0.5986979007720947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5996874570846558,
      "epoch": 8.87,
      "learning_rate": 2.269254852849092e-05,
      "loss": 0.5497,
      "step": 10497,
      "task_loss": 0.5379956960678101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3817159831523895,
      "epoch": 8.87,
      "learning_rate": 2.2689417658108957e-05,
      "loss": 0.5444,
      "step": 10498,
      "task_loss": 0.3845944106578827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5230769515037537,
      "epoch": 8.87,
      "learning_rate": 2.2686286787726992e-05,
      "loss": 0.6068,
      "step": 10499,
      "task_loss": 0.24306488037109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0672565698623657,
      "epoch": 8.88,
      "learning_rate": 2.2683155917345024e-05,
      "loss": 0.7235,
      "step": 10500,
      "task_loss": 1.7998485565185547
    },
    {
      "epoch": 8.88,
      "eval_accuracy": 0.9000396039603961,
      "eval_loss": 0.39152297377586365,
      "eval_runtime": 207.1761,
      "eval_samples_per_second": 121.877,
      "eval_steps_per_second": 0.956,
      "step": 10500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6651073694229126,
      "epoch": 8.88,
      "learning_rate": 2.268002504696306e-05,
      "loss": 0.722,
      "step": 10501,
      "task_loss": 0.5393909811973572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.497221976518631,
      "epoch": 8.88,
      "learning_rate": 2.267689417658109e-05,
      "loss": 0.6425,
      "step": 10502,
      "task_loss": 0.8226983547210693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6366095542907715,
      "epoch": 8.88,
      "learning_rate": 2.2673763306199126e-05,
      "loss": 0.5477,
      "step": 10503,
      "task_loss": 0.718218982219696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6796269416809082,
      "epoch": 8.88,
      "learning_rate": 2.2670632435817158e-05,
      "loss": 0.6823,
      "step": 10504,
      "task_loss": 1.184224247932434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5871130228042603,
      "epoch": 8.88,
      "learning_rate": 2.2667501565435193e-05,
      "loss": 0.5519,
      "step": 10505,
      "task_loss": 0.7667039632797241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4442088007926941,
      "epoch": 8.88,
      "learning_rate": 2.2664370695053224e-05,
      "loss": 0.4419,
      "step": 10506,
      "task_loss": 0.2888334393501282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6640299558639526,
      "epoch": 8.88,
      "learning_rate": 2.266123982467126e-05,
      "loss": 0.7325,
      "step": 10507,
      "task_loss": 0.8966391682624817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6949887275695801,
      "epoch": 8.88,
      "learning_rate": 2.265810895428929e-05,
      "loss": 0.5114,
      "step": 10508,
      "task_loss": 0.7734278440475464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5261613726615906,
      "epoch": 8.88,
      "learning_rate": 2.2654978083907327e-05,
      "loss": 0.5484,
      "step": 10509,
      "task_loss": 0.5083299279212952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5977286100387573,
      "epoch": 8.88,
      "learning_rate": 2.2651847213525362e-05,
      "loss": 0.5967,
      "step": 10510,
      "task_loss": 0.2785641849040985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5019561052322388,
      "epoch": 8.88,
      "learning_rate": 2.2648716343143394e-05,
      "loss": 0.5299,
      "step": 10511,
      "task_loss": 0.7786123156547546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4069534242153168,
      "epoch": 8.89,
      "learning_rate": 2.264558547276143e-05,
      "loss": 0.5679,
      "step": 10512,
      "task_loss": 0.40460067987442017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45377668738365173,
      "epoch": 8.89,
      "learning_rate": 2.264245460237946e-05,
      "loss": 0.5356,
      "step": 10513,
      "task_loss": 1.1058604717254639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4052448570728302,
      "epoch": 8.89,
      "learning_rate": 2.2639323731997496e-05,
      "loss": 0.3612,
      "step": 10514,
      "task_loss": 0.48617422580718994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7197591662406921,
      "epoch": 8.89,
      "learning_rate": 2.263619286161553e-05,
      "loss": 0.6018,
      "step": 10515,
      "task_loss": 1.6527934074401855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1880302429199219,
      "epoch": 8.89,
      "learning_rate": 2.2633061991233566e-05,
      "loss": 0.7131,
      "step": 10516,
      "task_loss": 0.5114843845367432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.459593802690506,
      "epoch": 8.89,
      "learning_rate": 2.2629931120851598e-05,
      "loss": 0.5633,
      "step": 10517,
      "task_loss": 0.7250383496284485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44248291850090027,
      "epoch": 8.89,
      "learning_rate": 2.2626800250469633e-05,
      "loss": 0.5375,
      "step": 10518,
      "task_loss": 0.696547269821167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3824719488620758,
      "epoch": 8.89,
      "learning_rate": 2.2623669380087665e-05,
      "loss": 0.5232,
      "step": 10519,
      "task_loss": 0.22857072949409485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6758444905281067,
      "epoch": 8.89,
      "learning_rate": 2.26205385097057e-05,
      "loss": 0.5736,
      "step": 10520,
      "task_loss": 0.7699200510978699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5679305791854858,
      "epoch": 8.89,
      "learning_rate": 2.2617407639323735e-05,
      "loss": 0.5964,
      "step": 10521,
      "task_loss": 0.6197380423545837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0451138019561768,
      "epoch": 8.89,
      "learning_rate": 2.2614276768941767e-05,
      "loss": 0.6415,
      "step": 10522,
      "task_loss": 1.293403148651123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2590227723121643,
      "epoch": 8.89,
      "learning_rate": 2.2611145898559802e-05,
      "loss": 0.5023,
      "step": 10523,
      "task_loss": 0.04939115792512894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5097392797470093,
      "epoch": 8.9,
      "learning_rate": 2.2608015028177834e-05,
      "loss": 0.5813,
      "step": 10524,
      "task_loss": 0.40550073981285095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395656824111938,
      "epoch": 8.9,
      "learning_rate": 2.260488415779587e-05,
      "loss": 0.6219,
      "step": 10525,
      "task_loss": 0.39081984758377075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.286435067653656,
      "epoch": 8.9,
      "learning_rate": 2.26017532874139e-05,
      "loss": 0.5617,
      "step": 10526,
      "task_loss": 0.8928550481796265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38232189416885376,
      "epoch": 8.9,
      "learning_rate": 2.2598622417031936e-05,
      "loss": 0.4948,
      "step": 10527,
      "task_loss": 0.459408700466156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35106468200683594,
      "epoch": 8.9,
      "learning_rate": 2.2595491546649968e-05,
      "loss": 0.4116,
      "step": 10528,
      "task_loss": 0.5715097784996033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7316780090332031,
      "epoch": 8.9,
      "learning_rate": 2.2592360676268003e-05,
      "loss": 0.5853,
      "step": 10529,
      "task_loss": 0.8471717238426208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0662968158721924,
      "epoch": 8.9,
      "learning_rate": 2.2589229805886035e-05,
      "loss": 0.9217,
      "step": 10530,
      "task_loss": 1.8822026252746582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7219607830047607,
      "epoch": 8.9,
      "learning_rate": 2.258609893550407e-05,
      "loss": 0.5858,
      "step": 10531,
      "task_loss": 1.276758074760437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5173249244689941,
      "epoch": 8.9,
      "learning_rate": 2.2582968065122105e-05,
      "loss": 0.5173,
      "step": 10532,
      "task_loss": 1.4584888219833374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0360435247421265,
      "epoch": 8.9,
      "learning_rate": 2.257983719474014e-05,
      "loss": 0.7347,
      "step": 10533,
      "task_loss": 0.9073396325111389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42327630519866943,
      "epoch": 8.9,
      "learning_rate": 2.2576706324358175e-05,
      "loss": 0.5072,
      "step": 10534,
      "task_loss": 1.5252729654312134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5239620208740234,
      "epoch": 8.9,
      "learning_rate": 2.2573575453976207e-05,
      "loss": 0.5989,
      "step": 10535,
      "task_loss": 1.301074743270874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1205112934112549,
      "epoch": 8.91,
      "learning_rate": 2.2570444583594242e-05,
      "loss": 0.7261,
      "step": 10536,
      "task_loss": 0.9053485989570618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39859697222709656,
      "epoch": 8.91,
      "learning_rate": 2.2567313713212274e-05,
      "loss": 0.448,
      "step": 10537,
      "task_loss": 0.5359454154968262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5049400329589844,
      "epoch": 8.91,
      "learning_rate": 2.256418284283031e-05,
      "loss": 0.6402,
      "step": 10538,
      "task_loss": 1.273592233657837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4639715850353241,
      "epoch": 8.91,
      "learning_rate": 2.256105197244834e-05,
      "loss": 0.6661,
      "step": 10539,
      "task_loss": 0.879682183265686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.68784099817276,
      "epoch": 8.91,
      "learning_rate": 2.2557921102066376e-05,
      "loss": 0.5217,
      "step": 10540,
      "task_loss": 1.7078843116760254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6524635553359985,
      "epoch": 8.91,
      "learning_rate": 2.2554790231684408e-05,
      "loss": 0.7359,
      "step": 10541,
      "task_loss": 0.6464616656303406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4324854910373688,
      "epoch": 8.91,
      "learning_rate": 2.2551659361302443e-05,
      "loss": 0.5077,
      "step": 10542,
      "task_loss": 0.48503589630126953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.767743706703186,
      "epoch": 8.91,
      "learning_rate": 2.2548528490920475e-05,
      "loss": 0.5525,
      "step": 10543,
      "task_loss": 0.6313313841819763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4183396100997925,
      "epoch": 8.91,
      "learning_rate": 2.254539762053851e-05,
      "loss": 0.6781,
      "step": 10544,
      "task_loss": 0.7631233930587769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7072739005088806,
      "epoch": 8.91,
      "learning_rate": 2.2542266750156542e-05,
      "loss": 0.4884,
      "step": 10545,
      "task_loss": 1.483012080192566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5243905782699585,
      "epoch": 8.91,
      "learning_rate": 2.2539135879774577e-05,
      "loss": 0.5393,
      "step": 10546,
      "task_loss": 0.2655244767665863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2809096574783325,
      "epoch": 8.91,
      "learning_rate": 2.2536005009392612e-05,
      "loss": 0.4618,
      "step": 10547,
      "task_loss": 0.7709941267967224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5723223090171814,
      "epoch": 8.92,
      "learning_rate": 2.2532874139010647e-05,
      "loss": 0.5094,
      "step": 10548,
      "task_loss": 1.709193468093872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0904715061187744,
      "epoch": 8.92,
      "learning_rate": 2.252974326862868e-05,
      "loss": 0.6276,
      "step": 10549,
      "task_loss": 0.4644371271133423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7216352820396423,
      "epoch": 8.92,
      "learning_rate": 2.2526612398246714e-05,
      "loss": 0.7253,
      "step": 10550,
      "task_loss": 1.0955015420913696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7654957175254822,
      "epoch": 8.92,
      "learning_rate": 2.252348152786475e-05,
      "loss": 0.617,
      "step": 10551,
      "task_loss": 0.9037821888923645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32695215940475464,
      "epoch": 8.92,
      "learning_rate": 2.252035065748278e-05,
      "loss": 0.3656,
      "step": 10552,
      "task_loss": 0.33592721819877625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6607288122177124,
      "epoch": 8.92,
      "learning_rate": 2.2517219787100816e-05,
      "loss": 0.7694,
      "step": 10553,
      "task_loss": 0.45788100361824036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5939805507659912,
      "epoch": 8.92,
      "learning_rate": 2.2514088916718848e-05,
      "loss": 0.5452,
      "step": 10554,
      "task_loss": 0.7119861841201782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42948997020721436,
      "epoch": 8.92,
      "learning_rate": 2.2510958046336883e-05,
      "loss": 0.5261,
      "step": 10555,
      "task_loss": 0.35702744126319885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.615172803401947,
      "epoch": 8.92,
      "learning_rate": 2.2507827175954915e-05,
      "loss": 0.5194,
      "step": 10556,
      "task_loss": 1.215795636177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4837541878223419,
      "epoch": 8.92,
      "learning_rate": 2.250469630557295e-05,
      "loss": 0.6583,
      "step": 10557,
      "task_loss": 1.2889662981033325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5671366453170776,
      "epoch": 8.92,
      "learning_rate": 2.2501565435190986e-05,
      "loss": 0.5183,
      "step": 10558,
      "task_loss": 0.9319977760314941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6642827987670898,
      "epoch": 8.93,
      "learning_rate": 2.2498434564809017e-05,
      "loss": 0.7544,
      "step": 10559,
      "task_loss": 0.7280251979827881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5016883611679077,
      "epoch": 8.93,
      "learning_rate": 2.2495303694427052e-05,
      "loss": 0.5136,
      "step": 10560,
      "task_loss": 0.9828711748123169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.039698839187622,
      "epoch": 8.93,
      "learning_rate": 2.2492172824045084e-05,
      "loss": 0.6538,
      "step": 10561,
      "task_loss": 0.9945589303970337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9994767904281616,
      "epoch": 8.93,
      "learning_rate": 2.248904195366312e-05,
      "loss": 0.85,
      "step": 10562,
      "task_loss": 0.9413736462593079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49296313524246216,
      "epoch": 8.93,
      "learning_rate": 2.248591108328115e-05,
      "loss": 0.4795,
      "step": 10563,
      "task_loss": 0.5282530784606934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7023472785949707,
      "epoch": 8.93,
      "learning_rate": 2.2482780212899186e-05,
      "loss": 0.4683,
      "step": 10564,
      "task_loss": 1.2123581171035767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6587040424346924,
      "epoch": 8.93,
      "learning_rate": 2.247964934251722e-05,
      "loss": 0.5152,
      "step": 10565,
      "task_loss": 0.655671238899231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49091798067092896,
      "epoch": 8.93,
      "learning_rate": 2.2476518472135257e-05,
      "loss": 0.6792,
      "step": 10566,
      "task_loss": 0.8364027738571167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5026556253433228,
      "epoch": 8.93,
      "learning_rate": 2.247338760175329e-05,
      "loss": 0.6429,
      "step": 10567,
      "task_loss": 0.3729636073112488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7575958967208862,
      "epoch": 8.93,
      "learning_rate": 2.2470256731371324e-05,
      "loss": 0.4896,
      "step": 10568,
      "task_loss": 0.538507878780365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7647144198417664,
      "epoch": 8.93,
      "learning_rate": 2.2467125860989355e-05,
      "loss": 0.5866,
      "step": 10569,
      "task_loss": 0.7485898733139038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.662279486656189,
      "epoch": 8.93,
      "learning_rate": 2.246399499060739e-05,
      "loss": 0.6599,
      "step": 10570,
      "task_loss": 0.3507001996040344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5499578714370728,
      "epoch": 8.94,
      "learning_rate": 2.2460864120225426e-05,
      "loss": 0.5126,
      "step": 10571,
      "task_loss": 1.3203836679458618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5625450611114502,
      "epoch": 8.94,
      "learning_rate": 2.2457733249843458e-05,
      "loss": 0.5124,
      "step": 10572,
      "task_loss": 0.41948699951171875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5856466889381409,
      "epoch": 8.94,
      "learning_rate": 2.2454602379461493e-05,
      "loss": 0.6168,
      "step": 10573,
      "task_loss": 0.9739737510681152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3379833698272705,
      "epoch": 8.94,
      "learning_rate": 2.2451471509079525e-05,
      "loss": 0.5611,
      "step": 10574,
      "task_loss": 0.21121174097061157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7921472787857056,
      "epoch": 8.94,
      "learning_rate": 2.244834063869756e-05,
      "loss": 0.466,
      "step": 10575,
      "task_loss": 0.1358671337366104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5874049067497253,
      "epoch": 8.94,
      "learning_rate": 2.244520976831559e-05,
      "loss": 0.6433,
      "step": 10576,
      "task_loss": 0.3686770796775818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3398624062538147,
      "epoch": 8.94,
      "learning_rate": 2.2442078897933627e-05,
      "loss": 0.5573,
      "step": 10577,
      "task_loss": 0.2666524052619934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6123543381690979,
      "epoch": 8.94,
      "learning_rate": 2.243894802755166e-05,
      "loss": 0.7215,
      "step": 10578,
      "task_loss": 0.7572358250617981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41648241877555847,
      "epoch": 8.94,
      "learning_rate": 2.2435817157169694e-05,
      "loss": 0.5967,
      "step": 10579,
      "task_loss": 0.8961945176124573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43926846981048584,
      "epoch": 8.94,
      "learning_rate": 2.2432686286787725e-05,
      "loss": 0.5374,
      "step": 10580,
      "task_loss": 0.5121837258338928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5413174033164978,
      "epoch": 8.94,
      "learning_rate": 2.242955541640576e-05,
      "loss": 0.6501,
      "step": 10581,
      "task_loss": 0.5615526437759399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41683468222618103,
      "epoch": 8.94,
      "learning_rate": 2.2426424546023796e-05,
      "loss": 0.5186,
      "step": 10582,
      "task_loss": 0.2611750364303589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43540048599243164,
      "epoch": 8.95,
      "learning_rate": 2.242329367564183e-05,
      "loss": 0.5529,
      "step": 10583,
      "task_loss": 0.07233627885580063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5447527766227722,
      "epoch": 8.95,
      "learning_rate": 2.2420162805259866e-05,
      "loss": 0.599,
      "step": 10584,
      "task_loss": 0.2399687021970749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47865283489227295,
      "epoch": 8.95,
      "learning_rate": 2.2417031934877898e-05,
      "loss": 0.5795,
      "step": 10585,
      "task_loss": 0.20815511047840118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8532282114028931,
      "epoch": 8.95,
      "learning_rate": 2.2413901064495933e-05,
      "loss": 0.6902,
      "step": 10586,
      "task_loss": 0.9820976257324219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6111355423927307,
      "epoch": 8.95,
      "learning_rate": 2.2410770194113965e-05,
      "loss": 0.5499,
      "step": 10587,
      "task_loss": 1.1582748889923096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.727075457572937,
      "epoch": 8.95,
      "learning_rate": 2.2407639323732e-05,
      "loss": 0.4651,
      "step": 10588,
      "task_loss": 0.8232205510139465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4844414293766022,
      "epoch": 8.95,
      "learning_rate": 2.2404508453350032e-05,
      "loss": 0.5418,
      "step": 10589,
      "task_loss": 0.725516140460968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5620662569999695,
      "epoch": 8.95,
      "learning_rate": 2.2401377582968067e-05,
      "loss": 0.6722,
      "step": 10590,
      "task_loss": 0.3217407166957855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31349092721939087,
      "epoch": 8.95,
      "learning_rate": 2.23982467125861e-05,
      "loss": 0.4698,
      "step": 10591,
      "task_loss": 0.36254453659057617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293317079544067,
      "epoch": 8.95,
      "learning_rate": 2.2395115842204134e-05,
      "loss": 0.6023,
      "step": 10592,
      "task_loss": 1.2626954317092896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5917924046516418,
      "epoch": 8.95,
      "learning_rate": 2.2391984971822166e-05,
      "loss": 0.4709,
      "step": 10593,
      "task_loss": 0.42773035168647766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.3988544940948486,
      "epoch": 8.95,
      "learning_rate": 2.23888541014402e-05,
      "loss": 0.669,
      "step": 10594,
      "task_loss": 1.6082258224487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8362625241279602,
      "epoch": 8.96,
      "learning_rate": 2.2385723231058236e-05,
      "loss": 0.6273,
      "step": 10595,
      "task_loss": 1.260994553565979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30089500546455383,
      "epoch": 8.96,
      "learning_rate": 2.2382592360676268e-05,
      "loss": 0.4206,
      "step": 10596,
      "task_loss": 0.41844215989112854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5123028755187988,
      "epoch": 8.96,
      "learning_rate": 2.2379461490294303e-05,
      "loss": 0.5223,
      "step": 10597,
      "task_loss": 0.6112334132194519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4751848578453064,
      "epoch": 8.96,
      "learning_rate": 2.2376330619912335e-05,
      "loss": 0.4827,
      "step": 10598,
      "task_loss": 0.5803654193878174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4192669093608856,
      "epoch": 8.96,
      "learning_rate": 2.237319974953037e-05,
      "loss": 0.5472,
      "step": 10599,
      "task_loss": 0.3756052851676941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5249388813972473,
      "epoch": 8.96,
      "learning_rate": 2.2370068879148405e-05,
      "loss": 0.6098,
      "step": 10600,
      "task_loss": 0.7778791189193726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0921502113342285,
      "epoch": 8.96,
      "learning_rate": 2.236693800876644e-05,
      "loss": 0.7025,
      "step": 10601,
      "task_loss": 0.9072845578193665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6501781344413757,
      "epoch": 8.96,
      "learning_rate": 2.2363807138384472e-05,
      "loss": 0.5238,
      "step": 10602,
      "task_loss": 1.216488003730774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9506369829177856,
      "epoch": 8.96,
      "learning_rate": 2.2360676268002507e-05,
      "loss": 0.6572,
      "step": 10603,
      "task_loss": 1.0474634170532227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5189471244812012,
      "epoch": 8.96,
      "learning_rate": 2.235754539762054e-05,
      "loss": 0.6974,
      "step": 10604,
      "task_loss": 0.661942720413208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6137993335723877,
      "epoch": 8.96,
      "learning_rate": 2.2354414527238574e-05,
      "loss": 0.5374,
      "step": 10605,
      "task_loss": 1.2805614471435547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7540587186813354,
      "epoch": 8.96,
      "learning_rate": 2.2351283656856606e-05,
      "loss": 0.6692,
      "step": 10606,
      "task_loss": 0.9661505222320557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4268311560153961,
      "epoch": 8.97,
      "learning_rate": 2.234815278647464e-05,
      "loss": 0.5875,
      "step": 10607,
      "task_loss": 0.4295666217803955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5763248205184937,
      "epoch": 8.97,
      "learning_rate": 2.2345021916092676e-05,
      "loss": 0.5764,
      "step": 10608,
      "task_loss": 0.7235970497131348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21764075756072998,
      "epoch": 8.97,
      "learning_rate": 2.2341891045710708e-05,
      "loss": 0.4345,
      "step": 10609,
      "task_loss": 0.5883426666259766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6024489402770996,
      "epoch": 8.97,
      "learning_rate": 2.2338760175328743e-05,
      "loss": 0.6474,
      "step": 10610,
      "task_loss": 0.14490240812301636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4623776078224182,
      "epoch": 8.97,
      "learning_rate": 2.2335629304946775e-05,
      "loss": 0.5211,
      "step": 10611,
      "task_loss": 1.1356221437454224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7902412414550781,
      "epoch": 8.97,
      "learning_rate": 2.233249843456481e-05,
      "loss": 0.65,
      "step": 10612,
      "task_loss": 0.866962730884552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5067769289016724,
      "epoch": 8.97,
      "learning_rate": 2.2329367564182842e-05,
      "loss": 0.6816,
      "step": 10613,
      "task_loss": 0.9006754755973816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39656907320022583,
      "epoch": 8.97,
      "learning_rate": 2.2326236693800877e-05,
      "loss": 0.5064,
      "step": 10614,
      "task_loss": 0.3920118510723114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7842472791671753,
      "epoch": 8.97,
      "learning_rate": 2.232310582341891e-05,
      "loss": 0.5775,
      "step": 10615,
      "task_loss": 0.8675864934921265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8135489821434021,
      "epoch": 8.97,
      "learning_rate": 2.2319974953036944e-05,
      "loss": 0.662,
      "step": 10616,
      "task_loss": 0.7087157964706421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7846254110336304,
      "epoch": 8.97,
      "learning_rate": 2.231684408265498e-05,
      "loss": 0.6719,
      "step": 10617,
      "task_loss": 0.5041727423667908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6300644874572754,
      "epoch": 8.97,
      "learning_rate": 2.2313713212273014e-05,
      "loss": 0.4949,
      "step": 10618,
      "task_loss": 1.063664436340332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9425626397132874,
      "epoch": 8.98,
      "learning_rate": 2.231058234189105e-05,
      "loss": 0.7076,
      "step": 10619,
      "task_loss": 0.4290371835231781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.569407045841217,
      "epoch": 8.98,
      "learning_rate": 2.230745147150908e-05,
      "loss": 0.5536,
      "step": 10620,
      "task_loss": 0.32197675108909607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5068245530128479,
      "epoch": 8.98,
      "learning_rate": 2.2304320601127116e-05,
      "loss": 0.6984,
      "step": 10621,
      "task_loss": 0.2650056481361389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.816597580909729,
      "epoch": 8.98,
      "learning_rate": 2.2301189730745148e-05,
      "loss": 0.6008,
      "step": 10622,
      "task_loss": 1.042345643043518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5248167514801025,
      "epoch": 8.98,
      "learning_rate": 2.2298058860363183e-05,
      "loss": 0.5377,
      "step": 10623,
      "task_loss": 0.19034342467784882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7127043604850769,
      "epoch": 8.98,
      "learning_rate": 2.2294927989981215e-05,
      "loss": 0.6927,
      "step": 10624,
      "task_loss": 1.2164205312728882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4579421579837799,
      "epoch": 8.98,
      "learning_rate": 2.229179711959925e-05,
      "loss": 0.5201,
      "step": 10625,
      "task_loss": 0.5209630727767944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5605078339576721,
      "epoch": 8.98,
      "learning_rate": 2.2288666249217282e-05,
      "loss": 0.4611,
      "step": 10626,
      "task_loss": 0.2377406656742096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3966991901397705,
      "epoch": 8.98,
      "learning_rate": 2.2285535378835317e-05,
      "loss": 0.4749,
      "step": 10627,
      "task_loss": 0.17085415124893188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4410800337791443,
      "epoch": 8.98,
      "learning_rate": 2.228240450845335e-05,
      "loss": 0.5071,
      "step": 10628,
      "task_loss": 0.4847782850265503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4172781705856323,
      "epoch": 8.98,
      "learning_rate": 2.2279273638071384e-05,
      "loss": 0.5878,
      "step": 10629,
      "task_loss": 0.4181741178035736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5516926050186157,
      "epoch": 8.99,
      "learning_rate": 2.2276142767689416e-05,
      "loss": 0.6053,
      "step": 10630,
      "task_loss": 0.8574026226997375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5714877843856812,
      "epoch": 8.99,
      "learning_rate": 2.227301189730745e-05,
      "loss": 0.5585,
      "step": 10631,
      "task_loss": 0.3420681953430176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6054515838623047,
      "epoch": 8.99,
      "learning_rate": 2.2269881026925486e-05,
      "loss": 0.7037,
      "step": 10632,
      "task_loss": 0.5843099355697632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4143931269645691,
      "epoch": 8.99,
      "learning_rate": 2.226675015654352e-05,
      "loss": 0.4066,
      "step": 10633,
      "task_loss": 0.6431547403335571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3455732762813568,
      "epoch": 8.99,
      "learning_rate": 2.2263619286161553e-05,
      "loss": 0.4412,
      "step": 10634,
      "task_loss": 0.4587627351284027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30555930733680725,
      "epoch": 8.99,
      "learning_rate": 2.226048841577959e-05,
      "loss": 0.5902,
      "step": 10635,
      "task_loss": 0.21912236511707306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7080652713775635,
      "epoch": 8.99,
      "learning_rate": 2.2257357545397624e-05,
      "loss": 0.5724,
      "step": 10636,
      "task_loss": 0.2603958547115326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6323369741439819,
      "epoch": 8.99,
      "learning_rate": 2.2254226675015655e-05,
      "loss": 0.5017,
      "step": 10637,
      "task_loss": 0.44254323840141296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4881642758846283,
      "epoch": 8.99,
      "learning_rate": 2.225109580463369e-05,
      "loss": 0.5253,
      "step": 10638,
      "task_loss": 1.0547528266906738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.823168158531189,
      "epoch": 8.99,
      "learning_rate": 2.2247964934251722e-05,
      "loss": 0.5557,
      "step": 10639,
      "task_loss": 1.7136815786361694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6956143975257874,
      "epoch": 8.99,
      "learning_rate": 2.2244834063869758e-05,
      "loss": 0.6086,
      "step": 10640,
      "task_loss": 0.7801706194877625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5329354405403137,
      "epoch": 8.99,
      "learning_rate": 2.224170319348779e-05,
      "loss": 0.49,
      "step": 10641,
      "task_loss": 1.409690260887146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5294376611709595,
      "epoch": 9.0,
      "learning_rate": 2.2238572323105825e-05,
      "loss": 0.6152,
      "step": 10642,
      "task_loss": 0.17128396034240723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5437154173851013,
      "epoch": 9.0,
      "learning_rate": 2.2235441452723856e-05,
      "loss": 0.6025,
      "step": 10643,
      "task_loss": 0.4318736791610718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3560106158256531,
      "epoch": 9.0,
      "learning_rate": 2.223231058234189e-05,
      "loss": 0.5232,
      "step": 10644,
      "task_loss": 0.829944908618927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8583235740661621,
      "epoch": 9.0,
      "learning_rate": 2.2229179711959927e-05,
      "loss": 0.5733,
      "step": 10645,
      "task_loss": 0.8797690868377686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7663442492485046,
      "epoch": 9.0,
      "learning_rate": 2.222604884157796e-05,
      "loss": 0.6528,
      "step": 10646,
      "task_loss": 0.5032749772071838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6132590174674988,
      "epoch": 9.0,
      "learning_rate": 2.2222917971195994e-05,
      "loss": 0.512,
      "step": 10647,
      "task_loss": 0.9045599699020386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3559381365776062,
      "epoch": 9.0,
      "learning_rate": 2.2219787100814025e-05,
      "loss": 0.8749,
      "step": 10648,
      "task_loss": 0.3542212247848511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42127424478530884,
      "epoch": 9.0,
      "learning_rate": 2.221665623043206e-05,
      "loss": 0.5065,
      "step": 10649,
      "task_loss": 0.38799262046813965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9754449129104614,
      "epoch": 9.0,
      "learning_rate": 2.2213525360050096e-05,
      "loss": 0.6681,
      "step": 10650,
      "task_loss": 0.7821944952011108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.345196008682251,
      "epoch": 9.0,
      "learning_rate": 2.221039448966813e-05,
      "loss": 0.5193,
      "step": 10651,
      "task_loss": 0.8068575859069824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5343503355979919,
      "epoch": 9.0,
      "learning_rate": 2.2207263619286163e-05,
      "loss": 0.5142,
      "step": 10652,
      "task_loss": 0.31566309928894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5753676891326904,
      "epoch": 9.01,
      "learning_rate": 2.2204132748904198e-05,
      "loss": 0.5053,
      "step": 10653,
      "task_loss": 0.2249642312526703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4517761468887329,
      "epoch": 9.01,
      "learning_rate": 2.220100187852223e-05,
      "loss": 0.6173,
      "step": 10654,
      "task_loss": 0.5889878869056702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4658886790275574,
      "epoch": 9.01,
      "learning_rate": 2.2197871008140265e-05,
      "loss": 0.4458,
      "step": 10655,
      "task_loss": 0.08600388467311859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3079991936683655,
      "epoch": 9.01,
      "learning_rate": 2.21947401377583e-05,
      "loss": 0.609,
      "step": 10656,
      "task_loss": 0.25085118412971497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7462258338928223,
      "epoch": 9.01,
      "learning_rate": 2.2191609267376332e-05,
      "loss": 0.7535,
      "step": 10657,
      "task_loss": 0.7678066492080688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4747820198535919,
      "epoch": 9.01,
      "learning_rate": 2.2188478396994367e-05,
      "loss": 0.4164,
      "step": 10658,
      "task_loss": 0.6217344999313354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7664492130279541,
      "epoch": 9.01,
      "learning_rate": 2.21853475266124e-05,
      "loss": 0.7188,
      "step": 10659,
      "task_loss": 1.0797388553619385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5773204565048218,
      "epoch": 9.01,
      "learning_rate": 2.2182216656230434e-05,
      "loss": 0.5254,
      "step": 10660,
      "task_loss": 1.1168423891067505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.769020676612854,
      "epoch": 9.01,
      "learning_rate": 2.2179085785848466e-05,
      "loss": 0.5083,
      "step": 10661,
      "task_loss": 1.6923174858093262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3498965799808502,
      "epoch": 9.01,
      "learning_rate": 2.21759549154665e-05,
      "loss": 0.5245,
      "step": 10662,
      "task_loss": 0.5892130136489868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5830617547035217,
      "epoch": 9.01,
      "learning_rate": 2.2172824045084533e-05,
      "loss": 0.5005,
      "step": 10663,
      "task_loss": 1.0869790315628052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3650296926498413,
      "epoch": 9.01,
      "learning_rate": 2.2169693174702568e-05,
      "loss": 0.6964,
      "step": 10664,
      "task_loss": 0.12098046392202377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48606032133102417,
      "epoch": 9.02,
      "learning_rate": 2.21665623043206e-05,
      "loss": 0.5104,
      "step": 10665,
      "task_loss": 1.2455891370773315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5193489193916321,
      "epoch": 9.02,
      "learning_rate": 2.2163431433938635e-05,
      "loss": 0.6493,
      "step": 10666,
      "task_loss": 0.5706619620323181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766449570655823,
      "epoch": 9.02,
      "learning_rate": 2.216030056355667e-05,
      "loss": 0.5503,
      "step": 10667,
      "task_loss": 0.9806789755821228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.67018723487854,
      "epoch": 9.02,
      "learning_rate": 2.2157169693174705e-05,
      "loss": 0.6035,
      "step": 10668,
      "task_loss": 0.7231374382972717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5076508522033691,
      "epoch": 9.02,
      "learning_rate": 2.215403882279274e-05,
      "loss": 0.5673,
      "step": 10669,
      "task_loss": 0.6072719693183899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6134536266326904,
      "epoch": 9.02,
      "learning_rate": 2.2150907952410772e-05,
      "loss": 0.4716,
      "step": 10670,
      "task_loss": 0.7222689986228943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40938618779182434,
      "epoch": 9.02,
      "learning_rate": 2.2147777082028807e-05,
      "loss": 0.6085,
      "step": 10671,
      "task_loss": 0.40451759099960327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6116071343421936,
      "epoch": 9.02,
      "learning_rate": 2.214464621164684e-05,
      "loss": 0.4851,
      "step": 10672,
      "task_loss": 1.1161051988601685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5814194083213806,
      "epoch": 9.02,
      "learning_rate": 2.2141515341264874e-05,
      "loss": 0.6445,
      "step": 10673,
      "task_loss": 0.2313188910484314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8266257643699646,
      "epoch": 9.02,
      "learning_rate": 2.2138384470882906e-05,
      "loss": 0.6458,
      "step": 10674,
      "task_loss": 0.852421224117279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5609910488128662,
      "epoch": 9.02,
      "learning_rate": 2.213525360050094e-05,
      "loss": 0.6157,
      "step": 10675,
      "task_loss": 0.4849820137023926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39059340953826904,
      "epoch": 9.02,
      "learning_rate": 2.2132122730118973e-05,
      "loss": 0.3712,
      "step": 10676,
      "task_loss": 0.40398895740509033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46488335728645325,
      "epoch": 9.03,
      "learning_rate": 2.2128991859737008e-05,
      "loss": 0.4816,
      "step": 10677,
      "task_loss": 0.16757479310035706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.240903377532959,
      "epoch": 9.03,
      "learning_rate": 2.212586098935504e-05,
      "loss": 0.7353,
      "step": 10678,
      "task_loss": 0.9938888549804688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4988916516304016,
      "epoch": 9.03,
      "learning_rate": 2.2122730118973075e-05,
      "loss": 0.5881,
      "step": 10679,
      "task_loss": 0.5737087726593018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44180119037628174,
      "epoch": 9.03,
      "learning_rate": 2.211959924859111e-05,
      "loss": 0.5284,
      "step": 10680,
      "task_loss": 0.3785021901130676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3575299084186554,
      "epoch": 9.03,
      "learning_rate": 2.2116468378209142e-05,
      "loss": 0.5638,
      "step": 10681,
      "task_loss": 0.6537627577781677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.620439350605011,
      "epoch": 9.03,
      "learning_rate": 2.2113337507827177e-05,
      "loss": 0.6045,
      "step": 10682,
      "task_loss": 0.9465402960777283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44660520553588867,
      "epoch": 9.03,
      "learning_rate": 2.211020663744521e-05,
      "loss": 0.4567,
      "step": 10683,
      "task_loss": 0.2204759567975998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7208359241485596,
      "epoch": 9.03,
      "learning_rate": 2.2107075767063244e-05,
      "loss": 0.5759,
      "step": 10684,
      "task_loss": 0.6693023443222046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.373515248298645,
      "epoch": 9.03,
      "learning_rate": 2.210394489668128e-05,
      "loss": 0.4319,
      "step": 10685,
      "task_loss": 0.642306387424469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6277673244476318,
      "epoch": 9.03,
      "learning_rate": 2.2100814026299314e-05,
      "loss": 0.556,
      "step": 10686,
      "task_loss": 1.1119873523712158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.425438791513443,
      "epoch": 9.03,
      "learning_rate": 2.2097683155917346e-05,
      "loss": 0.5672,
      "step": 10687,
      "task_loss": 0.7544173002243042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7341930866241455,
      "epoch": 9.03,
      "learning_rate": 2.209455228553538e-05,
      "loss": 0.5881,
      "step": 10688,
      "task_loss": 0.9648576974868774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4986339211463928,
      "epoch": 9.04,
      "learning_rate": 2.2091421415153413e-05,
      "loss": 0.5202,
      "step": 10689,
      "task_loss": 0.5140330195426941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49087774753570557,
      "epoch": 9.04,
      "learning_rate": 2.208829054477145e-05,
      "loss": 0.6302,
      "step": 10690,
      "task_loss": 1.0153247117996216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9305101633071899,
      "epoch": 9.04,
      "learning_rate": 2.208515967438948e-05,
      "loss": 0.7117,
      "step": 10691,
      "task_loss": 1.706640362739563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7804336547851562,
      "epoch": 9.04,
      "learning_rate": 2.2082028804007515e-05,
      "loss": 0.5938,
      "step": 10692,
      "task_loss": 1.1137992143630981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5189664363861084,
      "epoch": 9.04,
      "learning_rate": 2.207889793362555e-05,
      "loss": 0.6043,
      "step": 10693,
      "task_loss": 0.9979012608528137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5609831809997559,
      "epoch": 9.04,
      "learning_rate": 2.2075767063243582e-05,
      "loss": 0.5434,
      "step": 10694,
      "task_loss": 0.6472615003585815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5517375469207764,
      "epoch": 9.04,
      "learning_rate": 2.2072636192861617e-05,
      "loss": 0.5725,
      "step": 10695,
      "task_loss": 1.0434991121292114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33626535534858704,
      "epoch": 9.04,
      "learning_rate": 2.206950532247965e-05,
      "loss": 0.3632,
      "step": 10696,
      "task_loss": 0.46170279383659363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2594614624977112,
      "epoch": 9.04,
      "learning_rate": 2.2066374452097684e-05,
      "loss": 0.4997,
      "step": 10697,
      "task_loss": 0.1571510136127472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5253106355667114,
      "epoch": 9.04,
      "learning_rate": 2.2063243581715716e-05,
      "loss": 0.6367,
      "step": 10698,
      "task_loss": 0.6667125225067139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42036378383636475,
      "epoch": 9.04,
      "learning_rate": 2.206011271133375e-05,
      "loss": 0.4143,
      "step": 10699,
      "task_loss": 0.4377796947956085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5862522125244141,
      "epoch": 9.04,
      "learning_rate": 2.2056981840951786e-05,
      "loss": 0.4674,
      "step": 10700,
      "task_loss": 0.39888280630111694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19524714350700378,
      "epoch": 9.05,
      "learning_rate": 2.2053850970569818e-05,
      "loss": 0.3846,
      "step": 10701,
      "task_loss": 0.013180790469050407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8074008822441101,
      "epoch": 9.05,
      "learning_rate": 2.2050720100187853e-05,
      "loss": 0.6737,
      "step": 10702,
      "task_loss": 0.5243997573852539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6841822862625122,
      "epoch": 9.05,
      "learning_rate": 2.204758922980589e-05,
      "loss": 0.5365,
      "step": 10703,
      "task_loss": 0.43585440516471863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7253317832946777,
      "epoch": 9.05,
      "learning_rate": 2.204445835942392e-05,
      "loss": 0.62,
      "step": 10704,
      "task_loss": 0.9110039472579956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4101744592189789,
      "epoch": 9.05,
      "learning_rate": 2.2041327489041956e-05,
      "loss": 0.4906,
      "step": 10705,
      "task_loss": 0.716835618019104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7951672077178955,
      "epoch": 9.05,
      "learning_rate": 2.203819661865999e-05,
      "loss": 0.7082,
      "step": 10706,
      "task_loss": 0.47645097970962524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5525001287460327,
      "epoch": 9.05,
      "learning_rate": 2.2035065748278022e-05,
      "loss": 0.6664,
      "step": 10707,
      "task_loss": 1.0840901136398315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37087222933769226,
      "epoch": 9.05,
      "learning_rate": 2.2031934877896058e-05,
      "loss": 0.5259,
      "step": 10708,
      "task_loss": 1.2809826135635376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4934075176715851,
      "epoch": 9.05,
      "learning_rate": 2.202880400751409e-05,
      "loss": 0.4474,
      "step": 10709,
      "task_loss": 0.1715051382780075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6977453231811523,
      "epoch": 9.05,
      "learning_rate": 2.2025673137132125e-05,
      "loss": 0.5588,
      "step": 10710,
      "task_loss": 0.33562302589416504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6342290043830872,
      "epoch": 9.05,
      "learning_rate": 2.2022542266750156e-05,
      "loss": 0.5673,
      "step": 10711,
      "task_loss": 0.8253740072250366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7208288311958313,
      "epoch": 9.05,
      "learning_rate": 2.201941139636819e-05,
      "loss": 0.6204,
      "step": 10712,
      "task_loss": 0.7400071024894714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43021851778030396,
      "epoch": 9.06,
      "learning_rate": 2.2016280525986223e-05,
      "loss": 0.4875,
      "step": 10713,
      "task_loss": 0.38756582140922546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5973491072654724,
      "epoch": 9.06,
      "learning_rate": 2.201314965560426e-05,
      "loss": 0.5818,
      "step": 10714,
      "task_loss": 1.0984511375427246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.843700110912323,
      "epoch": 9.06,
      "learning_rate": 2.201001878522229e-05,
      "loss": 0.5886,
      "step": 10715,
      "task_loss": 1.9912712574005127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4342159926891327,
      "epoch": 9.06,
      "learning_rate": 2.2006887914840325e-05,
      "loss": 0.57,
      "step": 10716,
      "task_loss": 0.37605413794517517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6684862375259399,
      "epoch": 9.06,
      "learning_rate": 2.200375704445836e-05,
      "loss": 0.7656,
      "step": 10717,
      "task_loss": 1.0897732973098755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3676321506500244,
      "epoch": 9.06,
      "learning_rate": 2.2000626174076396e-05,
      "loss": 0.5399,
      "step": 10718,
      "task_loss": 0.2690333425998688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8932292461395264,
      "epoch": 9.06,
      "learning_rate": 2.1997495303694428e-05,
      "loss": 0.8428,
      "step": 10719,
      "task_loss": 0.9153185486793518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5293970108032227,
      "epoch": 9.06,
      "learning_rate": 2.1994364433312463e-05,
      "loss": 0.4228,
      "step": 10720,
      "task_loss": 0.4464450180530548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41897884011268616,
      "epoch": 9.06,
      "learning_rate": 2.1991233562930498e-05,
      "loss": 0.5878,
      "step": 10721,
      "task_loss": 0.5197316408157349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3814024329185486,
      "epoch": 9.06,
      "learning_rate": 2.198810269254853e-05,
      "loss": 0.4517,
      "step": 10722,
      "task_loss": 0.12296129763126373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35739654302597046,
      "epoch": 9.06,
      "learning_rate": 2.1984971822166565e-05,
      "loss": 0.4619,
      "step": 10723,
      "task_loss": 0.599518358707428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21526549756526947,
      "epoch": 9.07,
      "learning_rate": 2.1981840951784597e-05,
      "loss": 0.5929,
      "step": 10724,
      "task_loss": 0.10506422072649002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6124686002731323,
      "epoch": 9.07,
      "learning_rate": 2.1978710081402632e-05,
      "loss": 0.5799,
      "step": 10725,
      "task_loss": 0.9221330285072327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4512573778629303,
      "epoch": 9.07,
      "learning_rate": 2.1975579211020664e-05,
      "loss": 0.573,
      "step": 10726,
      "task_loss": 0.6633158922195435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.662458598613739,
      "epoch": 9.07,
      "learning_rate": 2.19724483406387e-05,
      "loss": 0.8251,
      "step": 10727,
      "task_loss": 1.026606559753418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4396263360977173,
      "epoch": 9.07,
      "learning_rate": 2.196931747025673e-05,
      "loss": 0.5427,
      "step": 10728,
      "task_loss": 0.5733851194381714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8989805579185486,
      "epoch": 9.07,
      "learning_rate": 2.1966186599874766e-05,
      "loss": 0.7215,
      "step": 10729,
      "task_loss": 0.6479354500770569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7944360971450806,
      "epoch": 9.07,
      "learning_rate": 2.19630557294928e-05,
      "loss": 0.5838,
      "step": 10730,
      "task_loss": 1.4490487575531006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6620262861251831,
      "epoch": 9.07,
      "learning_rate": 2.1959924859110833e-05,
      "loss": 0.4789,
      "step": 10731,
      "task_loss": 0.5538578033447266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2748720049858093,
      "epoch": 9.07,
      "learning_rate": 2.1956793988728868e-05,
      "loss": 0.5074,
      "step": 10732,
      "task_loss": 0.22586020827293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7101326584815979,
      "epoch": 9.07,
      "learning_rate": 2.19536631183469e-05,
      "loss": 0.5584,
      "step": 10733,
      "task_loss": 1.0976570844650269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7758088111877441,
      "epoch": 9.07,
      "learning_rate": 2.1950532247964935e-05,
      "loss": 0.6309,
      "step": 10734,
      "task_loss": 0.7096821069717407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2668735980987549,
      "epoch": 9.07,
      "learning_rate": 2.194740137758297e-05,
      "loss": 0.4418,
      "step": 10735,
      "task_loss": 0.028588177636265755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6448503136634827,
      "epoch": 9.08,
      "learning_rate": 2.1944270507201005e-05,
      "loss": 0.5638,
      "step": 10736,
      "task_loss": 0.7795564532279968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.363076388835907,
      "epoch": 9.08,
      "learning_rate": 2.1941139636819037e-05,
      "loss": 0.5031,
      "step": 10737,
      "task_loss": 1.0536030530929565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6188504099845886,
      "epoch": 9.08,
      "learning_rate": 2.1938008766437072e-05,
      "loss": 0.5019,
      "step": 10738,
      "task_loss": 1.670802354812622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40334996581077576,
      "epoch": 9.08,
      "learning_rate": 2.1934877896055104e-05,
      "loss": 0.6482,
      "step": 10739,
      "task_loss": 0.7416701316833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38880765438079834,
      "epoch": 9.08,
      "learning_rate": 2.193174702567314e-05,
      "loss": 0.4128,
      "step": 10740,
      "task_loss": 0.4301588237285614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48531949520111084,
      "epoch": 9.08,
      "learning_rate": 2.192861615529117e-05,
      "loss": 0.6416,
      "step": 10741,
      "task_loss": 0.9696143865585327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2410479485988617,
      "epoch": 9.08,
      "learning_rate": 2.1925485284909206e-05,
      "loss": 0.509,
      "step": 10742,
      "task_loss": 0.7337374091148376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38391023874282837,
      "epoch": 9.08,
      "learning_rate": 2.192235441452724e-05,
      "loss": 0.6589,
      "step": 10743,
      "task_loss": 0.5074435472488403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7482444047927856,
      "epoch": 9.08,
      "learning_rate": 2.1919223544145273e-05,
      "loss": 0.5049,
      "step": 10744,
      "task_loss": 0.6857324838638306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0258764028549194,
      "epoch": 9.08,
      "learning_rate": 2.1916092673763308e-05,
      "loss": 0.6469,
      "step": 10745,
      "task_loss": 0.7519462704658508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39565032720565796,
      "epoch": 9.08,
      "learning_rate": 2.191296180338134e-05,
      "loss": 0.4717,
      "step": 10746,
      "task_loss": 0.3737684488296509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6768993735313416,
      "epoch": 9.08,
      "learning_rate": 2.1909830932999375e-05,
      "loss": 0.5193,
      "step": 10747,
      "task_loss": 1.4171452522277832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5779070854187012,
      "epoch": 9.09,
      "learning_rate": 2.1906700062617407e-05,
      "loss": 0.5546,
      "step": 10748,
      "task_loss": 0.24212244153022766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5206707715988159,
      "epoch": 9.09,
      "learning_rate": 2.1903569192235442e-05,
      "loss": 0.4775,
      "step": 10749,
      "task_loss": 0.6817193031311035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5161746144294739,
      "epoch": 9.09,
      "learning_rate": 2.1900438321853474e-05,
      "loss": 0.5047,
      "step": 10750,
      "task_loss": 0.4374638795852661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3993494510650635,
      "epoch": 9.09,
      "learning_rate": 2.189730745147151e-05,
      "loss": 0.5669,
      "step": 10751,
      "task_loss": 0.4136887192726135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6239427328109741,
      "epoch": 9.09,
      "learning_rate": 2.1894176581089544e-05,
      "loss": 0.5883,
      "step": 10752,
      "task_loss": 0.42890116572380066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4716903865337372,
      "epoch": 9.09,
      "learning_rate": 2.189104571070758e-05,
      "loss": 0.5294,
      "step": 10753,
      "task_loss": 0.1877465397119522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6594790816307068,
      "epoch": 9.09,
      "learning_rate": 2.1887914840325614e-05,
      "loss": 0.543,
      "step": 10754,
      "task_loss": 1.039831280708313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26273614168167114,
      "epoch": 9.09,
      "learning_rate": 2.1884783969943646e-05,
      "loss": 0.5257,
      "step": 10755,
      "task_loss": 0.5761433243751526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5388988256454468,
      "epoch": 9.09,
      "learning_rate": 2.188165309956168e-05,
      "loss": 0.5764,
      "step": 10756,
      "task_loss": 0.4108578860759735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4670754671096802,
      "epoch": 9.09,
      "learning_rate": 2.1878522229179713e-05,
      "loss": 0.5036,
      "step": 10757,
      "task_loss": 0.34167376160621643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.403389036655426,
      "epoch": 9.09,
      "learning_rate": 2.187539135879775e-05,
      "loss": 0.7198,
      "step": 10758,
      "task_loss": 0.8958787322044373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4573601186275482,
      "epoch": 9.09,
      "learning_rate": 2.187226048841578e-05,
      "loss": 0.5556,
      "step": 10759,
      "task_loss": 0.46117568016052246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5540484189987183,
      "epoch": 9.1,
      "learning_rate": 2.1869129618033815e-05,
      "loss": 0.5166,
      "step": 10760,
      "task_loss": 0.07666939496994019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3661864995956421,
      "epoch": 9.1,
      "learning_rate": 2.1865998747651847e-05,
      "loss": 0.6611,
      "step": 10761,
      "task_loss": 0.12748773396015167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5516582727432251,
      "epoch": 9.1,
      "learning_rate": 2.1862867877269882e-05,
      "loss": 0.5767,
      "step": 10762,
      "task_loss": 0.7275339961051941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4251628816127777,
      "epoch": 9.1,
      "learning_rate": 2.1859737006887914e-05,
      "loss": 0.4644,
      "step": 10763,
      "task_loss": 0.7907235026359558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46637824177742004,
      "epoch": 9.1,
      "learning_rate": 2.185660613650595e-05,
      "loss": 0.4974,
      "step": 10764,
      "task_loss": 0.4630821645259857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5285096168518066,
      "epoch": 9.1,
      "learning_rate": 2.185347526612398e-05,
      "loss": 0.6476,
      "step": 10765,
      "task_loss": 1.2324399948120117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.686110258102417,
      "epoch": 9.1,
      "learning_rate": 2.1850344395742016e-05,
      "loss": 0.6657,
      "step": 10766,
      "task_loss": 0.5411072373390198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5917903184890747,
      "epoch": 9.1,
      "learning_rate": 2.184721352536005e-05,
      "loss": 0.5373,
      "step": 10767,
      "task_loss": 0.7401444911956787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.779970645904541,
      "epoch": 9.1,
      "learning_rate": 2.1844082654978083e-05,
      "loss": 0.6011,
      "step": 10768,
      "task_loss": 0.5900400876998901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.674863874912262,
      "epoch": 9.1,
      "learning_rate": 2.1840951784596118e-05,
      "loss": 0.613,
      "step": 10769,
      "task_loss": 0.5725447535514832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4761059284210205,
      "epoch": 9.1,
      "learning_rate": 2.1837820914214153e-05,
      "loss": 0.4667,
      "step": 10770,
      "task_loss": 0.17457948625087738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41168659925460815,
      "epoch": 9.1,
      "learning_rate": 2.183469004383219e-05,
      "loss": 0.5801,
      "step": 10771,
      "task_loss": 0.3928980231285095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5978654623031616,
      "epoch": 9.11,
      "learning_rate": 2.183155917345022e-05,
      "loss": 0.4444,
      "step": 10772,
      "task_loss": 0.9575604200363159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6103721857070923,
      "epoch": 9.11,
      "learning_rate": 2.1828428303068256e-05,
      "loss": 0.4757,
      "step": 10773,
      "task_loss": 1.303750991821289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9381407499313354,
      "epoch": 9.11,
      "learning_rate": 2.1825297432686287e-05,
      "loss": 0.6625,
      "step": 10774,
      "task_loss": 0.9570679068565369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.634233295917511,
      "epoch": 9.11,
      "learning_rate": 2.1822166562304323e-05,
      "loss": 0.7508,
      "step": 10775,
      "task_loss": 0.6843137741088867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0867902040481567,
      "epoch": 9.11,
      "learning_rate": 2.1819035691922354e-05,
      "loss": 0.521,
      "step": 10776,
      "task_loss": 0.6992771625518799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2684599161148071,
      "epoch": 9.11,
      "learning_rate": 2.181590482154039e-05,
      "loss": 0.7285,
      "step": 10777,
      "task_loss": 1.7703239917755127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5671638250350952,
      "epoch": 9.11,
      "learning_rate": 2.181277395115842e-05,
      "loss": 0.5465,
      "step": 10778,
      "task_loss": 0.8016722798347473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5883300304412842,
      "epoch": 9.11,
      "learning_rate": 2.1809643080776456e-05,
      "loss": 0.6282,
      "step": 10779,
      "task_loss": 0.7338662147521973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4316498637199402,
      "epoch": 9.11,
      "learning_rate": 2.180651221039449e-05,
      "loss": 0.6505,
      "step": 10780,
      "task_loss": 1.1932809352874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7861335277557373,
      "epoch": 9.11,
      "learning_rate": 2.1803381340012523e-05,
      "loss": 0.6865,
      "step": 10781,
      "task_loss": 1.3743152618408203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5921609401702881,
      "epoch": 9.11,
      "learning_rate": 2.180025046963056e-05,
      "loss": 0.4248,
      "step": 10782,
      "task_loss": 0.9239550828933716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4874712824821472,
      "epoch": 9.11,
      "learning_rate": 2.179711959924859e-05,
      "loss": 0.4386,
      "step": 10783,
      "task_loss": 0.5710985660552979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6906114816665649,
      "epoch": 9.12,
      "learning_rate": 2.1793988728866625e-05,
      "loss": 0.4537,
      "step": 10784,
      "task_loss": 0.5026059150695801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.649724006652832,
      "epoch": 9.12,
      "learning_rate": 2.179085785848466e-05,
      "loss": 0.594,
      "step": 10785,
      "task_loss": 0.932915210723877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5842980742454529,
      "epoch": 9.12,
      "learning_rate": 2.1787726988102692e-05,
      "loss": 0.5681,
      "step": 10786,
      "task_loss": 0.41702306270599365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48341017961502075,
      "epoch": 9.12,
      "learning_rate": 2.1784596117720728e-05,
      "loss": 0.5353,
      "step": 10787,
      "task_loss": 0.6144500970840454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.863166093826294,
      "epoch": 9.12,
      "learning_rate": 2.1781465247338763e-05,
      "loss": 0.6704,
      "step": 10788,
      "task_loss": 0.511526882648468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7441883683204651,
      "epoch": 9.12,
      "learning_rate": 2.1778334376956795e-05,
      "loss": 0.5553,
      "step": 10789,
      "task_loss": 0.8669180274009705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6544240713119507,
      "epoch": 9.12,
      "learning_rate": 2.177520350657483e-05,
      "loss": 0.4782,
      "step": 10790,
      "task_loss": 0.8321774005889893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5973882675170898,
      "epoch": 9.12,
      "learning_rate": 2.1772072636192865e-05,
      "loss": 0.5071,
      "step": 10791,
      "task_loss": 0.21759475767612457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5827220678329468,
      "epoch": 9.12,
      "learning_rate": 2.1768941765810897e-05,
      "loss": 0.533,
      "step": 10792,
      "task_loss": 0.979975163936615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5982214212417603,
      "epoch": 9.12,
      "learning_rate": 2.1765810895428932e-05,
      "loss": 0.5663,
      "step": 10793,
      "task_loss": 1.1487809419631958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6295074224472046,
      "epoch": 9.12,
      "learning_rate": 2.1762680025046964e-05,
      "loss": 0.6524,
      "step": 10794,
      "task_loss": 0.4949423670768738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33164307475090027,
      "epoch": 9.13,
      "learning_rate": 2.1759549154665e-05,
      "loss": 0.5022,
      "step": 10795,
      "task_loss": 1.3993710279464722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.298446387052536,
      "epoch": 9.13,
      "learning_rate": 2.175641828428303e-05,
      "loss": 0.5687,
      "step": 10796,
      "task_loss": 0.371734082698822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5934202671051025,
      "epoch": 9.13,
      "learning_rate": 2.1753287413901066e-05,
      "loss": 0.5674,
      "step": 10797,
      "task_loss": 0.38397929072380066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.527718186378479,
      "epoch": 9.13,
      "learning_rate": 2.1750156543519098e-05,
      "loss": 0.7384,
      "step": 10798,
      "task_loss": 0.8474376201629639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6568619012832642,
      "epoch": 9.13,
      "learning_rate": 2.1747025673137133e-05,
      "loss": 0.4963,
      "step": 10799,
      "task_loss": 0.9808559417724609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4427694082260132,
      "epoch": 9.13,
      "learning_rate": 2.1743894802755164e-05,
      "loss": 0.6409,
      "step": 10800,
      "task_loss": 0.4030267894268036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5686321258544922,
      "epoch": 9.13,
      "learning_rate": 2.17407639323732e-05,
      "loss": 0.4984,
      "step": 10801,
      "task_loss": 0.6529268622398376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6223354935646057,
      "epoch": 9.13,
      "learning_rate": 2.1737633061991235e-05,
      "loss": 0.6462,
      "step": 10802,
      "task_loss": 2.0150671005249023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25852081179618835,
      "epoch": 9.13,
      "learning_rate": 2.173450219160927e-05,
      "loss": 0.4578,
      "step": 10803,
      "task_loss": 0.7179861068725586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44670596718788147,
      "epoch": 9.13,
      "learning_rate": 2.1731371321227305e-05,
      "loss": 0.4917,
      "step": 10804,
      "task_loss": 0.264409601688385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9250242114067078,
      "epoch": 9.13,
      "learning_rate": 2.1728240450845337e-05,
      "loss": 0.72,
      "step": 10805,
      "task_loss": 0.7922685742378235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39515572786331177,
      "epoch": 9.13,
      "learning_rate": 2.1725109580463372e-05,
      "loss": 0.635,
      "step": 10806,
      "task_loss": 0.8682048320770264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6662571430206299,
      "epoch": 9.14,
      "learning_rate": 2.1721978710081404e-05,
      "loss": 0.4507,
      "step": 10807,
      "task_loss": 0.7511534690856934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4091273844242096,
      "epoch": 9.14,
      "learning_rate": 2.171884783969944e-05,
      "loss": 0.6347,
      "step": 10808,
      "task_loss": 0.4866512715816498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4008023142814636,
      "epoch": 9.14,
      "learning_rate": 2.171571696931747e-05,
      "loss": 0.4735,
      "step": 10809,
      "task_loss": 0.5016112923622131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6034723520278931,
      "epoch": 9.14,
      "learning_rate": 2.1712586098935506e-05,
      "loss": 0.6535,
      "step": 10810,
      "task_loss": 0.9633305072784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6281410455703735,
      "epoch": 9.14,
      "learning_rate": 2.1709455228553538e-05,
      "loss": 0.5247,
      "step": 10811,
      "task_loss": 1.0469446182250977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39322221279144287,
      "epoch": 9.14,
      "learning_rate": 2.1706324358171573e-05,
      "loss": 0.4792,
      "step": 10812,
      "task_loss": 0.2486800104379654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4052883982658386,
      "epoch": 9.14,
      "learning_rate": 2.1703193487789605e-05,
      "loss": 0.3835,
      "step": 10813,
      "task_loss": 0.16745254397392273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.876307487487793,
      "epoch": 9.14,
      "learning_rate": 2.170006261740764e-05,
      "loss": 0.5622,
      "step": 10814,
      "task_loss": 0.42031747102737427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4564352035522461,
      "epoch": 9.14,
      "learning_rate": 2.1696931747025675e-05,
      "loss": 0.4624,
      "step": 10815,
      "task_loss": 0.8987082839012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39727982878685,
      "epoch": 9.14,
      "learning_rate": 2.1693800876643707e-05,
      "loss": 0.4268,
      "step": 10816,
      "task_loss": 0.788692831993103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.385593980550766,
      "epoch": 9.14,
      "learning_rate": 2.1690670006261742e-05,
      "loss": 0.5844,
      "step": 10817,
      "task_loss": 0.720504105091095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49342530965805054,
      "epoch": 9.14,
      "learning_rate": 2.1687539135879774e-05,
      "loss": 0.6521,
      "step": 10818,
      "task_loss": 0.6234811544418335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4022221565246582,
      "epoch": 9.15,
      "learning_rate": 2.168440826549781e-05,
      "loss": 0.5156,
      "step": 10819,
      "task_loss": 0.20833280682563782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5778744220733643,
      "epoch": 9.15,
      "learning_rate": 2.1681277395115844e-05,
      "loss": 0.7791,
      "step": 10820,
      "task_loss": 0.701546847820282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3403276205062866,
      "epoch": 9.15,
      "learning_rate": 2.167814652473388e-05,
      "loss": 0.4568,
      "step": 10821,
      "task_loss": 0.27805864810943604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8931653499603271,
      "epoch": 9.15,
      "learning_rate": 2.167501565435191e-05,
      "loss": 0.6631,
      "step": 10822,
      "task_loss": 0.8117380738258362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6478039622306824,
      "epoch": 9.15,
      "learning_rate": 2.1671884783969946e-05,
      "loss": 0.6529,
      "step": 10823,
      "task_loss": 0.5761736035346985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41512200236320496,
      "epoch": 9.15,
      "learning_rate": 2.1668753913587978e-05,
      "loss": 0.435,
      "step": 10824,
      "task_loss": 0.30861127376556396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8149711489677429,
      "epoch": 9.15,
      "learning_rate": 2.1665623043206013e-05,
      "loss": 0.6513,
      "step": 10825,
      "task_loss": 0.7156995534896851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22911061346530914,
      "epoch": 9.15,
      "learning_rate": 2.1662492172824045e-05,
      "loss": 0.547,
      "step": 10826,
      "task_loss": 0.24998728930950165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7221283316612244,
      "epoch": 9.15,
      "learning_rate": 2.165936130244208e-05,
      "loss": 0.5939,
      "step": 10827,
      "task_loss": 1.4320980310440063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.331041544675827,
      "epoch": 9.15,
      "learning_rate": 2.1656230432060115e-05,
      "loss": 0.4862,
      "step": 10828,
      "task_loss": 0.37661001086235046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3271137475967407,
      "epoch": 9.15,
      "learning_rate": 2.1653099561678147e-05,
      "loss": 0.4876,
      "step": 10829,
      "task_loss": 0.1133360043168068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6177870035171509,
      "epoch": 9.15,
      "learning_rate": 2.1649968691296182e-05,
      "loss": 0.5236,
      "step": 10830,
      "task_loss": 1.8078876733779907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2890002429485321,
      "epoch": 9.16,
      "learning_rate": 2.1646837820914214e-05,
      "loss": 0.5598,
      "step": 10831,
      "task_loss": 0.5552334785461426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6078407764434814,
      "epoch": 9.16,
      "learning_rate": 2.164370695053225e-05,
      "loss": 0.6224,
      "step": 10832,
      "task_loss": 1.142133355140686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4893971085548401,
      "epoch": 9.16,
      "learning_rate": 2.164057608015028e-05,
      "loss": 0.6012,
      "step": 10833,
      "task_loss": 0.9203267097473145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38470345735549927,
      "epoch": 9.16,
      "learning_rate": 2.1637445209768316e-05,
      "loss": 0.3464,
      "step": 10834,
      "task_loss": 0.6152617335319519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3799683749675751,
      "epoch": 9.16,
      "learning_rate": 2.1634314339386348e-05,
      "loss": 0.6634,
      "step": 10835,
      "task_loss": 0.38013580441474915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191724896430969,
      "epoch": 9.16,
      "learning_rate": 2.1631183469004383e-05,
      "loss": 0.7478,
      "step": 10836,
      "task_loss": 0.7657111883163452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0082024335861206,
      "epoch": 9.16,
      "learning_rate": 2.1628052598622418e-05,
      "loss": 0.568,
      "step": 10837,
      "task_loss": 1.3488949537277222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32939714193344116,
      "epoch": 9.16,
      "learning_rate": 2.1624921728240453e-05,
      "loss": 0.6781,
      "step": 10838,
      "task_loss": 0.3038693070411682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5220847129821777,
      "epoch": 9.16,
      "learning_rate": 2.1621790857858485e-05,
      "loss": 0.5591,
      "step": 10839,
      "task_loss": 0.4311464726924896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6362727880477905,
      "epoch": 9.16,
      "learning_rate": 2.161865998747652e-05,
      "loss": 0.534,
      "step": 10840,
      "task_loss": 0.48234328627586365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6126822233200073,
      "epoch": 9.16,
      "learning_rate": 2.1615529117094556e-05,
      "loss": 0.6748,
      "step": 10841,
      "task_loss": 0.8049226999282837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3340612053871155,
      "epoch": 9.16,
      "learning_rate": 2.1612398246712587e-05,
      "loss": 0.6478,
      "step": 10842,
      "task_loss": 0.33988818526268005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5327385067939758,
      "epoch": 9.17,
      "learning_rate": 2.1609267376330623e-05,
      "loss": 0.4681,
      "step": 10843,
      "task_loss": 1.181688666343689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6318315863609314,
      "epoch": 9.17,
      "learning_rate": 2.1606136505948654e-05,
      "loss": 0.8218,
      "step": 10844,
      "task_loss": 0.5662764310836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.278198778629303,
      "epoch": 9.17,
      "learning_rate": 2.160300563556669e-05,
      "loss": 0.5392,
      "step": 10845,
      "task_loss": 0.08471614122390747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5648735165596008,
      "epoch": 9.17,
      "learning_rate": 2.159987476518472e-05,
      "loss": 0.523,
      "step": 10846,
      "task_loss": 0.7913439273834229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5863088369369507,
      "epoch": 9.17,
      "learning_rate": 2.1596743894802756e-05,
      "loss": 0.4841,
      "step": 10847,
      "task_loss": 0.7385919690132141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43614083528518677,
      "epoch": 9.17,
      "learning_rate": 2.1593613024420788e-05,
      "loss": 0.4151,
      "step": 10848,
      "task_loss": 0.45695215463638306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4713941812515259,
      "epoch": 9.17,
      "learning_rate": 2.1590482154038823e-05,
      "loss": 0.4631,
      "step": 10849,
      "task_loss": 0.4377646744251251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5819191932678223,
      "epoch": 9.17,
      "learning_rate": 2.1587351283656855e-05,
      "loss": 0.517,
      "step": 10850,
      "task_loss": 1.1084933280944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6137416362762451,
      "epoch": 9.17,
      "learning_rate": 2.158422041327489e-05,
      "loss": 0.5187,
      "step": 10851,
      "task_loss": 0.7242845296859741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.64979088306427,
      "epoch": 9.17,
      "learning_rate": 2.1581089542892926e-05,
      "loss": 0.4929,
      "step": 10852,
      "task_loss": 0.7142972946166992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6068898439407349,
      "epoch": 9.17,
      "learning_rate": 2.1577958672510957e-05,
      "loss": 0.6551,
      "step": 10853,
      "task_loss": 1.2356534004211426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.749579906463623,
      "epoch": 9.17,
      "learning_rate": 2.1574827802128992e-05,
      "loss": 0.6339,
      "step": 10854,
      "task_loss": 0.998931884765625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42090779542922974,
      "epoch": 9.18,
      "learning_rate": 2.1571696931747028e-05,
      "loss": 0.5442,
      "step": 10855,
      "task_loss": 0.8587653636932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7019698619842529,
      "epoch": 9.18,
      "learning_rate": 2.1568566061365063e-05,
      "loss": 0.5892,
      "step": 10856,
      "task_loss": 1.4216864109039307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3970860242843628,
      "epoch": 9.18,
      "learning_rate": 2.1565435190983095e-05,
      "loss": 0.5143,
      "step": 10857,
      "task_loss": 0.21091079711914062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5980845093727112,
      "epoch": 9.18,
      "learning_rate": 2.156230432060113e-05,
      "loss": 0.5236,
      "step": 10858,
      "task_loss": 0.3505527675151825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3183314800262451,
      "epoch": 9.18,
      "learning_rate": 2.155917345021916e-05,
      "loss": 0.5074,
      "step": 10859,
      "task_loss": 0.52081298828125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32852256298065186,
      "epoch": 9.18,
      "learning_rate": 2.1556042579837197e-05,
      "loss": 0.4619,
      "step": 10860,
      "task_loss": 0.3196869194507599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3657461702823639,
      "epoch": 9.18,
      "learning_rate": 2.155291170945523e-05,
      "loss": 0.4814,
      "step": 10861,
      "task_loss": 0.2634945809841156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4061799645423889,
      "epoch": 9.18,
      "learning_rate": 2.1549780839073264e-05,
      "loss": 0.5277,
      "step": 10862,
      "task_loss": 0.25397977232933044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5767486095428467,
      "epoch": 9.18,
      "learning_rate": 2.1546649968691295e-05,
      "loss": 0.4107,
      "step": 10863,
      "task_loss": 0.5107080340385437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34271687269210815,
      "epoch": 9.18,
      "learning_rate": 2.154351909830933e-05,
      "loss": 0.471,
      "step": 10864,
      "task_loss": 1.546038031578064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8187350034713745,
      "epoch": 9.18,
      "learning_rate": 2.1540388227927366e-05,
      "loss": 0.5822,
      "step": 10865,
      "task_loss": 0.5808723568916321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38430267572402954,
      "epoch": 9.19,
      "learning_rate": 2.1537257357545398e-05,
      "loss": 0.4973,
      "step": 10866,
      "task_loss": 1.3076395988464355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3123360872268677,
      "epoch": 9.19,
      "learning_rate": 2.1534126487163433e-05,
      "loss": 0.5981,
      "step": 10867,
      "task_loss": 0.4841679632663727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4629463851451874,
      "epoch": 9.19,
      "learning_rate": 2.1530995616781465e-05,
      "loss": 0.5404,
      "step": 10868,
      "task_loss": 0.5289047360420227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47404739260673523,
      "epoch": 9.19,
      "learning_rate": 2.15278647463995e-05,
      "loss": 0.6401,
      "step": 10869,
      "task_loss": 0.3344303071498871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5069639682769775,
      "epoch": 9.19,
      "learning_rate": 2.1524733876017535e-05,
      "loss": 0.4664,
      "step": 10870,
      "task_loss": 0.6204138994216919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45518067479133606,
      "epoch": 9.19,
      "learning_rate": 2.1521603005635567e-05,
      "loss": 0.5207,
      "step": 10871,
      "task_loss": 1.2183525562286377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.622827410697937,
      "epoch": 9.19,
      "learning_rate": 2.1518472135253602e-05,
      "loss": 0.7393,
      "step": 10872,
      "task_loss": 0.7857483625411987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28328555822372437,
      "epoch": 9.19,
      "learning_rate": 2.1515341264871637e-05,
      "loss": 0.5001,
      "step": 10873,
      "task_loss": 0.1773114949464798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43933287262916565,
      "epoch": 9.19,
      "learning_rate": 2.151221039448967e-05,
      "loss": 0.6023,
      "step": 10874,
      "task_loss": 1.2644399404525757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40510454773902893,
      "epoch": 9.19,
      "learning_rate": 2.1509079524107704e-05,
      "loss": 0.471,
      "step": 10875,
      "task_loss": 0.5119494199752808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4197666645050049,
      "epoch": 9.19,
      "learning_rate": 2.1505948653725736e-05,
      "loss": 0.6526,
      "step": 10876,
      "task_loss": 1.0912022590637207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8527094125747681,
      "epoch": 9.19,
      "learning_rate": 2.150281778334377e-05,
      "loss": 0.5265,
      "step": 10877,
      "task_loss": 0.7256184220314026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46835994720458984,
      "epoch": 9.2,
      "learning_rate": 2.1499686912961806e-05,
      "loss": 0.562,
      "step": 10878,
      "task_loss": 0.09248249232769012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9534649848937988,
      "epoch": 9.2,
      "learning_rate": 2.1496556042579838e-05,
      "loss": 0.638,
      "step": 10879,
      "task_loss": 2.0141379833221436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4206981062889099,
      "epoch": 9.2,
      "learning_rate": 2.1493425172197873e-05,
      "loss": 0.637,
      "step": 10880,
      "task_loss": 0.11708416044712067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5128781199455261,
      "epoch": 9.2,
      "learning_rate": 2.1490294301815905e-05,
      "loss": 0.5002,
      "step": 10881,
      "task_loss": 0.6460906863212585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6144223809242249,
      "epoch": 9.2,
      "learning_rate": 2.148716343143394e-05,
      "loss": 0.5401,
      "step": 10882,
      "task_loss": 0.7632240056991577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5146634578704834,
      "epoch": 9.2,
      "learning_rate": 2.1484032561051972e-05,
      "loss": 0.665,
      "step": 10883,
      "task_loss": 0.6760275363922119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6023615598678589,
      "epoch": 9.2,
      "learning_rate": 2.1480901690670007e-05,
      "loss": 0.5366,
      "step": 10884,
      "task_loss": 0.7749180793762207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37847283482551575,
      "epoch": 9.2,
      "learning_rate": 2.147777082028804e-05,
      "loss": 0.4887,
      "step": 10885,
      "task_loss": 0.04881501570343971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.561476469039917,
      "epoch": 9.2,
      "learning_rate": 2.1474639949906074e-05,
      "loss": 0.6617,
      "step": 10886,
      "task_loss": 0.7930432558059692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6836427450180054,
      "epoch": 9.2,
      "learning_rate": 2.147150907952411e-05,
      "loss": 0.5758,
      "step": 10887,
      "task_loss": 1.0476616621017456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45852354168891907,
      "epoch": 9.2,
      "learning_rate": 2.1468378209142144e-05,
      "loss": 0.5085,
      "step": 10888,
      "task_loss": 1.0976526737213135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47180649638175964,
      "epoch": 9.2,
      "learning_rate": 2.146524733876018e-05,
      "loss": 0.5225,
      "step": 10889,
      "task_loss": 0.32783204317092896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5903705358505249,
      "epoch": 9.21,
      "learning_rate": 2.146211646837821e-05,
      "loss": 0.5872,
      "step": 10890,
      "task_loss": 0.947970449924469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49364399909973145,
      "epoch": 9.21,
      "learning_rate": 2.1458985597996246e-05,
      "loss": 0.6807,
      "step": 10891,
      "task_loss": 0.1938280612230301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1805577278137207,
      "epoch": 9.21,
      "learning_rate": 2.1455854727614278e-05,
      "loss": 0.6971,
      "step": 10892,
      "task_loss": 0.7009936571121216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6477997303009033,
      "epoch": 9.21,
      "learning_rate": 2.1452723857232313e-05,
      "loss": 0.5428,
      "step": 10893,
      "task_loss": 0.8989834785461426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43821266293525696,
      "epoch": 9.21,
      "learning_rate": 2.1449592986850345e-05,
      "loss": 0.3353,
      "step": 10894,
      "task_loss": 0.4989883303642273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5481058359146118,
      "epoch": 9.21,
      "learning_rate": 2.144646211646838e-05,
      "loss": 0.606,
      "step": 10895,
      "task_loss": 0.42359623312950134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49851876497268677,
      "epoch": 9.21,
      "learning_rate": 2.1443331246086412e-05,
      "loss": 0.5283,
      "step": 10896,
      "task_loss": 0.9212086796760559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5051236152648926,
      "epoch": 9.21,
      "learning_rate": 2.1440200375704447e-05,
      "loss": 0.4761,
      "step": 10897,
      "task_loss": 0.5388107299804688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3500555455684662,
      "epoch": 9.21,
      "learning_rate": 2.143706950532248e-05,
      "loss": 0.417,
      "step": 10898,
      "task_loss": 0.30302706360816956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7048258185386658,
      "epoch": 9.21,
      "learning_rate": 2.1433938634940514e-05,
      "loss": 0.6708,
      "step": 10899,
      "task_loss": 1.018332839012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4283768832683563,
      "epoch": 9.21,
      "learning_rate": 2.1430807764558546e-05,
      "loss": 0.4669,
      "step": 10900,
      "task_loss": 0.6607311964035034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.68162602186203,
      "epoch": 9.21,
      "learning_rate": 2.142767689417658e-05,
      "loss": 0.6109,
      "step": 10901,
      "task_loss": 0.9482491612434387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4650007486343384,
      "epoch": 9.22,
      "learning_rate": 2.1424546023794616e-05,
      "loss": 0.5162,
      "step": 10902,
      "task_loss": 0.6551792025566101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3212777078151703,
      "epoch": 9.22,
      "learning_rate": 2.1421415153412648e-05,
      "loss": 0.4835,
      "step": 10903,
      "task_loss": 0.30251339077949524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6223666667938232,
      "epoch": 9.22,
      "learning_rate": 2.1418284283030683e-05,
      "loss": 0.6115,
      "step": 10904,
      "task_loss": 0.6684866547584534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33913445472717285,
      "epoch": 9.22,
      "learning_rate": 2.141515341264872e-05,
      "loss": 0.4681,
      "step": 10905,
      "task_loss": 0.6508069038391113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4184630811214447,
      "epoch": 9.22,
      "learning_rate": 2.1412022542266754e-05,
      "loss": 0.4815,
      "step": 10906,
      "task_loss": 1.0698230266571045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5623041391372681,
      "epoch": 9.22,
      "learning_rate": 2.1408891671884785e-05,
      "loss": 0.5631,
      "step": 10907,
      "task_loss": 0.6564867496490479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.519415020942688,
      "epoch": 9.22,
      "learning_rate": 2.140576080150282e-05,
      "loss": 0.4941,
      "step": 10908,
      "task_loss": 0.4757525324821472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7588217258453369,
      "epoch": 9.22,
      "learning_rate": 2.1402629931120852e-05,
      "loss": 0.5354,
      "step": 10909,
      "task_loss": 1.059624433517456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385714173316956,
      "epoch": 9.22,
      "learning_rate": 2.1399499060738887e-05,
      "loss": 0.5874,
      "step": 10910,
      "task_loss": 1.1655223369598389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4426650404930115,
      "epoch": 9.22,
      "learning_rate": 2.139636819035692e-05,
      "loss": 0.7159,
      "step": 10911,
      "task_loss": 0.9254082441329956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44767943024635315,
      "epoch": 9.22,
      "learning_rate": 2.1393237319974954e-05,
      "loss": 0.5912,
      "step": 10912,
      "task_loss": 0.4576539993286133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6747550368309021,
      "epoch": 9.22,
      "learning_rate": 2.139010644959299e-05,
      "loss": 0.48,
      "step": 10913,
      "task_loss": 0.8630843758583069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5697304606437683,
      "epoch": 9.23,
      "learning_rate": 2.138697557921102e-05,
      "loss": 0.535,
      "step": 10914,
      "task_loss": 1.1150908470153809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2988319993019104,
      "epoch": 9.23,
      "learning_rate": 2.1383844708829056e-05,
      "loss": 0.4021,
      "step": 10915,
      "task_loss": 0.5637917518615723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8878071308135986,
      "epoch": 9.23,
      "learning_rate": 2.1380713838447088e-05,
      "loss": 0.6069,
      "step": 10916,
      "task_loss": 1.326325535774231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5750740766525269,
      "epoch": 9.23,
      "learning_rate": 2.1377582968065123e-05,
      "loss": 0.5801,
      "step": 10917,
      "task_loss": 1.168007254600525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3625173568725586,
      "epoch": 9.23,
      "learning_rate": 2.1374452097683155e-05,
      "loss": 0.6885,
      "step": 10918,
      "task_loss": 0.24815595149993896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5042824745178223,
      "epoch": 9.23,
      "learning_rate": 2.137132122730119e-05,
      "loss": 0.6116,
      "step": 10919,
      "task_loss": 1.0247471332550049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5384512543678284,
      "epoch": 9.23,
      "learning_rate": 2.1368190356919222e-05,
      "loss": 0.5173,
      "step": 10920,
      "task_loss": 0.910983145236969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8035609722137451,
      "epoch": 9.23,
      "learning_rate": 2.1365059486537257e-05,
      "loss": 0.6316,
      "step": 10921,
      "task_loss": 0.8519521355628967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43562668561935425,
      "epoch": 9.23,
      "learning_rate": 2.1361928616155293e-05,
      "loss": 0.5967,
      "step": 10922,
      "task_loss": 0.5298208594322205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8232869505882263,
      "epoch": 9.23,
      "learning_rate": 2.1358797745773328e-05,
      "loss": 0.7342,
      "step": 10923,
      "task_loss": 1.173535704612732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22864538431167603,
      "epoch": 9.23,
      "learning_rate": 2.135566687539136e-05,
      "loss": 0.3646,
      "step": 10924,
      "task_loss": 0.12770842015743256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6853054761886597,
      "epoch": 9.23,
      "learning_rate": 2.1352536005009395e-05,
      "loss": 0.4477,
      "step": 10925,
      "task_loss": 0.8653681874275208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4213179349899292,
      "epoch": 9.24,
      "learning_rate": 2.134940513462743e-05,
      "loss": 0.4544,
      "step": 10926,
      "task_loss": 0.6201899647712708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5321208238601685,
      "epoch": 9.24,
      "learning_rate": 2.134627426424546e-05,
      "loss": 0.3299,
      "step": 10927,
      "task_loss": 0.06832588464021683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38499921560287476,
      "epoch": 9.24,
      "learning_rate": 2.1343143393863497e-05,
      "loss": 0.5256,
      "step": 10928,
      "task_loss": 0.6429681777954102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2602386176586151,
      "epoch": 9.24,
      "learning_rate": 2.134001252348153e-05,
      "loss": 0.3604,
      "step": 10929,
      "task_loss": 0.3457573354244232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42229723930358887,
      "epoch": 9.24,
      "learning_rate": 2.1336881653099564e-05,
      "loss": 0.586,
      "step": 10930,
      "task_loss": 0.7372218370437622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5491085052490234,
      "epoch": 9.24,
      "learning_rate": 2.1333750782717595e-05,
      "loss": 0.5898,
      "step": 10931,
      "task_loss": 1.244326114654541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6268080472946167,
      "epoch": 9.24,
      "learning_rate": 2.133061991233563e-05,
      "loss": 0.5697,
      "step": 10932,
      "task_loss": 1.1351968050003052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47410494089126587,
      "epoch": 9.24,
      "learning_rate": 2.1327489041953662e-05,
      "loss": 0.4326,
      "step": 10933,
      "task_loss": 0.6800298094749451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5500917434692383,
      "epoch": 9.24,
      "learning_rate": 2.1324358171571698e-05,
      "loss": 0.4065,
      "step": 10934,
      "task_loss": 0.23375087976455688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38254427909851074,
      "epoch": 9.24,
      "learning_rate": 2.132122730118973e-05,
      "loss": 0.4711,
      "step": 10935,
      "task_loss": 0.7151814699172974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8779199123382568,
      "epoch": 9.24,
      "learning_rate": 2.1318096430807765e-05,
      "loss": 0.68,
      "step": 10936,
      "task_loss": 0.8926211595535278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8139522075653076,
      "epoch": 9.24,
      "learning_rate": 2.13149655604258e-05,
      "loss": 0.6005,
      "step": 10937,
      "task_loss": 0.8239250183105469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4297165870666504,
      "epoch": 9.25,
      "learning_rate": 2.131183469004383e-05,
      "loss": 0.5709,
      "step": 10938,
      "task_loss": 0.3510212004184723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9361065030097961,
      "epoch": 9.25,
      "learning_rate": 2.1308703819661867e-05,
      "loss": 0.7119,
      "step": 10939,
      "task_loss": 1.0182311534881592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5342442989349365,
      "epoch": 9.25,
      "learning_rate": 2.1305572949279902e-05,
      "loss": 0.6202,
      "step": 10940,
      "task_loss": 0.3514188230037689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4866122901439667,
      "epoch": 9.25,
      "learning_rate": 2.1302442078897937e-05,
      "loss": 0.5528,
      "step": 10941,
      "task_loss": 1.4298650026321411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5200307369232178,
      "epoch": 9.25,
      "learning_rate": 2.129931120851597e-05,
      "loss": 0.5023,
      "step": 10942,
      "task_loss": 0.39539921283721924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.657658576965332,
      "epoch": 9.25,
      "learning_rate": 2.1296180338134004e-05,
      "loss": 0.5227,
      "step": 10943,
      "task_loss": 0.972457766532898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6207591891288757,
      "epoch": 9.25,
      "learning_rate": 2.1293049467752036e-05,
      "loss": 0.503,
      "step": 10944,
      "task_loss": 0.5119209289550781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7298190593719482,
      "epoch": 9.25,
      "learning_rate": 2.128991859737007e-05,
      "loss": 0.4535,
      "step": 10945,
      "task_loss": 1.1515848636627197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.712441623210907,
      "epoch": 9.25,
      "learning_rate": 2.1286787726988103e-05,
      "loss": 0.6854,
      "step": 10946,
      "task_loss": 1.038048505783081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5885166525840759,
      "epoch": 9.25,
      "learning_rate": 2.1283656856606138e-05,
      "loss": 0.4894,
      "step": 10947,
      "task_loss": 0.6588267087936401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6577605605125427,
      "epoch": 9.25,
      "learning_rate": 2.128052598622417e-05,
      "loss": 0.5615,
      "step": 10948,
      "task_loss": 1.1200001239776611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5500950217247009,
      "epoch": 9.26,
      "learning_rate": 2.1277395115842205e-05,
      "loss": 0.6323,
      "step": 10949,
      "task_loss": 1.4862384796142578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37843790650367737,
      "epoch": 9.26,
      "learning_rate": 2.127426424546024e-05,
      "loss": 0.5844,
      "step": 10950,
      "task_loss": 1.0339802503585815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3949783444404602,
      "epoch": 9.26,
      "learning_rate": 2.1271133375078272e-05,
      "loss": 0.6939,
      "step": 10951,
      "task_loss": 0.8240654468536377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3597279191017151,
      "epoch": 9.26,
      "learning_rate": 2.1268002504696307e-05,
      "loss": 0.4818,
      "step": 10952,
      "task_loss": 1.1835144758224487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6641346216201782,
      "epoch": 9.26,
      "learning_rate": 2.126487163431434e-05,
      "loss": 0.6901,
      "step": 10953,
      "task_loss": 0.9962551593780518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6204301714897156,
      "epoch": 9.26,
      "learning_rate": 2.1261740763932374e-05,
      "loss": 0.6701,
      "step": 10954,
      "task_loss": 0.9233690500259399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39548370242118835,
      "epoch": 9.26,
      "learning_rate": 2.125860989355041e-05,
      "loss": 0.4887,
      "step": 10955,
      "task_loss": 0.8051570057868958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4969893991947174,
      "epoch": 9.26,
      "learning_rate": 2.1255479023168444e-05,
      "loss": 0.4946,
      "step": 10956,
      "task_loss": 1.5789693593978882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46021026372909546,
      "epoch": 9.26,
      "learning_rate": 2.1252348152786476e-05,
      "loss": 0.6607,
      "step": 10957,
      "task_loss": 0.6119105815887451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4000053107738495,
      "epoch": 9.26,
      "learning_rate": 2.124921728240451e-05,
      "loss": 0.6101,
      "step": 10958,
      "task_loss": 0.23214876651763916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.843894362449646,
      "epoch": 9.26,
      "learning_rate": 2.1246086412022543e-05,
      "loss": 0.5743,
      "step": 10959,
      "task_loss": 0.24309709668159485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3611828088760376,
      "epoch": 9.26,
      "learning_rate": 2.1242955541640578e-05,
      "loss": 0.4667,
      "step": 10960,
      "task_loss": 0.16456349194049835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42099568247795105,
      "epoch": 9.27,
      "learning_rate": 2.123982467125861e-05,
      "loss": 0.5479,
      "step": 10961,
      "task_loss": 1.4007837772369385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41204509139060974,
      "epoch": 9.27,
      "learning_rate": 2.1236693800876645e-05,
      "loss": 0.473,
      "step": 10962,
      "task_loss": 0.29872259497642517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6341841816902161,
      "epoch": 9.27,
      "learning_rate": 2.123356293049468e-05,
      "loss": 0.5099,
      "step": 10963,
      "task_loss": 0.43977656960487366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5356093645095825,
      "epoch": 9.27,
      "learning_rate": 2.1230432060112712e-05,
      "loss": 0.432,
      "step": 10964,
      "task_loss": 0.51674485206604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33958911895751953,
      "epoch": 9.27,
      "learning_rate": 2.1227301189730747e-05,
      "loss": 0.4868,
      "step": 10965,
      "task_loss": 0.402753084897995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6170613169670105,
      "epoch": 9.27,
      "learning_rate": 2.122417031934878e-05,
      "loss": 0.5812,
      "step": 10966,
      "task_loss": 0.9869973659515381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7055357694625854,
      "epoch": 9.27,
      "learning_rate": 2.1221039448966814e-05,
      "loss": 0.569,
      "step": 10967,
      "task_loss": 0.5293646454811096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47522932291030884,
      "epoch": 9.27,
      "learning_rate": 2.1217908578584846e-05,
      "loss": 0.5239,
      "step": 10968,
      "task_loss": 1.0056711435317993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.523888349533081,
      "epoch": 9.27,
      "learning_rate": 2.121477770820288e-05,
      "loss": 0.4695,
      "step": 10969,
      "task_loss": 0.8720892071723938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.57622230052948,
      "epoch": 9.27,
      "learning_rate": 2.1211646837820913e-05,
      "loss": 0.5384,
      "step": 10970,
      "task_loss": 0.7073364853858948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46024948358535767,
      "epoch": 9.27,
      "learning_rate": 2.1208515967438948e-05,
      "loss": 0.5464,
      "step": 10971,
      "task_loss": 1.3565375804901123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28800565004348755,
      "epoch": 9.27,
      "learning_rate": 2.1205385097056983e-05,
      "loss": 0.4767,
      "step": 10972,
      "task_loss": 0.11874084174633026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2343231588602066,
      "epoch": 9.28,
      "learning_rate": 2.120225422667502e-05,
      "loss": 0.3965,
      "step": 10973,
      "task_loss": 0.3304547965526581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5238041281700134,
      "epoch": 9.28,
      "learning_rate": 2.119912335629305e-05,
      "loss": 0.5479,
      "step": 10974,
      "task_loss": 0.38163554668426514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6606035232543945,
      "epoch": 9.28,
      "learning_rate": 2.1195992485911085e-05,
      "loss": 0.6772,
      "step": 10975,
      "task_loss": 1.386702060699463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6085480451583862,
      "epoch": 9.28,
      "learning_rate": 2.119286161552912e-05,
      "loss": 0.5927,
      "step": 10976,
      "task_loss": 0.5691719651222229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5871055722236633,
      "epoch": 9.28,
      "learning_rate": 2.1189730745147152e-05,
      "loss": 0.532,
      "step": 10977,
      "task_loss": 0.5200388431549072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42819955945014954,
      "epoch": 9.28,
      "learning_rate": 2.1186599874765187e-05,
      "loss": 0.6269,
      "step": 10978,
      "task_loss": 0.5926833152770996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9046127200126648,
      "epoch": 9.28,
      "learning_rate": 2.118346900438322e-05,
      "loss": 0.5692,
      "step": 10979,
      "task_loss": 0.7268161177635193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6609224677085876,
      "epoch": 9.28,
      "learning_rate": 2.1180338134001254e-05,
      "loss": 0.5185,
      "step": 10980,
      "task_loss": 0.8057270646095276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9564125537872314,
      "epoch": 9.28,
      "learning_rate": 2.1177207263619286e-05,
      "loss": 0.589,
      "step": 10981,
      "task_loss": 1.8332239389419556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4116284251213074,
      "epoch": 9.28,
      "learning_rate": 2.117407639323732e-05,
      "loss": 0.4688,
      "step": 10982,
      "task_loss": 0.10509831458330154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.914676308631897,
      "epoch": 9.28,
      "learning_rate": 2.1170945522855353e-05,
      "loss": 0.7386,
      "step": 10983,
      "task_loss": 1.3399028778076172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5786545872688293,
      "epoch": 9.28,
      "learning_rate": 2.1167814652473388e-05,
      "loss": 0.5958,
      "step": 10984,
      "task_loss": 0.9887636303901672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22716110944747925,
      "epoch": 9.29,
      "learning_rate": 2.116468378209142e-05,
      "loss": 0.4696,
      "step": 10985,
      "task_loss": 0.1664201021194458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.547349214553833,
      "epoch": 9.29,
      "learning_rate": 2.1161552911709455e-05,
      "loss": 0.6009,
      "step": 10986,
      "task_loss": 0.5663459897041321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7757431268692017,
      "epoch": 9.29,
      "learning_rate": 2.115842204132749e-05,
      "loss": 0.8008,
      "step": 10987,
      "task_loss": 0.7495940923690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42252543568611145,
      "epoch": 9.29,
      "learning_rate": 2.1155291170945522e-05,
      "loss": 0.5237,
      "step": 10988,
      "task_loss": 0.758827269077301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.639927089214325,
      "epoch": 9.29,
      "learning_rate": 2.1152160300563557e-05,
      "loss": 0.7558,
      "step": 10989,
      "task_loss": 0.17115819454193115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6819243431091309,
      "epoch": 9.29,
      "learning_rate": 2.1149029430181593e-05,
      "loss": 0.6426,
      "step": 10990,
      "task_loss": 0.8094286918640137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4794903099536896,
      "epoch": 9.29,
      "learning_rate": 2.1145898559799628e-05,
      "loss": 0.5282,
      "step": 10991,
      "task_loss": 1.317718267440796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44821491837501526,
      "epoch": 9.29,
      "learning_rate": 2.114276768941766e-05,
      "loss": 0.5447,
      "step": 10992,
      "task_loss": 0.48795199394226074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7978559136390686,
      "epoch": 9.29,
      "learning_rate": 2.1139636819035695e-05,
      "loss": 0.5369,
      "step": 10993,
      "task_loss": 0.9549655318260193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.347912073135376,
      "epoch": 9.29,
      "learning_rate": 2.1136505948653726e-05,
      "loss": 0.4704,
      "step": 10994,
      "task_loss": 0.7751814126968384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8824114799499512,
      "epoch": 9.29,
      "learning_rate": 2.113337507827176e-05,
      "loss": 0.5175,
      "step": 10995,
      "task_loss": 0.7911750078201294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3624292314052582,
      "epoch": 9.29,
      "learning_rate": 2.1130244207889793e-05,
      "loss": 0.4222,
      "step": 10996,
      "task_loss": 0.6262227296829224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5484211444854736,
      "epoch": 9.3,
      "learning_rate": 2.112711333750783e-05,
      "loss": 0.5618,
      "step": 10997,
      "task_loss": 0.6928092837333679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.721632719039917,
      "epoch": 9.3,
      "learning_rate": 2.112398246712586e-05,
      "loss": 0.5204,
      "step": 10998,
      "task_loss": 1.150126576423645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5535643696784973,
      "epoch": 9.3,
      "learning_rate": 2.1120851596743896e-05,
      "loss": 0.4267,
      "step": 10999,
      "task_loss": 0.3417198657989502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7252011299133301,
      "epoch": 9.3,
      "learning_rate": 2.111772072636193e-05,
      "loss": 0.5323,
      "step": 11000,
      "task_loss": 0.466799795627594
    },
    {
      "epoch": 9.3,
      "eval_accuracy": 0.9016633663366337,
      "eval_loss": 0.3793487250804901,
      "eval_runtime": 206.1337,
      "eval_samples_per_second": 122.493,
      "eval_steps_per_second": 0.961,
      "step": 11000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9623677730560303,
      "epoch": 9.3,
      "learning_rate": 2.1114589855979962e-05,
      "loss": 0.7295,
      "step": 11001,
      "task_loss": 0.47625887393951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5299513339996338,
      "epoch": 9.3,
      "learning_rate": 2.1111458985597998e-05,
      "loss": 0.6378,
      "step": 11002,
      "task_loss": 1.240906834602356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5188761353492737,
      "epoch": 9.3,
      "learning_rate": 2.110832811521603e-05,
      "loss": 0.602,
      "step": 11003,
      "task_loss": 1.153619408607483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0214561223983765,
      "epoch": 9.3,
      "learning_rate": 2.1105197244834065e-05,
      "loss": 0.5579,
      "step": 11004,
      "task_loss": 1.2658144235610962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6547983884811401,
      "epoch": 9.3,
      "learning_rate": 2.1102066374452096e-05,
      "loss": 0.5196,
      "step": 11005,
      "task_loss": 0.5332574844360352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7137526273727417,
      "epoch": 9.3,
      "learning_rate": 2.109893550407013e-05,
      "loss": 0.7594,
      "step": 11006,
      "task_loss": 0.2760656476020813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0427443981170654,
      "epoch": 9.3,
      "learning_rate": 2.1095804633688167e-05,
      "loss": 0.7596,
      "step": 11007,
      "task_loss": 0.5587009787559509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8365087509155273,
      "epoch": 9.3,
      "learning_rate": 2.1092673763306202e-05,
      "loss": 0.4569,
      "step": 11008,
      "task_loss": 1.0348951816558838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21145832538604736,
      "epoch": 9.31,
      "learning_rate": 2.1089542892924234e-05,
      "loss": 0.5034,
      "step": 11009,
      "task_loss": 0.4591176211833954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4173012673854828,
      "epoch": 9.31,
      "learning_rate": 2.108641202254227e-05,
      "loss": 0.4327,
      "step": 11010,
      "task_loss": 0.49352967739105225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21527692675590515,
      "epoch": 9.31,
      "learning_rate": 2.10832811521603e-05,
      "loss": 0.4777,
      "step": 11011,
      "task_loss": 0.16324567794799805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.807902455329895,
      "epoch": 9.31,
      "learning_rate": 2.1080150281778336e-05,
      "loss": 0.6917,
      "step": 11012,
      "task_loss": 0.6279479265213013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35721275210380554,
      "epoch": 9.31,
      "learning_rate": 2.107701941139637e-05,
      "loss": 0.5393,
      "step": 11013,
      "task_loss": 0.17685876786708832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4954848885536194,
      "epoch": 9.31,
      "learning_rate": 2.1073888541014403e-05,
      "loss": 0.5564,
      "step": 11014,
      "task_loss": 0.5993374586105347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5603012442588806,
      "epoch": 9.31,
      "learning_rate": 2.1070757670632438e-05,
      "loss": 0.5717,
      "step": 11015,
      "task_loss": 0.8402811288833618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5526353716850281,
      "epoch": 9.31,
      "learning_rate": 2.106762680025047e-05,
      "loss": 0.5885,
      "step": 11016,
      "task_loss": 0.946648895740509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6028943061828613,
      "epoch": 9.31,
      "learning_rate": 2.1064495929868505e-05,
      "loss": 0.488,
      "step": 11017,
      "task_loss": 0.46591758728027344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6554441452026367,
      "epoch": 9.31,
      "learning_rate": 2.1061365059486537e-05,
      "loss": 0.5368,
      "step": 11018,
      "task_loss": 1.2420228719711304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37560293078422546,
      "epoch": 9.31,
      "learning_rate": 2.1058234189104572e-05,
      "loss": 0.5778,
      "step": 11019,
      "task_loss": 0.549220085144043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4517941474914551,
      "epoch": 9.32,
      "learning_rate": 2.1055103318722604e-05,
      "loss": 0.6208,
      "step": 11020,
      "task_loss": 0.7067399621009827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46670758724212646,
      "epoch": 9.32,
      "learning_rate": 2.105197244834064e-05,
      "loss": 0.5431,
      "step": 11021,
      "task_loss": 0.41013893485069275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4980430603027344,
      "epoch": 9.32,
      "learning_rate": 2.1048841577958674e-05,
      "loss": 0.6122,
      "step": 11022,
      "task_loss": 0.5611720085144043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7161940336227417,
      "epoch": 9.32,
      "learning_rate": 2.1045710707576706e-05,
      "loss": 0.5064,
      "step": 11023,
      "task_loss": 0.36962953209877014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.863868236541748,
      "epoch": 9.32,
      "learning_rate": 2.104257983719474e-05,
      "loss": 0.6388,
      "step": 11024,
      "task_loss": 0.8607770800590515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7176629304885864,
      "epoch": 9.32,
      "learning_rate": 2.1039448966812776e-05,
      "loss": 0.4785,
      "step": 11025,
      "task_loss": 0.9822527766227722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4039854407310486,
      "epoch": 9.32,
      "learning_rate": 2.103631809643081e-05,
      "loss": 0.5962,
      "step": 11026,
      "task_loss": 0.787648618221283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6130164861679077,
      "epoch": 9.32,
      "learning_rate": 2.1033187226048843e-05,
      "loss": 0.4608,
      "step": 11027,
      "task_loss": 1.0217814445495605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8617525696754456,
      "epoch": 9.32,
      "learning_rate": 2.1030056355666878e-05,
      "loss": 0.5892,
      "step": 11028,
      "task_loss": 0.692875862121582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45631664991378784,
      "epoch": 9.32,
      "learning_rate": 2.102692548528491e-05,
      "loss": 0.5351,
      "step": 11029,
      "task_loss": 1.0149005651474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.762970507144928,
      "epoch": 9.32,
      "learning_rate": 2.1023794614902945e-05,
      "loss": 0.5343,
      "step": 11030,
      "task_loss": 0.49640247225761414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6087266206741333,
      "epoch": 9.32,
      "learning_rate": 2.1020663744520977e-05,
      "loss": 0.5938,
      "step": 11031,
      "task_loss": 0.7062137126922607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.708909273147583,
      "epoch": 9.33,
      "learning_rate": 2.1017532874139012e-05,
      "loss": 0.5723,
      "step": 11032,
      "task_loss": 1.1298727989196777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4437698721885681,
      "epoch": 9.33,
      "learning_rate": 2.1014402003757044e-05,
      "loss": 0.5547,
      "step": 11033,
      "task_loss": 0.40451911091804504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7378613352775574,
      "epoch": 9.33,
      "learning_rate": 2.101127113337508e-05,
      "loss": 0.7219,
      "step": 11034,
      "task_loss": 0.8343433141708374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5952461957931519,
      "epoch": 9.33,
      "learning_rate": 2.100814026299311e-05,
      "loss": 0.4644,
      "step": 11035,
      "task_loss": 0.8161760568618774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5592974424362183,
      "epoch": 9.33,
      "learning_rate": 2.1005009392611146e-05,
      "loss": 0.5877,
      "step": 11036,
      "task_loss": 1.0932706594467163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3117920458316803,
      "epoch": 9.33,
      "learning_rate": 2.100187852222918e-05,
      "loss": 0.4377,
      "step": 11037,
      "task_loss": 0.29006892442703247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6203903555870056,
      "epoch": 9.33,
      "learning_rate": 2.0998747651847213e-05,
      "loss": 0.5023,
      "step": 11038,
      "task_loss": 1.1338294744491577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4800589084625244,
      "epoch": 9.33,
      "learning_rate": 2.0995616781465248e-05,
      "loss": 0.5078,
      "step": 11039,
      "task_loss": 0.641564667224884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5979856252670288,
      "epoch": 9.33,
      "learning_rate": 2.0992485911083283e-05,
      "loss": 0.5564,
      "step": 11040,
      "task_loss": 0.6688344478607178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35318467020988464,
      "epoch": 9.33,
      "learning_rate": 2.098935504070132e-05,
      "loss": 0.5852,
      "step": 11041,
      "task_loss": 0.7330173850059509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5211511850357056,
      "epoch": 9.33,
      "learning_rate": 2.098622417031935e-05,
      "loss": 0.5376,
      "step": 11042,
      "task_loss": 0.6433767676353455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6728024482727051,
      "epoch": 9.33,
      "learning_rate": 2.0983093299937385e-05,
      "loss": 0.6269,
      "step": 11043,
      "task_loss": 1.2280324697494507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4758075177669525,
      "epoch": 9.34,
      "learning_rate": 2.0979962429555417e-05,
      "loss": 0.5447,
      "step": 11044,
      "task_loss": 1.008735179901123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5366891026496887,
      "epoch": 9.34,
      "learning_rate": 2.0976831559173452e-05,
      "loss": 0.5905,
      "step": 11045,
      "task_loss": 0.6761773824691772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.506938099861145,
      "epoch": 9.34,
      "learning_rate": 2.0973700688791484e-05,
      "loss": 0.5271,
      "step": 11046,
      "task_loss": 0.4266812205314636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8562105298042297,
      "epoch": 9.34,
      "learning_rate": 2.097056981840952e-05,
      "loss": 0.6629,
      "step": 11047,
      "task_loss": 0.41501477360725403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43721240758895874,
      "epoch": 9.34,
      "learning_rate": 2.0967438948027554e-05,
      "loss": 0.5214,
      "step": 11048,
      "task_loss": 0.39509543776512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3374711573123932,
      "epoch": 9.34,
      "learning_rate": 2.0964308077645586e-05,
      "loss": 0.4913,
      "step": 11049,
      "task_loss": 0.1561509370803833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3942636251449585,
      "epoch": 9.34,
      "learning_rate": 2.096117720726362e-05,
      "loss": 0.433,
      "step": 11050,
      "task_loss": 0.42468327283859253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9151959419250488,
      "epoch": 9.34,
      "learning_rate": 2.0958046336881653e-05,
      "loss": 0.6767,
      "step": 11051,
      "task_loss": 0.22582069039344788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46117955446243286,
      "epoch": 9.34,
      "learning_rate": 2.095491546649969e-05,
      "loss": 0.6329,
      "step": 11052,
      "task_loss": 0.6117879748344421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5360149145126343,
      "epoch": 9.34,
      "learning_rate": 2.095178459611772e-05,
      "loss": 0.5467,
      "step": 11053,
      "task_loss": 0.6518809199333191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5953665375709534,
      "epoch": 9.34,
      "learning_rate": 2.0948653725735755e-05,
      "loss": 0.5713,
      "step": 11054,
      "task_loss": 0.6232239007949829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7215033769607544,
      "epoch": 9.34,
      "learning_rate": 2.0945522855353787e-05,
      "loss": 0.5918,
      "step": 11055,
      "task_loss": 0.654564619064331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6707335710525513,
      "epoch": 9.35,
      "learning_rate": 2.0942391984971822e-05,
      "loss": 0.7316,
      "step": 11056,
      "task_loss": 1.3850572109222412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5717812776565552,
      "epoch": 9.35,
      "learning_rate": 2.0939261114589857e-05,
      "loss": 0.526,
      "step": 11057,
      "task_loss": 0.8842477202415466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4381035268306732,
      "epoch": 9.35,
      "learning_rate": 2.0936130244207893e-05,
      "loss": 0.4372,
      "step": 11058,
      "task_loss": 0.27524876594543457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3029240369796753,
      "epoch": 9.35,
      "learning_rate": 2.0932999373825924e-05,
      "loss": 0.496,
      "step": 11059,
      "task_loss": 1.4768670797348022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6320303678512573,
      "epoch": 9.35,
      "learning_rate": 2.092986850344396e-05,
      "loss": 0.7019,
      "step": 11060,
      "task_loss": 0.28157472610473633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205538749694824,
      "epoch": 9.35,
      "learning_rate": 2.0926737633061995e-05,
      "loss": 0.5669,
      "step": 11061,
      "task_loss": 0.4825977683067322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31320565938949585,
      "epoch": 9.35,
      "learning_rate": 2.0923606762680026e-05,
      "loss": 0.5136,
      "step": 11062,
      "task_loss": 0.2732275724411011
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6477102041244507,
      "epoch": 9.35,
      "learning_rate": 2.092047589229806e-05,
      "loss": 0.5565,
      "step": 11063,
      "task_loss": 0.9247978925704956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4339419901371002,
      "epoch": 9.35,
      "learning_rate": 2.0917345021916093e-05,
      "loss": 0.4949,
      "step": 11064,
      "task_loss": 0.6933647990226746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3923567533493042,
      "epoch": 9.35,
      "learning_rate": 2.091421415153413e-05,
      "loss": 0.4984,
      "step": 11065,
      "task_loss": 0.3636775612831116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6771771907806396,
      "epoch": 9.35,
      "learning_rate": 2.091108328115216e-05,
      "loss": 0.6058,
      "step": 11066,
      "task_loss": 0.5175504088401794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7323749661445618,
      "epoch": 9.35,
      "learning_rate": 2.0907952410770196e-05,
      "loss": 0.468,
      "step": 11067,
      "task_loss": 0.9864889979362488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7646000385284424,
      "epoch": 9.36,
      "learning_rate": 2.0904821540388227e-05,
      "loss": 0.6323,
      "step": 11068,
      "task_loss": 0.8265000581741333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5117040872573853,
      "epoch": 9.36,
      "learning_rate": 2.0901690670006262e-05,
      "loss": 0.4761,
      "step": 11069,
      "task_loss": 0.5577810406684875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3715049624443054,
      "epoch": 9.36,
      "learning_rate": 2.0898559799624294e-05,
      "loss": 0.3479,
      "step": 11070,
      "task_loss": 0.3219952881336212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503859519958496,
      "epoch": 9.36,
      "learning_rate": 2.089542892924233e-05,
      "loss": 0.5115,
      "step": 11071,
      "task_loss": 0.8405212163925171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9880281686782837,
      "epoch": 9.36,
      "learning_rate": 2.089229805886036e-05,
      "loss": 0.5531,
      "step": 11072,
      "task_loss": 0.9278154969215393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6758714914321899,
      "epoch": 9.36,
      "learning_rate": 2.0889167188478396e-05,
      "loss": 0.6636,
      "step": 11073,
      "task_loss": 0.5740950107574463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7018527984619141,
      "epoch": 9.36,
      "learning_rate": 2.088603631809643e-05,
      "loss": 0.6872,
      "step": 11074,
      "task_loss": 0.706409215927124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4733871817588806,
      "epoch": 9.36,
      "learning_rate": 2.0882905447714467e-05,
      "loss": 0.4948,
      "step": 11075,
      "task_loss": 0.3632488250732422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7951631546020508,
      "epoch": 9.36,
      "learning_rate": 2.0879774577332502e-05,
      "loss": 0.5792,
      "step": 11076,
      "task_loss": 0.9810490608215332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6763271689414978,
      "epoch": 9.36,
      "learning_rate": 2.0876643706950534e-05,
      "loss": 0.5198,
      "step": 11077,
      "task_loss": 0.47952109575271606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9819873571395874,
      "epoch": 9.36,
      "learning_rate": 2.087351283656857e-05,
      "loss": 0.5393,
      "step": 11078,
      "task_loss": 0.53044193983078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29400351643562317,
      "epoch": 9.36,
      "learning_rate": 2.08703819661866e-05,
      "loss": 0.4113,
      "step": 11079,
      "task_loss": 0.08749697357416153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7865314483642578,
      "epoch": 9.37,
      "learning_rate": 2.0867251095804636e-05,
      "loss": 0.6471,
      "step": 11080,
      "task_loss": 1.2800530195236206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3541516661643982,
      "epoch": 9.37,
      "learning_rate": 2.0864120225422668e-05,
      "loss": 0.4732,
      "step": 11081,
      "task_loss": 0.5420963168144226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5974559187889099,
      "epoch": 9.37,
      "learning_rate": 2.0860989355040703e-05,
      "loss": 0.7211,
      "step": 11082,
      "task_loss": 1.3383153676986694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34306657314300537,
      "epoch": 9.37,
      "learning_rate": 2.0857858484658735e-05,
      "loss": 0.6532,
      "step": 11083,
      "task_loss": 0.5032360553741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0112818479537964,
      "epoch": 9.37,
      "learning_rate": 2.085472761427677e-05,
      "loss": 0.6956,
      "step": 11084,
      "task_loss": 1.3690439462661743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4321610927581787,
      "epoch": 9.37,
      "learning_rate": 2.0851596743894805e-05,
      "loss": 0.4818,
      "step": 11085,
      "task_loss": 0.9114605188369751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4049995243549347,
      "epoch": 9.37,
      "learning_rate": 2.0848465873512837e-05,
      "loss": 0.6429,
      "step": 11086,
      "task_loss": 0.4219440221786499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4149618148803711,
      "epoch": 9.37,
      "learning_rate": 2.0845335003130872e-05,
      "loss": 0.4862,
      "step": 11087,
      "task_loss": 0.6596091389656067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4334532618522644,
      "epoch": 9.37,
      "learning_rate": 2.0842204132748904e-05,
      "loss": 0.5101,
      "step": 11088,
      "task_loss": 0.8211643695831299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4860309362411499,
      "epoch": 9.37,
      "learning_rate": 2.083907326236694e-05,
      "loss": 0.6933,
      "step": 11089,
      "task_loss": 0.8992518782615662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5162341594696045,
      "epoch": 9.37,
      "learning_rate": 2.083594239198497e-05,
      "loss": 0.5416,
      "step": 11090,
      "task_loss": 0.7724950909614563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4974701702594757,
      "epoch": 9.38,
      "learning_rate": 2.0832811521603006e-05,
      "loss": 0.6465,
      "step": 11091,
      "task_loss": 1.1691416501998901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46752429008483887,
      "epoch": 9.38,
      "learning_rate": 2.082968065122104e-05,
      "loss": 0.6577,
      "step": 11092,
      "task_loss": 0.3868715465068817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.435374915599823,
      "epoch": 9.38,
      "learning_rate": 2.0826549780839076e-05,
      "loss": 0.4674,
      "step": 11093,
      "task_loss": 0.4035654366016388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4691745936870575,
      "epoch": 9.38,
      "learning_rate": 2.0823418910457108e-05,
      "loss": 0.4161,
      "step": 11094,
      "task_loss": 0.21432554721832275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4180178940296173,
      "epoch": 9.38,
      "learning_rate": 2.0820288040075143e-05,
      "loss": 0.5664,
      "step": 11095,
      "task_loss": 1.5704598426818848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32594358921051025,
      "epoch": 9.38,
      "learning_rate": 2.0817157169693175e-05,
      "loss": 0.4196,
      "step": 11096,
      "task_loss": 0.30951428413391113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8523607850074768,
      "epoch": 9.38,
      "learning_rate": 2.081402629931121e-05,
      "loss": 0.6172,
      "step": 11097,
      "task_loss": 0.35583725571632385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7431790232658386,
      "epoch": 9.38,
      "learning_rate": 2.0810895428929245e-05,
      "loss": 0.6748,
      "step": 11098,
      "task_loss": 0.5901286005973816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4838095009326935,
      "epoch": 9.38,
      "learning_rate": 2.0807764558547277e-05,
      "loss": 0.5914,
      "step": 11099,
      "task_loss": 0.6219283938407898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3776724338531494,
      "epoch": 9.38,
      "learning_rate": 2.0804633688165312e-05,
      "loss": 0.5027,
      "step": 11100,
      "task_loss": 0.06119833514094353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5480364561080933,
      "epoch": 9.38,
      "learning_rate": 2.0801502817783344e-05,
      "loss": 0.6317,
      "step": 11101,
      "task_loss": 0.8233464360237122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5016152262687683,
      "epoch": 9.38,
      "learning_rate": 2.079837194740138e-05,
      "loss": 0.5048,
      "step": 11102,
      "task_loss": 0.6097140312194824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3437802195549011,
      "epoch": 9.39,
      "learning_rate": 2.079524107701941e-05,
      "loss": 0.5907,
      "step": 11103,
      "task_loss": 0.6641770601272583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7022411823272705,
      "epoch": 9.39,
      "learning_rate": 2.0792110206637446e-05,
      "loss": 0.7239,
      "step": 11104,
      "task_loss": 1.261233925819397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29116353392601013,
      "epoch": 9.39,
      "learning_rate": 2.0788979336255478e-05,
      "loss": 0.4761,
      "step": 11105,
      "task_loss": 0.6239451766014099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7933984994888306,
      "epoch": 9.39,
      "learning_rate": 2.0785848465873513e-05,
      "loss": 0.6029,
      "step": 11106,
      "task_loss": 1.4060593843460083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7882918119430542,
      "epoch": 9.39,
      "learning_rate": 2.0782717595491548e-05,
      "loss": 0.5567,
      "step": 11107,
      "task_loss": 1.1282553672790527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6464877128601074,
      "epoch": 9.39,
      "learning_rate": 2.0779586725109583e-05,
      "loss": 0.6224,
      "step": 11108,
      "task_loss": 0.4683595895767212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5174087285995483,
      "epoch": 9.39,
      "learning_rate": 2.0776455854727615e-05,
      "loss": 0.5928,
      "step": 11109,
      "task_loss": 0.652855634689331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6765828132629395,
      "epoch": 9.39,
      "learning_rate": 2.077332498434565e-05,
      "loss": 0.7043,
      "step": 11110,
      "task_loss": 0.6625597476959229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.641205906867981,
      "epoch": 9.39,
      "learning_rate": 2.0770194113963685e-05,
      "loss": 0.5151,
      "step": 11111,
      "task_loss": 1.2532798051834106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9924364686012268,
      "epoch": 9.39,
      "learning_rate": 2.0767063243581717e-05,
      "loss": 0.6296,
      "step": 11112,
      "task_loss": 1.076135516166687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3466476798057556,
      "epoch": 9.39,
      "learning_rate": 2.0763932373199752e-05,
      "loss": 0.4321,
      "step": 11113,
      "task_loss": 0.057596608996391296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.167325496673584,
      "epoch": 9.39,
      "learning_rate": 2.0760801502817784e-05,
      "loss": 0.6919,
      "step": 11114,
      "task_loss": 1.9425065517425537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38657069206237793,
      "epoch": 9.4,
      "learning_rate": 2.075767063243582e-05,
      "loss": 0.4662,
      "step": 11115,
      "task_loss": 0.3130972683429718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4128304719924927,
      "epoch": 9.4,
      "learning_rate": 2.075453976205385e-05,
      "loss": 0.5073,
      "step": 11116,
      "task_loss": 0.4561305046081543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45484593510627747,
      "epoch": 9.4,
      "learning_rate": 2.0751408891671886e-05,
      "loss": 0.4957,
      "step": 11117,
      "task_loss": 0.5043544173240662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49775877594947815,
      "epoch": 9.4,
      "learning_rate": 2.0748278021289918e-05,
      "loss": 0.4081,
      "step": 11118,
      "task_loss": 0.7010271549224854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5666275024414062,
      "epoch": 9.4,
      "learning_rate": 2.0745147150907953e-05,
      "loss": 0.5958,
      "step": 11119,
      "task_loss": 0.48447495698928833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2698635756969452,
      "epoch": 9.4,
      "learning_rate": 2.0742016280525985e-05,
      "loss": 0.5203,
      "step": 11120,
      "task_loss": 0.46916186809539795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3930051922798157,
      "epoch": 9.4,
      "learning_rate": 2.073888541014402e-05,
      "loss": 0.4115,
      "step": 11121,
      "task_loss": 0.15671266615390778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4613761603832245,
      "epoch": 9.4,
      "learning_rate": 2.0735754539762055e-05,
      "loss": 0.5368,
      "step": 11122,
      "task_loss": 1.1582274436950684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5390015244483948,
      "epoch": 9.4,
      "learning_rate": 2.0732623669380087e-05,
      "loss": 0.4798,
      "step": 11123,
      "task_loss": 0.33388006687164307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4931383430957794,
      "epoch": 9.4,
      "learning_rate": 2.0729492798998122e-05,
      "loss": 0.6285,
      "step": 11124,
      "task_loss": 0.2984165847301483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4035928547382355,
      "epoch": 9.4,
      "learning_rate": 2.0726361928616157e-05,
      "loss": 0.6148,
      "step": 11125,
      "task_loss": 0.5724236965179443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8856648802757263,
      "epoch": 9.4,
      "learning_rate": 2.0723231058234193e-05,
      "loss": 0.7353,
      "step": 11126,
      "task_loss": 1.3263977766036987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45751631259918213,
      "epoch": 9.41,
      "learning_rate": 2.0720100187852224e-05,
      "loss": 0.4895,
      "step": 11127,
      "task_loss": 0.534850537776947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7168595790863037,
      "epoch": 9.41,
      "learning_rate": 2.071696931747026e-05,
      "loss": 0.6856,
      "step": 11128,
      "task_loss": 0.9173924326896667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41320526599884033,
      "epoch": 9.41,
      "learning_rate": 2.071383844708829e-05,
      "loss": 0.5215,
      "step": 11129,
      "task_loss": 0.08458413183689117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4893134832382202,
      "epoch": 9.41,
      "learning_rate": 2.0710707576706327e-05,
      "loss": 0.5068,
      "step": 11130,
      "task_loss": 0.5590797066688538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5925166010856628,
      "epoch": 9.41,
      "learning_rate": 2.0707576706324358e-05,
      "loss": 0.6259,
      "step": 11131,
      "task_loss": 1.722000241279602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6151952743530273,
      "epoch": 9.41,
      "learning_rate": 2.0704445835942393e-05,
      "loss": 0.6433,
      "step": 11132,
      "task_loss": 1.0767526626586914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4521305561065674,
      "epoch": 9.41,
      "learning_rate": 2.0701314965560425e-05,
      "loss": 0.3665,
      "step": 11133,
      "task_loss": 0.3849320411682129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5420761108398438,
      "epoch": 9.41,
      "learning_rate": 2.069818409517846e-05,
      "loss": 0.5009,
      "step": 11134,
      "task_loss": 0.4980718791484833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39783182740211487,
      "epoch": 9.41,
      "learning_rate": 2.0695053224796496e-05,
      "loss": 0.498,
      "step": 11135,
      "task_loss": 0.8538029789924622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19452226161956787,
      "epoch": 9.41,
      "learning_rate": 2.0691922354414527e-05,
      "loss": 0.5402,
      "step": 11136,
      "task_loss": 0.9968996644020081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3843739628791809,
      "epoch": 9.41,
      "learning_rate": 2.0688791484032563e-05,
      "loss": 0.4961,
      "step": 11137,
      "task_loss": 0.4816380441188812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5740887522697449,
      "epoch": 9.41,
      "learning_rate": 2.0685660613650594e-05,
      "loss": 0.4517,
      "step": 11138,
      "task_loss": 0.779881477355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4797784984111786,
      "epoch": 9.42,
      "learning_rate": 2.068252974326863e-05,
      "loss": 0.5475,
      "step": 11139,
      "task_loss": 0.4979042708873749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6636371612548828,
      "epoch": 9.42,
      "learning_rate": 2.067939887288666e-05,
      "loss": 0.6405,
      "step": 11140,
      "task_loss": 1.0886609554290771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33401864767074585,
      "epoch": 9.42,
      "learning_rate": 2.0676268002504696e-05,
      "loss": 0.5531,
      "step": 11141,
      "task_loss": 0.5187253952026367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49431905150413513,
      "epoch": 9.42,
      "learning_rate": 2.067313713212273e-05,
      "loss": 0.6524,
      "step": 11142,
      "task_loss": 0.41980189085006714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40769973397254944,
      "epoch": 9.42,
      "learning_rate": 2.0670006261740767e-05,
      "loss": 0.6014,
      "step": 11143,
      "task_loss": 0.2820325791835785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28555408120155334,
      "epoch": 9.42,
      "learning_rate": 2.06668753913588e-05,
      "loss": 0.5948,
      "step": 11144,
      "task_loss": 0.6144871711730957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6515889167785645,
      "epoch": 9.42,
      "learning_rate": 2.0663744520976834e-05,
      "loss": 0.5624,
      "step": 11145,
      "task_loss": 0.6896404027938843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608714818954468,
      "epoch": 9.42,
      "learning_rate": 2.0660613650594866e-05,
      "loss": 0.7595,
      "step": 11146,
      "task_loss": 0.9495664834976196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7966141700744629,
      "epoch": 9.42,
      "learning_rate": 2.06574827802129e-05,
      "loss": 0.5496,
      "step": 11147,
      "task_loss": 0.6745889782905579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8736964464187622,
      "epoch": 9.42,
      "learning_rate": 2.0654351909830936e-05,
      "loss": 0.632,
      "step": 11148,
      "task_loss": 1.0100066661834717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48804205656051636,
      "epoch": 9.42,
      "learning_rate": 2.0651221039448968e-05,
      "loss": 0.547,
      "step": 11149,
      "task_loss": 0.8020251989364624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7795400619506836,
      "epoch": 9.42,
      "learning_rate": 2.0648090169067003e-05,
      "loss": 0.7048,
      "step": 11150,
      "task_loss": 1.5756973028182983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2908931374549866,
      "epoch": 9.43,
      "learning_rate": 2.0644959298685035e-05,
      "loss": 0.4951,
      "step": 11151,
      "task_loss": 0.741003692150116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46741753816604614,
      "epoch": 9.43,
      "learning_rate": 2.064182842830307e-05,
      "loss": 0.6507,
      "step": 11152,
      "task_loss": 0.8526996374130249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6701887249946594,
      "epoch": 9.43,
      "learning_rate": 2.06386975579211e-05,
      "loss": 0.646,
      "step": 11153,
      "task_loss": 0.35950085520744324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6020390391349792,
      "epoch": 9.43,
      "learning_rate": 2.0635566687539137e-05,
      "loss": 0.6058,
      "step": 11154,
      "task_loss": 0.6441352367401123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30649513006210327,
      "epoch": 9.43,
      "learning_rate": 2.063243581715717e-05,
      "loss": 0.3837,
      "step": 11155,
      "task_loss": 0.30779770016670227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5969529747962952,
      "epoch": 9.43,
      "learning_rate": 2.0629304946775204e-05,
      "loss": 0.5962,
      "step": 11156,
      "task_loss": 0.34430497884750366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5877125263214111,
      "epoch": 9.43,
      "learning_rate": 2.0626174076393235e-05,
      "loss": 0.6276,
      "step": 11157,
      "task_loss": 1.0099871158599854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8669157028198242,
      "epoch": 9.43,
      "learning_rate": 2.062304320601127e-05,
      "loss": 0.6058,
      "step": 11158,
      "task_loss": 0.815217137336731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5813777446746826,
      "epoch": 9.43,
      "learning_rate": 2.0619912335629306e-05,
      "loss": 0.6693,
      "step": 11159,
      "task_loss": 0.8008521199226379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4250643253326416,
      "epoch": 9.43,
      "learning_rate": 2.061678146524734e-05,
      "loss": 0.4787,
      "step": 11160,
      "task_loss": 0.22783493995666504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5116851329803467,
      "epoch": 9.43,
      "learning_rate": 2.0613650594865376e-05,
      "loss": 0.4807,
      "step": 11161,
      "task_loss": 0.6268780827522278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5664005279541016,
      "epoch": 9.44,
      "learning_rate": 2.0610519724483408e-05,
      "loss": 0.5501,
      "step": 11162,
      "task_loss": 0.6575700044631958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8029319643974304,
      "epoch": 9.44,
      "learning_rate": 2.0607388854101443e-05,
      "loss": 0.4959,
      "step": 11163,
      "task_loss": 1.3831977844238281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2780126929283142,
      "epoch": 9.44,
      "learning_rate": 2.0604257983719475e-05,
      "loss": 0.5843,
      "step": 11164,
      "task_loss": 0.7233217358589172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47447964549064636,
      "epoch": 9.44,
      "learning_rate": 2.060112711333751e-05,
      "loss": 0.5014,
      "step": 11165,
      "task_loss": 0.808947741985321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35247746109962463,
      "epoch": 9.44,
      "learning_rate": 2.0597996242955542e-05,
      "loss": 0.5165,
      "step": 11166,
      "task_loss": 0.856187105178833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4989609122276306,
      "epoch": 9.44,
      "learning_rate": 2.0594865372573577e-05,
      "loss": 0.3989,
      "step": 11167,
      "task_loss": 0.2812872529029846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6363271474838257,
      "epoch": 9.44,
      "learning_rate": 2.059173450219161e-05,
      "loss": 0.5384,
      "step": 11168,
      "task_loss": 0.40860167145729065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3949642777442932,
      "epoch": 9.44,
      "learning_rate": 2.0588603631809644e-05,
      "loss": 0.5155,
      "step": 11169,
      "task_loss": 1.3494837284088135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6772137880325317,
      "epoch": 9.44,
      "learning_rate": 2.0585472761427676e-05,
      "loss": 0.6666,
      "step": 11170,
      "task_loss": 0.5143532752990723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41721010208129883,
      "epoch": 9.44,
      "learning_rate": 2.058234189104571e-05,
      "loss": 0.461,
      "step": 11171,
      "task_loss": 0.9379950165748596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28648096323013306,
      "epoch": 9.44,
      "learning_rate": 2.0579211020663746e-05,
      "loss": 0.4923,
      "step": 11172,
      "task_loss": 0.4109518527984619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.087327003479004,
      "epoch": 9.44,
      "learning_rate": 2.0576080150281778e-05,
      "loss": 0.6823,
      "step": 11173,
      "task_loss": 1.3821860551834106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3695640563964844,
      "epoch": 9.45,
      "learning_rate": 2.0572949279899813e-05,
      "loss": 0.6587,
      "step": 11174,
      "task_loss": 1.2057639360427856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36415567994117737,
      "epoch": 9.45,
      "learning_rate": 2.0569818409517845e-05,
      "loss": 0.3601,
      "step": 11175,
      "task_loss": 0.840754508972168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5446778535842896,
      "epoch": 9.45,
      "learning_rate": 2.056668753913588e-05,
      "loss": 0.7173,
      "step": 11176,
      "task_loss": 1.0040769577026367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48376786708831787,
      "epoch": 9.45,
      "learning_rate": 2.0563556668753915e-05,
      "loss": 0.3964,
      "step": 11177,
      "task_loss": 0.14819926023483276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3539237380027771,
      "epoch": 9.45,
      "learning_rate": 2.056042579837195e-05,
      "loss": 0.5168,
      "step": 11178,
      "task_loss": 0.5203588604927063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6554898619651794,
      "epoch": 9.45,
      "learning_rate": 2.0557294927989982e-05,
      "loss": 0.6501,
      "step": 11179,
      "task_loss": 0.4861893355846405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7293578386306763,
      "epoch": 9.45,
      "learning_rate": 2.0554164057608017e-05,
      "loss": 0.7038,
      "step": 11180,
      "task_loss": 0.2777087092399597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30142372846603394,
      "epoch": 9.45,
      "learning_rate": 2.055103318722605e-05,
      "loss": 0.4636,
      "step": 11181,
      "task_loss": 0.8148493766784668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5827466249465942,
      "epoch": 9.45,
      "learning_rate": 2.0547902316844084e-05,
      "loss": 0.6779,
      "step": 11182,
      "task_loss": 1.4460619688034058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34403252601623535,
      "epoch": 9.45,
      "learning_rate": 2.054477144646212e-05,
      "loss": 0.4579,
      "step": 11183,
      "task_loss": 0.43237173557281494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4394824206829071,
      "epoch": 9.45,
      "learning_rate": 2.054164057608015e-05,
      "loss": 0.6069,
      "step": 11184,
      "task_loss": 0.5421826839447021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44951555132865906,
      "epoch": 9.45,
      "learning_rate": 2.0538509705698186e-05,
      "loss": 0.5955,
      "step": 11185,
      "task_loss": 0.6515569090843201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2653992772102356,
      "epoch": 9.46,
      "learning_rate": 2.0535378835316218e-05,
      "loss": 0.4407,
      "step": 11186,
      "task_loss": 0.19472892582416534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5540260672569275,
      "epoch": 9.46,
      "learning_rate": 2.0532247964934253e-05,
      "loss": 0.5034,
      "step": 11187,
      "task_loss": 0.7031592726707458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4597819149494171,
      "epoch": 9.46,
      "learning_rate": 2.0529117094552285e-05,
      "loss": 0.5303,
      "step": 11188,
      "task_loss": 0.7496867179870605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061589479446411,
      "epoch": 9.46,
      "learning_rate": 2.052598622417032e-05,
      "loss": 0.6001,
      "step": 11189,
      "task_loss": 1.4593271017074585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4713425636291504,
      "epoch": 9.46,
      "learning_rate": 2.0522855353788352e-05,
      "loss": 0.3868,
      "step": 11190,
      "task_loss": 0.8462479710578918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4412979781627655,
      "epoch": 9.46,
      "learning_rate": 2.0519724483406387e-05,
      "loss": 0.4891,
      "step": 11191,
      "task_loss": 0.3657672107219696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45641687512397766,
      "epoch": 9.46,
      "learning_rate": 2.0516593613024422e-05,
      "loss": 0.55,
      "step": 11192,
      "task_loss": 0.6818670034408569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47182220220565796,
      "epoch": 9.46,
      "learning_rate": 2.0513462742642457e-05,
      "loss": 0.5442,
      "step": 11193,
      "task_loss": 0.6109762787818909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4033227562904358,
      "epoch": 9.46,
      "learning_rate": 2.051033187226049e-05,
      "loss": 0.4849,
      "step": 11194,
      "task_loss": 1.9705026149749756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5045433640480042,
      "epoch": 9.46,
      "learning_rate": 2.0507201001878524e-05,
      "loss": 0.4905,
      "step": 11195,
      "task_loss": 1.2357059717178345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43137305974960327,
      "epoch": 9.46,
      "learning_rate": 2.050407013149656e-05,
      "loss": 0.506,
      "step": 11196,
      "task_loss": 0.5525730848312378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.425146222114563,
      "epoch": 9.46,
      "learning_rate": 2.050093926111459e-05,
      "loss": 0.479,
      "step": 11197,
      "task_loss": 0.8354417085647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4417227506637573,
      "epoch": 9.47,
      "learning_rate": 2.0497808390732627e-05,
      "loss": 0.5521,
      "step": 11198,
      "task_loss": 0.575149416923523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6016185283660889,
      "epoch": 9.47,
      "learning_rate": 2.049467752035066e-05,
      "loss": 0.5683,
      "step": 11199,
      "task_loss": 0.8019603490829468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37276986241340637,
      "epoch": 9.47,
      "learning_rate": 2.0491546649968694e-05,
      "loss": 0.5705,
      "step": 11200,
      "task_loss": 0.6273150444030762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2565717697143555,
      "epoch": 9.47,
      "learning_rate": 2.0488415779586725e-05,
      "loss": 0.6476,
      "step": 11201,
      "task_loss": 0.8085762858390808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4125361740589142,
      "epoch": 9.47,
      "learning_rate": 2.048528490920476e-05,
      "loss": 0.5315,
      "step": 11202,
      "task_loss": 0.03842768445611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.522205114364624,
      "epoch": 9.47,
      "learning_rate": 2.0482154038822792e-05,
      "loss": 0.5319,
      "step": 11203,
      "task_loss": 1.3147358894348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0645502805709839,
      "epoch": 9.47,
      "learning_rate": 2.0479023168440827e-05,
      "loss": 0.6899,
      "step": 11204,
      "task_loss": 0.9629391431808472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23412391543388367,
      "epoch": 9.47,
      "learning_rate": 2.047589229805886e-05,
      "loss": 0.5156,
      "step": 11205,
      "task_loss": 0.041542328894138336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47442683577537537,
      "epoch": 9.47,
      "learning_rate": 2.0472761427676894e-05,
      "loss": 0.5059,
      "step": 11206,
      "task_loss": 0.17096945643424988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48154622316360474,
      "epoch": 9.47,
      "learning_rate": 2.0469630557294926e-05,
      "loss": 0.4433,
      "step": 11207,
      "task_loss": 0.2676759958267212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5564737319946289,
      "epoch": 9.47,
      "learning_rate": 2.046649968691296e-05,
      "loss": 0.6553,
      "step": 11208,
      "task_loss": 1.0841857194900513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4644075930118561,
      "epoch": 9.47,
      "learning_rate": 2.0463368816530996e-05,
      "loss": 0.5635,
      "step": 11209,
      "task_loss": 1.195984959602356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9521697163581848,
      "epoch": 9.48,
      "learning_rate": 2.046023794614903e-05,
      "loss": 0.6213,
      "step": 11210,
      "task_loss": 1.0427703857421875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5253634452819824,
      "epoch": 9.48,
      "learning_rate": 2.0457107075767067e-05,
      "loss": 0.7321,
      "step": 11211,
      "task_loss": 0.3801705837249756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7676039338111877,
      "epoch": 9.48,
      "learning_rate": 2.04539762053851e-05,
      "loss": 0.6139,
      "step": 11212,
      "task_loss": 0.46647512912750244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7973577380180359,
      "epoch": 9.48,
      "learning_rate": 2.0450845335003134e-05,
      "loss": 0.5921,
      "step": 11213,
      "task_loss": 0.5874646902084351
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39039987325668335,
      "epoch": 9.48,
      "learning_rate": 2.0447714464621166e-05,
      "loss": 0.4306,
      "step": 11214,
      "task_loss": 0.6466406583786011
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35016417503356934,
      "epoch": 9.48,
      "learning_rate": 2.04445835942392e-05,
      "loss": 0.4811,
      "step": 11215,
      "task_loss": 0.2757631540298462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7128924131393433,
      "epoch": 9.48,
      "learning_rate": 2.0441452723857232e-05,
      "loss": 0.5388,
      "step": 11216,
      "task_loss": 1.1916460990905762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4340100884437561,
      "epoch": 9.48,
      "learning_rate": 2.0438321853475268e-05,
      "loss": 0.6452,
      "step": 11217,
      "task_loss": 0.5195159912109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30924955010414124,
      "epoch": 9.48,
      "learning_rate": 2.04351909830933e-05,
      "loss": 0.4619,
      "step": 11218,
      "task_loss": 0.22463753819465637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48033684492111206,
      "epoch": 9.48,
      "learning_rate": 2.0432060112711335e-05,
      "loss": 0.5002,
      "step": 11219,
      "task_loss": 0.8660057783126831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4784981310367584,
      "epoch": 9.48,
      "learning_rate": 2.042892924232937e-05,
      "loss": 0.4923,
      "step": 11220,
      "task_loss": 0.43277043104171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5962539315223694,
      "epoch": 9.48,
      "learning_rate": 2.04257983719474e-05,
      "loss": 0.6437,
      "step": 11221,
      "task_loss": 1.3364439010620117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42677050828933716,
      "epoch": 9.49,
      "learning_rate": 2.0422667501565437e-05,
      "loss": 0.462,
      "step": 11222,
      "task_loss": 0.44228678941726685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5165603160858154,
      "epoch": 9.49,
      "learning_rate": 2.041953663118347e-05,
      "loss": 0.5183,
      "step": 11223,
      "task_loss": 0.8416460752487183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8686898350715637,
      "epoch": 9.49,
      "learning_rate": 2.0416405760801504e-05,
      "loss": 0.6762,
      "step": 11224,
      "task_loss": 1.426055908203125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5603064298629761,
      "epoch": 9.49,
      "learning_rate": 2.0413274890419535e-05,
      "loss": 0.6242,
      "step": 11225,
      "task_loss": 0.9819295406341553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8008278012275696,
      "epoch": 9.49,
      "learning_rate": 2.041014402003757e-05,
      "loss": 0.5675,
      "step": 11226,
      "task_loss": 0.7535830736160278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6229571104049683,
      "epoch": 9.49,
      "learning_rate": 2.0407013149655606e-05,
      "loss": 0.5382,
      "step": 11227,
      "task_loss": 1.226574182510376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5085885524749756,
      "epoch": 9.49,
      "learning_rate": 2.040388227927364e-05,
      "loss": 0.5595,
      "step": 11228,
      "task_loss": 0.08829927444458008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.909530758857727,
      "epoch": 9.49,
      "learning_rate": 2.0400751408891673e-05,
      "loss": 0.6246,
      "step": 11229,
      "task_loss": 0.6141870617866516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46837905049324036,
      "epoch": 9.49,
      "learning_rate": 2.0397620538509708e-05,
      "loss": 0.5745,
      "step": 11230,
      "task_loss": 0.4805211126804352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4878770709037781,
      "epoch": 9.49,
      "learning_rate": 2.039448966812774e-05,
      "loss": 0.5486,
      "step": 11231,
      "task_loss": 0.435899555683136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.591152548789978,
      "epoch": 9.49,
      "learning_rate": 2.0391358797745775e-05,
      "loss": 0.4804,
      "step": 11232,
      "task_loss": 0.9772195219993591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8437149524688721,
      "epoch": 9.5,
      "learning_rate": 2.038822792736381e-05,
      "loss": 0.5483,
      "step": 11233,
      "task_loss": 1.0704753398895264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3982442021369934,
      "epoch": 9.5,
      "learning_rate": 2.0385097056981842e-05,
      "loss": 0.5742,
      "step": 11234,
      "task_loss": 0.342947393655777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4527246356010437,
      "epoch": 9.5,
      "learning_rate": 2.0381966186599877e-05,
      "loss": 0.3943,
      "step": 11235,
      "task_loss": 0.7738919258117676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5183579921722412,
      "epoch": 9.5,
      "learning_rate": 2.037883531621791e-05,
      "loss": 0.4989,
      "step": 11236,
      "task_loss": 0.6759052872657776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47781139612197876,
      "epoch": 9.5,
      "learning_rate": 2.0375704445835944e-05,
      "loss": 0.5244,
      "step": 11237,
      "task_loss": 0.3410857319831848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395419597625732,
      "epoch": 9.5,
      "learning_rate": 2.0372573575453976e-05,
      "loss": 0.4331,
      "step": 11238,
      "task_loss": 1.0231642723083496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6995275020599365,
      "epoch": 9.5,
      "learning_rate": 2.036944270507201e-05,
      "loss": 0.4635,
      "step": 11239,
      "task_loss": 1.849626898765564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7694113254547119,
      "epoch": 9.5,
      "learning_rate": 2.0366311834690043e-05,
      "loss": 0.7127,
      "step": 11240,
      "task_loss": 0.4858366549015045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5516558289527893,
      "epoch": 9.5,
      "learning_rate": 2.0363180964308078e-05,
      "loss": 0.5298,
      "step": 11241,
      "task_loss": 0.8462251424789429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4129839837551117,
      "epoch": 9.5,
      "learning_rate": 2.036005009392611e-05,
      "loss": 0.5402,
      "step": 11242,
      "task_loss": 0.9844934940338135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5057719349861145,
      "epoch": 9.5,
      "learning_rate": 2.0356919223544145e-05,
      "loss": 0.5255,
      "step": 11243,
      "task_loss": 1.0806610584259033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5012354254722595,
      "epoch": 9.5,
      "learning_rate": 2.035378835316218e-05,
      "loss": 0.5816,
      "step": 11244,
      "task_loss": 0.4043217599391937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.485105961561203,
      "epoch": 9.51,
      "learning_rate": 2.0350657482780215e-05,
      "loss": 0.5614,
      "step": 11245,
      "task_loss": 0.8010050654411316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26766180992126465,
      "epoch": 9.51,
      "learning_rate": 2.034752661239825e-05,
      "loss": 0.426,
      "step": 11246,
      "task_loss": 0.21514928340911865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4594436585903168,
      "epoch": 9.51,
      "learning_rate": 2.0344395742016282e-05,
      "loss": 0.5699,
      "step": 11247,
      "task_loss": 0.6386981010437012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.669175922870636,
      "epoch": 9.51,
      "learning_rate": 2.0341264871634317e-05,
      "loss": 0.5406,
      "step": 11248,
      "task_loss": 0.6877296566963196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6813497543334961,
      "epoch": 9.51,
      "learning_rate": 2.033813400125235e-05,
      "loss": 0.5729,
      "step": 11249,
      "task_loss": 0.3061593174934387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.643942654132843,
      "epoch": 9.51,
      "learning_rate": 2.0335003130870384e-05,
      "loss": 0.5507,
      "step": 11250,
      "task_loss": 0.8842963576316833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5125287175178528,
      "epoch": 9.51,
      "learning_rate": 2.0331872260488416e-05,
      "loss": 0.7541,
      "step": 11251,
      "task_loss": 0.431420236825943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8309155106544495,
      "epoch": 9.51,
      "learning_rate": 2.032874139010645e-05,
      "loss": 0.516,
      "step": 11252,
      "task_loss": 0.5819403529167175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5720171332359314,
      "epoch": 9.51,
      "learning_rate": 2.0325610519724483e-05,
      "loss": 0.5099,
      "step": 11253,
      "task_loss": 1.0121551752090454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9654394388198853,
      "epoch": 9.51,
      "learning_rate": 2.0322479649342518e-05,
      "loss": 0.8474,
      "step": 11254,
      "task_loss": 1.7843842506408691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5626282095909119,
      "epoch": 9.51,
      "learning_rate": 2.031934877896055e-05,
      "loss": 0.5058,
      "step": 11255,
      "task_loss": 0.3338312804698944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4526161253452301,
      "epoch": 9.51,
      "learning_rate": 2.0316217908578585e-05,
      "loss": 0.5002,
      "step": 11256,
      "task_loss": 0.589309573173523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6108368635177612,
      "epoch": 9.52,
      "learning_rate": 2.031308703819662e-05,
      "loss": 0.6554,
      "step": 11257,
      "task_loss": 0.5494696497917175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3843992352485657,
      "epoch": 9.52,
      "learning_rate": 2.0309956167814652e-05,
      "loss": 0.5586,
      "step": 11258,
      "task_loss": 0.33973264694213867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833247721195221,
      "epoch": 9.52,
      "learning_rate": 2.0306825297432687e-05,
      "loss": 0.4404,
      "step": 11259,
      "task_loss": 0.3187718689441681
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33413970470428467,
      "epoch": 9.52,
      "learning_rate": 2.0303694427050722e-05,
      "loss": 0.5028,
      "step": 11260,
      "task_loss": 0.45236736536026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43233710527420044,
      "epoch": 9.52,
      "learning_rate": 2.0300563556668754e-05,
      "loss": 0.5918,
      "step": 11261,
      "task_loss": 0.4479560852050781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.570199728012085,
      "epoch": 9.52,
      "learning_rate": 2.029743268628679e-05,
      "loss": 0.5973,
      "step": 11262,
      "task_loss": 0.44882750511169434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1317425966262817,
      "epoch": 9.52,
      "learning_rate": 2.0294301815904824e-05,
      "loss": 0.6899,
      "step": 11263,
      "task_loss": 0.5014103055000305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5074343085289001,
      "epoch": 9.52,
      "learning_rate": 2.0291170945522856e-05,
      "loss": 0.4688,
      "step": 11264,
      "task_loss": 0.7278651595115662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3263566493988037,
      "epoch": 9.52,
      "learning_rate": 2.028804007514089e-05,
      "loss": 0.4407,
      "step": 11265,
      "task_loss": 0.23368915915489197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5953338742256165,
      "epoch": 9.52,
      "learning_rate": 2.0284909204758923e-05,
      "loss": 0.565,
      "step": 11266,
      "task_loss": 0.62763911485672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9048928022384644,
      "epoch": 9.52,
      "learning_rate": 2.028177833437696e-05,
      "loss": 0.5995,
      "step": 11267,
      "task_loss": 1.269993782043457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7121292352676392,
      "epoch": 9.52,
      "learning_rate": 2.027864746399499e-05,
      "loss": 0.5877,
      "step": 11268,
      "task_loss": 0.5164435505867004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7803394198417664,
      "epoch": 9.53,
      "learning_rate": 2.0275516593613025e-05,
      "loss": 0.5333,
      "step": 11269,
      "task_loss": 0.8488005995750427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3182833790779114,
      "epoch": 9.53,
      "learning_rate": 2.027238572323106e-05,
      "loss": 0.5553,
      "step": 11270,
      "task_loss": 0.43040159344673157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3431887626647949,
      "epoch": 9.53,
      "learning_rate": 2.0269254852849092e-05,
      "loss": 0.5505,
      "step": 11271,
      "task_loss": 1.0213106870651245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2924032509326935,
      "epoch": 9.53,
      "learning_rate": 2.0266123982467127e-05,
      "loss": 0.4471,
      "step": 11272,
      "task_loss": 0.11700939387083054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5719513893127441,
      "epoch": 9.53,
      "learning_rate": 2.026299311208516e-05,
      "loss": 0.5696,
      "step": 11273,
      "task_loss": 0.919419527053833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8549978733062744,
      "epoch": 9.53,
      "learning_rate": 2.0259862241703194e-05,
      "loss": 0.4942,
      "step": 11274,
      "task_loss": 0.6792372465133667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40721091628074646,
      "epoch": 9.53,
      "learning_rate": 2.0256731371321226e-05,
      "loss": 0.6359,
      "step": 11275,
      "task_loss": 0.41607290506362915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.509833037853241,
      "epoch": 9.53,
      "learning_rate": 2.025360050093926e-05,
      "loss": 0.5002,
      "step": 11276,
      "task_loss": 0.29974329471588135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47756558656692505,
      "epoch": 9.53,
      "learning_rate": 2.0250469630557297e-05,
      "loss": 0.597,
      "step": 11277,
      "task_loss": 0.13461117446422577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5137880444526672,
      "epoch": 9.53,
      "learning_rate": 2.024733876017533e-05,
      "loss": 0.3495,
      "step": 11278,
      "task_loss": 0.7981230020523071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3073747158050537,
      "epoch": 9.53,
      "learning_rate": 2.0244207889793363e-05,
      "loss": 0.4068,
      "step": 11279,
      "task_loss": 1.2586581707000732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3990315794944763,
      "epoch": 9.53,
      "learning_rate": 2.02410770194114e-05,
      "loss": 0.3591,
      "step": 11280,
      "task_loss": 0.4683440923690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6902435421943665,
      "epoch": 9.54,
      "learning_rate": 2.0237946149029434e-05,
      "loss": 0.4756,
      "step": 11281,
      "task_loss": 2.1279184818267822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766195058822632,
      "epoch": 9.54,
      "learning_rate": 2.0234815278647466e-05,
      "loss": 0.6811,
      "step": 11282,
      "task_loss": 0.36171600222587585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6444180607795715,
      "epoch": 9.54,
      "learning_rate": 2.02316844082655e-05,
      "loss": 0.5424,
      "step": 11283,
      "task_loss": 1.2326406240463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5545305013656616,
      "epoch": 9.54,
      "learning_rate": 2.0228553537883533e-05,
      "loss": 0.5175,
      "step": 11284,
      "task_loss": 0.4413456916809082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4815494418144226,
      "epoch": 9.54,
      "learning_rate": 2.0225422667501568e-05,
      "loss": 0.5348,
      "step": 11285,
      "task_loss": 1.0468723773956299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39721786975860596,
      "epoch": 9.54,
      "learning_rate": 2.02222917971196e-05,
      "loss": 0.4798,
      "step": 11286,
      "task_loss": 0.7300109267234802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3317987322807312,
      "epoch": 9.54,
      "learning_rate": 2.0219160926737635e-05,
      "loss": 0.4862,
      "step": 11287,
      "task_loss": 0.3727075457572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7487756609916687,
      "epoch": 9.54,
      "learning_rate": 2.0216030056355666e-05,
      "loss": 0.5735,
      "step": 11288,
      "task_loss": 1.5934579372406006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4770052433013916,
      "epoch": 9.54,
      "learning_rate": 2.02128991859737e-05,
      "loss": 0.5302,
      "step": 11289,
      "task_loss": 0.8193758726119995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8135160207748413,
      "epoch": 9.54,
      "learning_rate": 2.0209768315591733e-05,
      "loss": 0.6125,
      "step": 11290,
      "task_loss": 1.385048508644104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4124804735183716,
      "epoch": 9.54,
      "learning_rate": 2.020663744520977e-05,
      "loss": 0.5294,
      "step": 11291,
      "task_loss": 0.5508372783660889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45812928676605225,
      "epoch": 9.54,
      "learning_rate": 2.02035065748278e-05,
      "loss": 0.5024,
      "step": 11292,
      "task_loss": 1.4612799882888794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7161959409713745,
      "epoch": 9.55,
      "learning_rate": 2.0200375704445836e-05,
      "loss": 0.7186,
      "step": 11293,
      "task_loss": 0.593767523765564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5923593640327454,
      "epoch": 9.55,
      "learning_rate": 2.019724483406387e-05,
      "loss": 0.5744,
      "step": 11294,
      "task_loss": 0.5305915474891663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4596346616744995,
      "epoch": 9.55,
      "learning_rate": 2.0194113963681906e-05,
      "loss": 0.5155,
      "step": 11295,
      "task_loss": 0.030906230211257935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9170129299163818,
      "epoch": 9.55,
      "learning_rate": 2.019098309329994e-05,
      "loss": 0.6267,
      "step": 11296,
      "task_loss": 0.7111082673072815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27494263648986816,
      "epoch": 9.55,
      "learning_rate": 2.0187852222917973e-05,
      "loss": 0.4485,
      "step": 11297,
      "task_loss": 0.7393298149108887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5825574398040771,
      "epoch": 9.55,
      "learning_rate": 2.0184721352536008e-05,
      "loss": 0.6271,
      "step": 11298,
      "task_loss": 0.948905348777771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.550849437713623,
      "epoch": 9.55,
      "learning_rate": 2.018159048215404e-05,
      "loss": 0.5161,
      "step": 11299,
      "task_loss": 1.1391692161560059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4766658544540405,
      "epoch": 9.55,
      "learning_rate": 2.0178459611772075e-05,
      "loss": 0.5951,
      "step": 11300,
      "task_loss": 0.5447161197662354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5767871141433716,
      "epoch": 9.55,
      "learning_rate": 2.0175328741390107e-05,
      "loss": 0.704,
      "step": 11301,
      "task_loss": 1.2369147539138794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29297247529029846,
      "epoch": 9.55,
      "learning_rate": 2.0172197871008142e-05,
      "loss": 0.5667,
      "step": 11302,
      "task_loss": 0.4745354950428009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.668285608291626,
      "epoch": 9.55,
      "learning_rate": 2.0169067000626174e-05,
      "loss": 0.4708,
      "step": 11303,
      "task_loss": 0.5044649839401245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.611952543258667,
      "epoch": 9.56,
      "learning_rate": 2.016593613024421e-05,
      "loss": 0.6633,
      "step": 11304,
      "task_loss": 0.3492443859577179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4914405345916748,
      "epoch": 9.56,
      "learning_rate": 2.016280525986224e-05,
      "loss": 0.4708,
      "step": 11305,
      "task_loss": 0.5976226329803467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4179247319698334,
      "epoch": 9.56,
      "learning_rate": 2.0159674389480276e-05,
      "loss": 0.6021,
      "step": 11306,
      "task_loss": 0.6358379125595093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3733099699020386,
      "epoch": 9.56,
      "learning_rate": 2.015654351909831e-05,
      "loss": 0.4851,
      "step": 11307,
      "task_loss": 0.44281184673309326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3228073716163635,
      "epoch": 9.56,
      "learning_rate": 2.0153412648716343e-05,
      "loss": 0.5902,
      "step": 11308,
      "task_loss": 0.6290004849433899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8264307975769043,
      "epoch": 9.56,
      "learning_rate": 2.0150281778334378e-05,
      "loss": 0.647,
      "step": 11309,
      "task_loss": 0.6387498378753662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2290351688861847,
      "epoch": 9.56,
      "learning_rate": 2.014715090795241e-05,
      "loss": 0.4258,
      "step": 11310,
      "task_loss": 0.2221429944038391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26905184984207153,
      "epoch": 9.56,
      "learning_rate": 2.0144020037570445e-05,
      "loss": 0.5779,
      "step": 11311,
      "task_loss": 0.562477707862854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37551283836364746,
      "epoch": 9.56,
      "learning_rate": 2.014088916718848e-05,
      "loss": 0.4678,
      "step": 11312,
      "task_loss": 1.0091471672058105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45429477095603943,
      "epoch": 9.56,
      "learning_rate": 2.0137758296806515e-05,
      "loss": 0.5257,
      "step": 11313,
      "task_loss": 0.5815458297729492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.521268367767334,
      "epoch": 9.56,
      "learning_rate": 2.0134627426424547e-05,
      "loss": 0.5847,
      "step": 11314,
      "task_loss": 0.88334059715271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3778032660484314,
      "epoch": 9.56,
      "learning_rate": 2.0131496556042582e-05,
      "loss": 0.4916,
      "step": 11315,
      "task_loss": 0.8135557174682617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6381540298461914,
      "epoch": 9.57,
      "learning_rate": 2.0128365685660614e-05,
      "loss": 0.5555,
      "step": 11316,
      "task_loss": 0.7313001751899719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8293584585189819,
      "epoch": 9.57,
      "learning_rate": 2.012523481527865e-05,
      "loss": 0.5821,
      "step": 11317,
      "task_loss": 0.6817441582679749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36975759267807007,
      "epoch": 9.57,
      "learning_rate": 2.0122103944896684e-05,
      "loss": 0.4044,
      "step": 11318,
      "task_loss": 0.776977002620697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7780752182006836,
      "epoch": 9.57,
      "learning_rate": 2.0118973074514716e-05,
      "loss": 0.5407,
      "step": 11319,
      "task_loss": 0.5055119395256042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4348961412906647,
      "epoch": 9.57,
      "learning_rate": 2.011584220413275e-05,
      "loss": 0.5218,
      "step": 11320,
      "task_loss": 0.6405312418937683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29853588342666626,
      "epoch": 9.57,
      "learning_rate": 2.0112711333750783e-05,
      "loss": 0.4847,
      "step": 11321,
      "task_loss": 0.25549012422561646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6479320526123047,
      "epoch": 9.57,
      "learning_rate": 2.0109580463368818e-05,
      "loss": 0.5004,
      "step": 11322,
      "task_loss": 0.2166755497455597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6850980520248413,
      "epoch": 9.57,
      "learning_rate": 2.010644959298685e-05,
      "loss": 0.4998,
      "step": 11323,
      "task_loss": 0.5309674739837646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4504559636116028,
      "epoch": 9.57,
      "learning_rate": 2.0103318722604885e-05,
      "loss": 0.698,
      "step": 11324,
      "task_loss": 0.7981002330780029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5005103349685669,
      "epoch": 9.57,
      "learning_rate": 2.0100187852222917e-05,
      "loss": 0.4912,
      "step": 11325,
      "task_loss": 0.5281919836997986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6549570560455322,
      "epoch": 9.57,
      "learning_rate": 2.0097056981840952e-05,
      "loss": 0.5737,
      "step": 11326,
      "task_loss": 1.2755305767059326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4173576533794403,
      "epoch": 9.57,
      "learning_rate": 2.0093926111458984e-05,
      "loss": 0.5211,
      "step": 11327,
      "task_loss": 0.059527430683374405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4661264717578888,
      "epoch": 9.58,
      "learning_rate": 2.009079524107702e-05,
      "loss": 0.5053,
      "step": 11328,
      "task_loss": 0.6722946763038635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5963429808616638,
      "epoch": 9.58,
      "learning_rate": 2.0087664370695054e-05,
      "loss": 0.509,
      "step": 11329,
      "task_loss": 0.2937360405921936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46133750677108765,
      "epoch": 9.58,
      "learning_rate": 2.008453350031309e-05,
      "loss": 0.4829,
      "step": 11330,
      "task_loss": 0.6214385032653809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6129201054573059,
      "epoch": 9.58,
      "learning_rate": 2.0081402629931125e-05,
      "loss": 0.4936,
      "step": 11331,
      "task_loss": 0.690991222858429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46535080671310425,
      "epoch": 9.58,
      "learning_rate": 2.0078271759549156e-05,
      "loss": 0.503,
      "step": 11332,
      "task_loss": 0.3150765895843506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5911092758178711,
      "epoch": 9.58,
      "learning_rate": 2.007514088916719e-05,
      "loss": 0.5326,
      "step": 11333,
      "task_loss": 0.9012985229492188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.299363911151886,
      "epoch": 9.58,
      "learning_rate": 2.0072010018785223e-05,
      "loss": 0.3726,
      "step": 11334,
      "task_loss": 0.10905496031045914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6393782496452332,
      "epoch": 9.58,
      "learning_rate": 2.006887914840326e-05,
      "loss": 0.4518,
      "step": 11335,
      "task_loss": 0.490482896566391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45151785016059875,
      "epoch": 9.58,
      "learning_rate": 2.006574827802129e-05,
      "loss": 0.5218,
      "step": 11336,
      "task_loss": 0.45781105756759644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3321381211280823,
      "epoch": 9.58,
      "learning_rate": 2.0062617407639325e-05,
      "loss": 0.4988,
      "step": 11337,
      "task_loss": 0.034162819385528564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5909457206726074,
      "epoch": 9.58,
      "learning_rate": 2.0059486537257357e-05,
      "loss": 0.7291,
      "step": 11338,
      "task_loss": 1.3133918046951294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30439698696136475,
      "epoch": 9.58,
      "learning_rate": 2.0056355666875392e-05,
      "loss": 0.4496,
      "step": 11339,
      "task_loss": 0.614002525806427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8164217472076416,
      "epoch": 9.59,
      "learning_rate": 2.0053224796493424e-05,
      "loss": 0.602,
      "step": 11340,
      "task_loss": 0.20148888230323792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4913516938686371,
      "epoch": 9.59,
      "learning_rate": 2.005009392611146e-05,
      "loss": 0.6404,
      "step": 11341,
      "task_loss": 1.1758928298950195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5877797603607178,
      "epoch": 9.59,
      "learning_rate": 2.004696305572949e-05,
      "loss": 0.6737,
      "step": 11342,
      "task_loss": 1.0060975551605225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29597675800323486,
      "epoch": 9.59,
      "learning_rate": 2.0043832185347526e-05,
      "loss": 0.4731,
      "step": 11343,
      "task_loss": 0.46094024181365967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5970086455345154,
      "epoch": 9.59,
      "learning_rate": 2.004070131496556e-05,
      "loss": 0.5276,
      "step": 11344,
      "task_loss": 1.1381738185882568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5001522302627563,
      "epoch": 9.59,
      "learning_rate": 2.0037570444583597e-05,
      "loss": 0.6534,
      "step": 11345,
      "task_loss": 0.6212742328643799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8302507996559143,
      "epoch": 9.59,
      "learning_rate": 2.003443957420163e-05,
      "loss": 0.7201,
      "step": 11346,
      "task_loss": 1.1527330875396729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37067896127700806,
      "epoch": 9.59,
      "learning_rate": 2.0031308703819663e-05,
      "loss": 0.4902,
      "step": 11347,
      "task_loss": 0.32233926653862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5700045824050903,
      "epoch": 9.59,
      "learning_rate": 2.00281778334377e-05,
      "loss": 0.431,
      "step": 11348,
      "task_loss": 1.066907525062561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6190651059150696,
      "epoch": 9.59,
      "learning_rate": 2.002504696305573e-05,
      "loss": 0.6122,
      "step": 11349,
      "task_loss": 0.6019753813743591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6600720882415771,
      "epoch": 9.59,
      "learning_rate": 2.0021916092673766e-05,
      "loss": 0.4786,
      "step": 11350,
      "task_loss": 1.2669169902801514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3609832227230072,
      "epoch": 9.59,
      "learning_rate": 2.0018785222291797e-05,
      "loss": 0.5739,
      "step": 11351,
      "task_loss": 0.3393155634403229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6657270789146423,
      "epoch": 9.6,
      "learning_rate": 2.0015654351909833e-05,
      "loss": 0.5574,
      "step": 11352,
      "task_loss": 0.428869366645813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5954182147979736,
      "epoch": 9.6,
      "learning_rate": 2.0012523481527864e-05,
      "loss": 0.6477,
      "step": 11353,
      "task_loss": 0.8581010103225708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5802528858184814,
      "epoch": 9.6,
      "learning_rate": 2.00093926111459e-05,
      "loss": 0.532,
      "step": 11354,
      "task_loss": 0.3015058934688568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6894526481628418,
      "epoch": 9.6,
      "learning_rate": 2.0006261740763935e-05,
      "loss": 0.6186,
      "step": 11355,
      "task_loss": 1.2999649047851562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5244376063346863,
      "epoch": 9.6,
      "learning_rate": 2.0003130870381966e-05,
      "loss": 0.5651,
      "step": 11356,
      "task_loss": 1.0293217897415161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4024331867694855,
      "epoch": 9.6,
      "learning_rate": 2e-05,
      "loss": 0.4329,
      "step": 11357,
      "task_loss": 0.9846789240837097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6993475556373596,
      "epoch": 9.6,
      "learning_rate": 1.9996869129618033e-05,
      "loss": 0.5814,
      "step": 11358,
      "task_loss": 0.7011184096336365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39042922854423523,
      "epoch": 9.6,
      "learning_rate": 1.999373825923607e-05,
      "loss": 0.4291,
      "step": 11359,
      "task_loss": 0.7307684421539307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4727763533592224,
      "epoch": 9.6,
      "learning_rate": 1.99906073888541e-05,
      "loss": 0.4748,
      "step": 11360,
      "task_loss": 0.7980494499206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4121585190296173,
      "epoch": 9.6,
      "learning_rate": 1.9987476518472136e-05,
      "loss": 0.5562,
      "step": 11361,
      "task_loss": 0.840019941329956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3546028733253479,
      "epoch": 9.6,
      "learning_rate": 1.998434564809017e-05,
      "loss": 0.3664,
      "step": 11362,
      "task_loss": 0.18202438950538635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5574893951416016,
      "epoch": 9.6,
      "learning_rate": 1.9981214777708206e-05,
      "loss": 0.4995,
      "step": 11363,
      "task_loss": 0.31637024879455566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8587394952774048,
      "epoch": 9.61,
      "learning_rate": 1.9978083907326238e-05,
      "loss": 0.6671,
      "step": 11364,
      "task_loss": 0.821760356426239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7169572710990906,
      "epoch": 9.61,
      "learning_rate": 1.9974953036944273e-05,
      "loss": 0.5679,
      "step": 11365,
      "task_loss": 0.5971095561981201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8587714433670044,
      "epoch": 9.61,
      "learning_rate": 1.9971822166562305e-05,
      "loss": 0.6032,
      "step": 11366,
      "task_loss": 0.6792311072349548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5023744106292725,
      "epoch": 9.61,
      "learning_rate": 1.996869129618034e-05,
      "loss": 0.3885,
      "step": 11367,
      "task_loss": 0.4597201645374298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37267717719078064,
      "epoch": 9.61,
      "learning_rate": 1.9965560425798375e-05,
      "loss": 0.395,
      "step": 11368,
      "task_loss": 0.4538896977901459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3950776159763336,
      "epoch": 9.61,
      "learning_rate": 1.9962429555416407e-05,
      "loss": 0.4433,
      "step": 11369,
      "task_loss": 0.2128416895866394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30139949917793274,
      "epoch": 9.61,
      "learning_rate": 1.9959298685034442e-05,
      "loss": 0.6499,
      "step": 11370,
      "task_loss": 0.03256037086248398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3988201320171356,
      "epoch": 9.61,
      "learning_rate": 1.9956167814652474e-05,
      "loss": 0.5219,
      "step": 11371,
      "task_loss": 0.07429192960262299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7661631107330322,
      "epoch": 9.61,
      "learning_rate": 1.995303694427051e-05,
      "loss": 0.6075,
      "step": 11372,
      "task_loss": 0.6280069351196289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43364042043685913,
      "epoch": 9.61,
      "learning_rate": 1.994990607388854e-05,
      "loss": 0.4231,
      "step": 11373,
      "task_loss": 0.5607591271400452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4030305743217468,
      "epoch": 9.61,
      "learning_rate": 1.9946775203506576e-05,
      "loss": 0.4984,
      "step": 11374,
      "task_loss": 0.825931966304779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5823071002960205,
      "epoch": 9.61,
      "learning_rate": 1.9943644333124608e-05,
      "loss": 0.5691,
      "step": 11375,
      "task_loss": 0.3750426173210144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.540593683719635,
      "epoch": 9.62,
      "learning_rate": 1.9940513462742643e-05,
      "loss": 0.5081,
      "step": 11376,
      "task_loss": 0.7101706862449646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5890624523162842,
      "epoch": 9.62,
      "learning_rate": 1.9937382592360675e-05,
      "loss": 0.482,
      "step": 11377,
      "task_loss": 0.7091532349586487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30429673194885254,
      "epoch": 9.62,
      "learning_rate": 1.993425172197871e-05,
      "loss": 0.4243,
      "step": 11378,
      "task_loss": 0.4652881324291229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7892046570777893,
      "epoch": 9.62,
      "learning_rate": 1.9931120851596745e-05,
      "loss": 0.639,
      "step": 11379,
      "task_loss": 0.7526462078094482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6391066312789917,
      "epoch": 9.62,
      "learning_rate": 1.992798998121478e-05,
      "loss": 0.6883,
      "step": 11380,
      "task_loss": 0.7828980684280396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5865297317504883,
      "epoch": 9.62,
      "learning_rate": 1.9924859110832815e-05,
      "loss": 0.5833,
      "step": 11381,
      "task_loss": 0.7035923004150391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.567879319190979,
      "epoch": 9.62,
      "learning_rate": 1.9921728240450847e-05,
      "loss": 0.61,
      "step": 11382,
      "task_loss": 0.6984516978263855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9057669639587402,
      "epoch": 9.62,
      "learning_rate": 1.9918597370068882e-05,
      "loss": 0.6658,
      "step": 11383,
      "task_loss": 1.1531678438186646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5202196836471558,
      "epoch": 9.62,
      "learning_rate": 1.9915466499686914e-05,
      "loss": 0.5621,
      "step": 11384,
      "task_loss": 0.9357413053512573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5346084833145142,
      "epoch": 9.62,
      "learning_rate": 1.991233562930495e-05,
      "loss": 0.5921,
      "step": 11385,
      "task_loss": 0.5446224212646484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7095826268196106,
      "epoch": 9.62,
      "learning_rate": 1.990920475892298e-05,
      "loss": 0.5197,
      "step": 11386,
      "task_loss": 1.0137746334075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3225402235984802,
      "epoch": 9.63,
      "learning_rate": 1.9906073888541016e-05,
      "loss": 0.5191,
      "step": 11387,
      "task_loss": 0.5679959058761597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5170493125915527,
      "epoch": 9.63,
      "learning_rate": 1.9902943018159048e-05,
      "loss": 0.5496,
      "step": 11388,
      "task_loss": 1.2868270874023438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7718780040740967,
      "epoch": 9.63,
      "learning_rate": 1.9899812147777083e-05,
      "loss": 0.6505,
      "step": 11389,
      "task_loss": 1.0573375225067139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29062721133232117,
      "epoch": 9.63,
      "learning_rate": 1.9896681277395115e-05,
      "loss": 0.3428,
      "step": 11390,
      "task_loss": 0.5122820138931274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9616600275039673,
      "epoch": 9.63,
      "learning_rate": 1.989355040701315e-05,
      "loss": 0.7967,
      "step": 11391,
      "task_loss": 2.0062406063079834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44944846630096436,
      "epoch": 9.63,
      "learning_rate": 1.9890419536631185e-05,
      "loss": 0.4908,
      "step": 11392,
      "task_loss": 0.22287482023239136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26687294244766235,
      "epoch": 9.63,
      "learning_rate": 1.9887288666249217e-05,
      "loss": 0.5849,
      "step": 11393,
      "task_loss": 0.669321596622467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5120130777359009,
      "epoch": 9.63,
      "learning_rate": 1.9884157795867252e-05,
      "loss": 0.4471,
      "step": 11394,
      "task_loss": 0.9217043519020081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3826237618923187,
      "epoch": 9.63,
      "learning_rate": 1.9881026925485284e-05,
      "loss": 0.6156,
      "step": 11395,
      "task_loss": 0.28106215596199036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23861142992973328,
      "epoch": 9.63,
      "learning_rate": 1.987789605510332e-05,
      "loss": 0.4561,
      "step": 11396,
      "task_loss": 0.038684550672769547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7591334581375122,
      "epoch": 9.63,
      "learning_rate": 1.9874765184721354e-05,
      "loss": 0.5904,
      "step": 11397,
      "task_loss": 0.3196423649787903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5163205862045288,
      "epoch": 9.63,
      "learning_rate": 1.987163431433939e-05,
      "loss": 0.6226,
      "step": 11398,
      "task_loss": 0.9571279287338257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5670987963676453,
      "epoch": 9.64,
      "learning_rate": 1.986850344395742e-05,
      "loss": 0.624,
      "step": 11399,
      "task_loss": 0.2808457314968109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2723139524459839,
      "epoch": 9.64,
      "learning_rate": 1.9865372573575456e-05,
      "loss": 0.4162,
      "step": 11400,
      "task_loss": 0.5949050188064575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4680194854736328,
      "epoch": 9.64,
      "learning_rate": 1.9862241703193488e-05,
      "loss": 0.5586,
      "step": 11401,
      "task_loss": 0.5704677104949951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3888252377510071,
      "epoch": 9.64,
      "learning_rate": 1.9859110832811523e-05,
      "loss": 0.4729,
      "step": 11402,
      "task_loss": 0.29112181067466736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4751502275466919,
      "epoch": 9.64,
      "learning_rate": 1.9855979962429555e-05,
      "loss": 0.5727,
      "step": 11403,
      "task_loss": 0.5086777806282043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4468209445476532,
      "epoch": 9.64,
      "learning_rate": 1.985284909204759e-05,
      "loss": 0.6018,
      "step": 11404,
      "task_loss": 0.4473933279514313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39009177684783936,
      "epoch": 9.64,
      "learning_rate": 1.9849718221665625e-05,
      "loss": 0.4668,
      "step": 11405,
      "task_loss": 0.6395938992500305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5462759733200073,
      "epoch": 9.64,
      "learning_rate": 1.9846587351283657e-05,
      "loss": 0.5388,
      "step": 11406,
      "task_loss": 0.5903078317642212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3698870539665222,
      "epoch": 9.64,
      "learning_rate": 1.9843456480901692e-05,
      "loss": 0.6363,
      "step": 11407,
      "task_loss": 0.5422508716583252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6243787407875061,
      "epoch": 9.64,
      "learning_rate": 1.9840325610519724e-05,
      "loss": 0.7642,
      "step": 11408,
      "task_loss": 0.47818905115127563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42326682806015015,
      "epoch": 9.64,
      "learning_rate": 1.983719474013776e-05,
      "loss": 0.4042,
      "step": 11409,
      "task_loss": 0.9985173940658569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39241090416908264,
      "epoch": 9.64,
      "learning_rate": 1.983406386975579e-05,
      "loss": 0.5053,
      "step": 11410,
      "task_loss": 0.22116412222385406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2376750260591507,
      "epoch": 9.65,
      "learning_rate": 1.9830932999373826e-05,
      "loss": 0.4206,
      "step": 11411,
      "task_loss": 0.10352277010679245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28262197971343994,
      "epoch": 9.65,
      "learning_rate": 1.982780212899186e-05,
      "loss": 0.4008,
      "step": 11412,
      "task_loss": 0.901085615158081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5719962120056152,
      "epoch": 9.65,
      "learning_rate": 1.9824671258609893e-05,
      "loss": 0.5483,
      "step": 11413,
      "task_loss": 0.932773232460022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36694175004959106,
      "epoch": 9.65,
      "learning_rate": 1.982154038822793e-05,
      "loss": 0.3879,
      "step": 11414,
      "task_loss": 0.05230306461453438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4778267741203308,
      "epoch": 9.65,
      "learning_rate": 1.9818409517845964e-05,
      "loss": 0.5518,
      "step": 11415,
      "task_loss": 0.8740503787994385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35519886016845703,
      "epoch": 9.65,
      "learning_rate": 1.9815278647464e-05,
      "loss": 0.6519,
      "step": 11416,
      "task_loss": 0.2849069833755493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4767727255821228,
      "epoch": 9.65,
      "learning_rate": 1.981214777708203e-05,
      "loss": 0.5227,
      "step": 11417,
      "task_loss": 0.49215203523635864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.66871178150177,
      "epoch": 9.65,
      "learning_rate": 1.9809016906700066e-05,
      "loss": 0.4706,
      "step": 11418,
      "task_loss": 0.315182626247406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4731830060482025,
      "epoch": 9.65,
      "learning_rate": 1.9805886036318097e-05,
      "loss": 0.6245,
      "step": 11419,
      "task_loss": 0.30815568566322327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8387899398803711,
      "epoch": 9.65,
      "learning_rate": 1.9802755165936133e-05,
      "loss": 0.8308,
      "step": 11420,
      "task_loss": 1.1443027257919312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5440508127212524,
      "epoch": 9.65,
      "learning_rate": 1.9799624295554164e-05,
      "loss": 0.4785,
      "step": 11421,
      "task_loss": 0.9492506384849548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47129207849502563,
      "epoch": 9.65,
      "learning_rate": 1.97964934251722e-05,
      "loss": 0.4853,
      "step": 11422,
      "task_loss": 0.12125322967767715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29167166352272034,
      "epoch": 9.66,
      "learning_rate": 1.979336255479023e-05,
      "loss": 0.4712,
      "step": 11423,
      "task_loss": 0.20951198041439056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43718647956848145,
      "epoch": 9.66,
      "learning_rate": 1.9790231684408267e-05,
      "loss": 0.4521,
      "step": 11424,
      "task_loss": 0.5266664028167725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6764252781867981,
      "epoch": 9.66,
      "learning_rate": 1.9787100814026298e-05,
      "loss": 0.5871,
      "step": 11425,
      "task_loss": 0.9662127494812012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3502879738807678,
      "epoch": 9.66,
      "learning_rate": 1.9783969943644333e-05,
      "loss": 0.5569,
      "step": 11426,
      "task_loss": 0.40940719842910767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36334964632987976,
      "epoch": 9.66,
      "learning_rate": 1.9780839073262365e-05,
      "loss": 0.4527,
      "step": 11427,
      "task_loss": 0.5619573593139648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33798685669898987,
      "epoch": 9.66,
      "learning_rate": 1.97777082028804e-05,
      "loss": 0.6085,
      "step": 11428,
      "task_loss": 0.25684118270874023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4906187057495117,
      "epoch": 9.66,
      "learning_rate": 1.9774577332498436e-05,
      "loss": 0.5594,
      "step": 11429,
      "task_loss": 1.056955337524414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4191204011440277,
      "epoch": 9.66,
      "learning_rate": 1.977144646211647e-05,
      "loss": 0.5165,
      "step": 11430,
      "task_loss": 0.9844582080841064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5088682174682617,
      "epoch": 9.66,
      "learning_rate": 1.9768315591734503e-05,
      "loss": 0.5848,
      "step": 11431,
      "task_loss": 0.5589878559112549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4178157448768616,
      "epoch": 9.66,
      "learning_rate": 1.9765184721352538e-05,
      "loss": 0.4082,
      "step": 11432,
      "task_loss": 0.46547937393188477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5044748187065125,
      "epoch": 9.66,
      "learning_rate": 1.9762053850970573e-05,
      "loss": 0.5164,
      "step": 11433,
      "task_loss": 1.6895028352737427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6376059055328369,
      "epoch": 9.66,
      "learning_rate": 1.9758922980588605e-05,
      "loss": 0.5582,
      "step": 11434,
      "task_loss": 0.8395466804504395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41408947110176086,
      "epoch": 9.67,
      "learning_rate": 1.975579211020664e-05,
      "loss": 0.4587,
      "step": 11435,
      "task_loss": 0.22425857186317444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3364698588848114,
      "epoch": 9.67,
      "learning_rate": 1.975266123982467e-05,
      "loss": 0.5395,
      "step": 11436,
      "task_loss": 0.45064428448677063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.546302080154419,
      "epoch": 9.67,
      "learning_rate": 1.9749530369442707e-05,
      "loss": 0.5053,
      "step": 11437,
      "task_loss": 0.9727370142936707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2698715329170227,
      "epoch": 9.67,
      "learning_rate": 1.974639949906074e-05,
      "loss": 0.4315,
      "step": 11438,
      "task_loss": 0.15951062738895416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5442439913749695,
      "epoch": 9.67,
      "learning_rate": 1.9743268628678774e-05,
      "loss": 0.5499,
      "step": 11439,
      "task_loss": 1.5045188665390015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6771121025085449,
      "epoch": 9.67,
      "learning_rate": 1.9740137758296805e-05,
      "loss": 0.6006,
      "step": 11440,
      "task_loss": 0.3773405849933624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6824321746826172,
      "epoch": 9.67,
      "learning_rate": 1.973700688791484e-05,
      "loss": 0.5864,
      "step": 11441,
      "task_loss": 0.7986275553703308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2848937511444092,
      "epoch": 9.67,
      "learning_rate": 1.9733876017532876e-05,
      "loss": 0.5197,
      "step": 11442,
      "task_loss": 0.6212865710258484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4321041703224182,
      "epoch": 9.67,
      "learning_rate": 1.9730745147150908e-05,
      "loss": 0.5595,
      "step": 11443,
      "task_loss": 0.5271742343902588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7331293821334839,
      "epoch": 9.67,
      "learning_rate": 1.9727614276768943e-05,
      "loss": 0.632,
      "step": 11444,
      "task_loss": 1.1029493808746338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061719417572021,
      "epoch": 9.67,
      "learning_rate": 1.9724483406386975e-05,
      "loss": 0.4792,
      "step": 11445,
      "task_loss": 1.148537516593933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5293819904327393,
      "epoch": 9.67,
      "learning_rate": 1.972135253600501e-05,
      "loss": 0.6463,
      "step": 11446,
      "task_loss": 0.4697108268737793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7695452570915222,
      "epoch": 9.68,
      "learning_rate": 1.9718221665623045e-05,
      "loss": 0.6162,
      "step": 11447,
      "task_loss": 1.2598845958709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.510299801826477,
      "epoch": 9.68,
      "learning_rate": 1.971509079524108e-05,
      "loss": 0.4908,
      "step": 11448,
      "task_loss": 0.19200201332569122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43731582164764404,
      "epoch": 9.68,
      "learning_rate": 1.9711959924859112e-05,
      "loss": 0.4977,
      "step": 11449,
      "task_loss": 0.26628032326698303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20925530791282654,
      "epoch": 9.68,
      "learning_rate": 1.9708829054477147e-05,
      "loss": 0.53,
      "step": 11450,
      "task_loss": 0.8568643927574158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4500838816165924,
      "epoch": 9.68,
      "learning_rate": 1.970569818409518e-05,
      "loss": 0.4915,
      "step": 11451,
      "task_loss": 1.0174129009246826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3408641815185547,
      "epoch": 9.68,
      "learning_rate": 1.9702567313713214e-05,
      "loss": 0.5995,
      "step": 11452,
      "task_loss": 0.5018743276596069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7217057347297668,
      "epoch": 9.68,
      "learning_rate": 1.969943644333125e-05,
      "loss": 0.6,
      "step": 11453,
      "task_loss": 1.083902359008789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6915547847747803,
      "epoch": 9.68,
      "learning_rate": 1.969630557294928e-05,
      "loss": 0.5558,
      "step": 11454,
      "task_loss": 0.4923596680164337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.726566731929779,
      "epoch": 9.68,
      "learning_rate": 1.9693174702567316e-05,
      "loss": 0.6207,
      "step": 11455,
      "task_loss": 0.4797140657901764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44524961709976196,
      "epoch": 9.68,
      "learning_rate": 1.9690043832185348e-05,
      "loss": 0.6729,
      "step": 11456,
      "task_loss": 0.638375461101532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8899569511413574,
      "epoch": 9.68,
      "learning_rate": 1.9686912961803383e-05,
      "loss": 0.5606,
      "step": 11457,
      "task_loss": 0.3166080415248871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31994301080703735,
      "epoch": 9.69,
      "learning_rate": 1.9683782091421415e-05,
      "loss": 0.4632,
      "step": 11458,
      "task_loss": 0.4644120931625366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5142444372177124,
      "epoch": 9.69,
      "learning_rate": 1.968065122103945e-05,
      "loss": 0.4427,
      "step": 11459,
      "task_loss": 0.26330187916755676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4225069284439087,
      "epoch": 9.69,
      "learning_rate": 1.9677520350657482e-05,
      "loss": 0.4853,
      "step": 11460,
      "task_loss": 0.860550582408905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33833760023117065,
      "epoch": 9.69,
      "learning_rate": 1.9674389480275517e-05,
      "loss": 0.4997,
      "step": 11461,
      "task_loss": 1.2459710836410522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3163233995437622,
      "epoch": 9.69,
      "learning_rate": 1.967125860989355e-05,
      "loss": 0.5421,
      "step": 11462,
      "task_loss": 0.5153548121452332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8136933445930481,
      "epoch": 9.69,
      "learning_rate": 1.9668127739511584e-05,
      "loss": 0.6041,
      "step": 11463,
      "task_loss": 0.427778422832489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5104421377182007,
      "epoch": 9.69,
      "learning_rate": 1.966499686912962e-05,
      "loss": 0.6406,
      "step": 11464,
      "task_loss": 0.314953476190567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6073487997055054,
      "epoch": 9.69,
      "learning_rate": 1.9661865998747654e-05,
      "loss": 0.5725,
      "step": 11465,
      "task_loss": 0.7612685561180115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4365811347961426,
      "epoch": 9.69,
      "learning_rate": 1.965873512836569e-05,
      "loss": 0.4758,
      "step": 11466,
      "task_loss": 0.33550599217414856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26628217101097107,
      "epoch": 9.69,
      "learning_rate": 1.965560425798372e-05,
      "loss": 0.5183,
      "step": 11467,
      "task_loss": 0.13872650265693665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8433094024658203,
      "epoch": 9.69,
      "learning_rate": 1.9652473387601756e-05,
      "loss": 0.6506,
      "step": 11468,
      "task_loss": 0.9560882449150085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46675586700439453,
      "epoch": 9.69,
      "learning_rate": 1.9649342517219788e-05,
      "loss": 0.621,
      "step": 11469,
      "task_loss": 1.1390206813812256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7161898612976074,
      "epoch": 9.7,
      "learning_rate": 1.9646211646837823e-05,
      "loss": 0.4415,
      "step": 11470,
      "task_loss": 0.8804476261138916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41045141220092773,
      "epoch": 9.7,
      "learning_rate": 1.9643080776455855e-05,
      "loss": 0.5036,
      "step": 11471,
      "task_loss": 0.4508552849292755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4772064685821533,
      "epoch": 9.7,
      "learning_rate": 1.963994990607389e-05,
      "loss": 0.4534,
      "step": 11472,
      "task_loss": 0.2750204801559448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4010735750198364,
      "epoch": 9.7,
      "learning_rate": 1.9636819035691922e-05,
      "loss": 0.591,
      "step": 11473,
      "task_loss": 0.421718955039978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2796887755393982,
      "epoch": 9.7,
      "learning_rate": 1.9633688165309957e-05,
      "loss": 0.4288,
      "step": 11474,
      "task_loss": 0.27300184965133667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6914469599723816,
      "epoch": 9.7,
      "learning_rate": 1.963055729492799e-05,
      "loss": 0.5993,
      "step": 11475,
      "task_loss": 0.4673765301704407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6049767732620239,
      "epoch": 9.7,
      "learning_rate": 1.9627426424546024e-05,
      "loss": 0.528,
      "step": 11476,
      "task_loss": 0.584034264087677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4021163582801819,
      "epoch": 9.7,
      "learning_rate": 1.9624295554164056e-05,
      "loss": 0.4697,
      "step": 11477,
      "task_loss": 0.34257805347442627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3405894637107849,
      "epoch": 9.7,
      "learning_rate": 1.962116468378209e-05,
      "loss": 0.4369,
      "step": 11478,
      "task_loss": 0.33075231313705444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6115224361419678,
      "epoch": 9.7,
      "learning_rate": 1.9618033813400126e-05,
      "loss": 0.5725,
      "step": 11479,
      "task_loss": 0.9345648288726807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7578883767127991,
      "epoch": 9.7,
      "learning_rate": 1.9614902943018158e-05,
      "loss": 0.5698,
      "step": 11480,
      "task_loss": 1.1056239604949951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5493202209472656,
      "epoch": 9.7,
      "learning_rate": 1.9611772072636193e-05,
      "loss": 0.4806,
      "step": 11481,
      "task_loss": 0.928357720375061
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6181823015213013,
      "epoch": 9.71,
      "learning_rate": 1.960864120225423e-05,
      "loss": 0.5571,
      "step": 11482,
      "task_loss": 0.59356689453125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42304903268814087,
      "epoch": 9.71,
      "learning_rate": 1.9605510331872264e-05,
      "loss": 0.6062,
      "step": 11483,
      "task_loss": 1.228961706161499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.564358115196228,
      "epoch": 9.71,
      "learning_rate": 1.9602379461490295e-05,
      "loss": 0.6745,
      "step": 11484,
      "task_loss": 1.1679726839065552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4858130216598511,
      "epoch": 9.71,
      "learning_rate": 1.959924859110833e-05,
      "loss": 0.5082,
      "step": 11485,
      "task_loss": 0.831802248954773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44415363669395447,
      "epoch": 9.71,
      "learning_rate": 1.9596117720726362e-05,
      "loss": 0.5701,
      "step": 11486,
      "task_loss": 1.9158393144607544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4670506715774536,
      "epoch": 9.71,
      "learning_rate": 1.9592986850344397e-05,
      "loss": 0.703,
      "step": 11487,
      "task_loss": 0.5403284430503845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8512698411941528,
      "epoch": 9.71,
      "learning_rate": 1.958985597996243e-05,
      "loss": 0.5785,
      "step": 11488,
      "task_loss": 1.3781265020370483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7522706389427185,
      "epoch": 9.71,
      "learning_rate": 1.9586725109580464e-05,
      "loss": 0.6375,
      "step": 11489,
      "task_loss": 0.8087536096572876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4348558187484741,
      "epoch": 9.71,
      "learning_rate": 1.95835942391985e-05,
      "loss": 0.5778,
      "step": 11490,
      "task_loss": 0.37708336114883423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3197459578514099,
      "epoch": 9.71,
      "learning_rate": 1.958046336881653e-05,
      "loss": 0.4858,
      "step": 11491,
      "task_loss": 0.18276098370552063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5182896852493286,
      "epoch": 9.71,
      "learning_rate": 1.9577332498434567e-05,
      "loss": 0.5928,
      "step": 11492,
      "task_loss": 0.5755763053894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6586048007011414,
      "epoch": 9.71,
      "learning_rate": 1.95742016280526e-05,
      "loss": 0.6127,
      "step": 11493,
      "task_loss": 0.8938744068145752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5987610816955566,
      "epoch": 9.72,
      "learning_rate": 1.9571070757670633e-05,
      "loss": 0.6644,
      "step": 11494,
      "task_loss": 1.0883281230926514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5454007387161255,
      "epoch": 9.72,
      "learning_rate": 1.9567939887288665e-05,
      "loss": 0.6427,
      "step": 11495,
      "task_loss": 0.8469494581222534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32154542207717896,
      "epoch": 9.72,
      "learning_rate": 1.95648090169067e-05,
      "loss": 0.5438,
      "step": 11496,
      "task_loss": 0.5184254050254822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3503858745098114,
      "epoch": 9.72,
      "learning_rate": 1.9561678146524736e-05,
      "loss": 0.4417,
      "step": 11497,
      "task_loss": 0.7661807537078857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5276139378547668,
      "epoch": 9.72,
      "learning_rate": 1.9558547276142767e-05,
      "loss": 0.5982,
      "step": 11498,
      "task_loss": 0.4580424427986145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5940665006637573,
      "epoch": 9.72,
      "learning_rate": 1.9555416405760803e-05,
      "loss": 0.4639,
      "step": 11499,
      "task_loss": 0.17221124470233917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49801111221313477,
      "epoch": 9.72,
      "learning_rate": 1.9552285535378838e-05,
      "loss": 0.589,
      "step": 11500,
      "task_loss": 0.9272472858428955
    },
    {
      "epoch": 9.72,
      "eval_accuracy": 0.9050693069306931,
      "eval_loss": 0.3670479953289032,
      "eval_runtime": 208.4788,
      "eval_samples_per_second": 121.115,
      "eval_steps_per_second": 0.95,
      "step": 11500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5055623650550842,
      "epoch": 9.72,
      "learning_rate": 1.954915466499687e-05,
      "loss": 0.5683,
      "step": 11501,
      "task_loss": 0.3087790012359619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5195136070251465,
      "epoch": 9.72,
      "learning_rate": 1.9546023794614905e-05,
      "loss": 0.4736,
      "step": 11502,
      "task_loss": 0.17636236548423767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29617321491241455,
      "epoch": 9.72,
      "learning_rate": 1.954289292423294e-05,
      "loss": 0.4949,
      "step": 11503,
      "task_loss": 0.7396499514579773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4905962646007538,
      "epoch": 9.72,
      "learning_rate": 1.953976205385097e-05,
      "loss": 0.6237,
      "step": 11504,
      "task_loss": 0.1277923434972763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44684380292892456,
      "epoch": 9.72,
      "learning_rate": 1.9536631183469007e-05,
      "loss": 0.454,
      "step": 11505,
      "task_loss": 0.9906193017959595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30436408519744873,
      "epoch": 9.73,
      "learning_rate": 1.953350031308704e-05,
      "loss": 0.3783,
      "step": 11506,
      "task_loss": 0.1257229745388031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6980328559875488,
      "epoch": 9.73,
      "learning_rate": 1.9530369442705074e-05,
      "loss": 0.4828,
      "step": 11507,
      "task_loss": 0.5750572085380554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6562527418136597,
      "epoch": 9.73,
      "learning_rate": 1.9527238572323106e-05,
      "loss": 0.5416,
      "step": 11508,
      "task_loss": 1.1739014387130737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34045255184173584,
      "epoch": 9.73,
      "learning_rate": 1.952410770194114e-05,
      "loss": 0.464,
      "step": 11509,
      "task_loss": 0.10824192315340042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5384789705276489,
      "epoch": 9.73,
      "learning_rate": 1.9520976831559172e-05,
      "loss": 0.6217,
      "step": 11510,
      "task_loss": 0.5669267177581787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.664076030254364,
      "epoch": 9.73,
      "learning_rate": 1.9517845961177208e-05,
      "loss": 0.794,
      "step": 11511,
      "task_loss": 1.052617073059082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5710515975952148,
      "epoch": 9.73,
      "learning_rate": 1.951471509079524e-05,
      "loss": 0.537,
      "step": 11512,
      "task_loss": 0.4157852232456207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6853793263435364,
      "epoch": 9.73,
      "learning_rate": 1.9511584220413275e-05,
      "loss": 0.7145,
      "step": 11513,
      "task_loss": 0.3109949231147766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5381698608398438,
      "epoch": 9.73,
      "learning_rate": 1.950845335003131e-05,
      "loss": 0.5616,
      "step": 11514,
      "task_loss": 0.23374778032302856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3592284023761749,
      "epoch": 9.73,
      "learning_rate": 1.9505322479649345e-05,
      "loss": 0.4228,
      "step": 11515,
      "task_loss": 0.4370739161968231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35530805587768555,
      "epoch": 9.73,
      "learning_rate": 1.950219160926738e-05,
      "loss": 0.4589,
      "step": 11516,
      "task_loss": 0.13837535679340363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.644140362739563,
      "epoch": 9.73,
      "learning_rate": 1.9499060738885412e-05,
      "loss": 0.5468,
      "step": 11517,
      "task_loss": 1.482623815536499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5352402329444885,
      "epoch": 9.74,
      "learning_rate": 1.9495929868503447e-05,
      "loss": 0.5958,
      "step": 11518,
      "task_loss": 0.8604409098625183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46655797958374023,
      "epoch": 9.74,
      "learning_rate": 1.949279899812148e-05,
      "loss": 0.5524,
      "step": 11519,
      "task_loss": 0.5307003855705261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22586563229560852,
      "epoch": 9.74,
      "learning_rate": 1.9489668127739514e-05,
      "loss": 0.4928,
      "step": 11520,
      "task_loss": 0.11024802923202515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4278532862663269,
      "epoch": 9.74,
      "learning_rate": 1.9486537257357546e-05,
      "loss": 0.515,
      "step": 11521,
      "task_loss": 0.27911853790283203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7995514869689941,
      "epoch": 9.74,
      "learning_rate": 1.948340638697558e-05,
      "loss": 0.6132,
      "step": 11522,
      "task_loss": 0.6405843496322632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3479260206222534,
      "epoch": 9.74,
      "learning_rate": 1.9480275516593613e-05,
      "loss": 0.709,
      "step": 11523,
      "task_loss": 0.35373392701148987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36721569299697876,
      "epoch": 9.74,
      "learning_rate": 1.9477144646211648e-05,
      "loss": 0.4897,
      "step": 11524,
      "task_loss": 0.4563276469707489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5381394028663635,
      "epoch": 9.74,
      "learning_rate": 1.947401377582968e-05,
      "loss": 0.5057,
      "step": 11525,
      "task_loss": 0.7897980809211731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5762666463851929,
      "epoch": 9.74,
      "learning_rate": 1.9470882905447715e-05,
      "loss": 0.5534,
      "step": 11526,
      "task_loss": 0.8411628007888794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7679926753044128,
      "epoch": 9.74,
      "learning_rate": 1.946775203506575e-05,
      "loss": 0.5556,
      "step": 11527,
      "task_loss": 0.5225948095321655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5415346026420593,
      "epoch": 9.74,
      "learning_rate": 1.9464621164683782e-05,
      "loss": 0.5479,
      "step": 11528,
      "task_loss": 1.3079636096954346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4301774203777313,
      "epoch": 9.75,
      "learning_rate": 1.9461490294301817e-05,
      "loss": 0.4198,
      "step": 11529,
      "task_loss": 0.5403162837028503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6916524767875671,
      "epoch": 9.75,
      "learning_rate": 1.945835942391985e-05,
      "loss": 0.4477,
      "step": 11530,
      "task_loss": 0.3158518075942993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4151741862297058,
      "epoch": 9.75,
      "learning_rate": 1.9455228553537884e-05,
      "loss": 0.5158,
      "step": 11531,
      "task_loss": 0.7024104595184326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3743663430213928,
      "epoch": 9.75,
      "learning_rate": 1.945209768315592e-05,
      "loss": 0.4684,
      "step": 11532,
      "task_loss": 0.46835991740226746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9407538175582886,
      "epoch": 9.75,
      "learning_rate": 1.9448966812773954e-05,
      "loss": 0.6876,
      "step": 11533,
      "task_loss": 1.1040998697280884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3550580143928528,
      "epoch": 9.75,
      "learning_rate": 1.9445835942391986e-05,
      "loss": 0.5067,
      "step": 11534,
      "task_loss": 0.19404403865337372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4991888105869293,
      "epoch": 9.75,
      "learning_rate": 1.944270507201002e-05,
      "loss": 0.4778,
      "step": 11535,
      "task_loss": 1.1981998682022095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33815085887908936,
      "epoch": 9.75,
      "learning_rate": 1.9439574201628053e-05,
      "loss": 0.5725,
      "step": 11536,
      "task_loss": 0.4922480881214142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6942065954208374,
      "epoch": 9.75,
      "learning_rate": 1.9436443331246088e-05,
      "loss": 0.6307,
      "step": 11537,
      "task_loss": 1.0228185653686523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.232534408569336,
      "epoch": 9.75,
      "learning_rate": 1.943331246086412e-05,
      "loss": 0.7882,
      "step": 11538,
      "task_loss": 1.3487833738327026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49025022983551025,
      "epoch": 9.75,
      "learning_rate": 1.9430181590482155e-05,
      "loss": 0.4942,
      "step": 11539,
      "task_loss": 0.25904083251953125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43615204095840454,
      "epoch": 9.75,
      "learning_rate": 1.942705072010019e-05,
      "loss": 0.563,
      "step": 11540,
      "task_loss": 0.801078200340271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37649333477020264,
      "epoch": 9.76,
      "learning_rate": 1.9423919849718222e-05,
      "loss": 0.5688,
      "step": 11541,
      "task_loss": 0.18831807374954224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5912031531333923,
      "epoch": 9.76,
      "learning_rate": 1.9420788979336257e-05,
      "loss": 0.6711,
      "step": 11542,
      "task_loss": 1.584781527519226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6591867804527283,
      "epoch": 9.76,
      "learning_rate": 1.941765810895429e-05,
      "loss": 0.5197,
      "step": 11543,
      "task_loss": 0.7277752161026001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.648594319820404,
      "epoch": 9.76,
      "learning_rate": 1.9414527238572324e-05,
      "loss": 0.518,
      "step": 11544,
      "task_loss": 1.1423958539962769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5593070983886719,
      "epoch": 9.76,
      "learning_rate": 1.9411396368190356e-05,
      "loss": 0.4375,
      "step": 11545,
      "task_loss": 0.71848464012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5305392742156982,
      "epoch": 9.76,
      "learning_rate": 1.940826549780839e-05,
      "loss": 0.5749,
      "step": 11546,
      "task_loss": 0.8690393567085266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49656644463539124,
      "epoch": 9.76,
      "learning_rate": 1.9405134627426423e-05,
      "loss": 0.5961,
      "step": 11547,
      "task_loss": 0.4500821828842163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8034920692443848,
      "epoch": 9.76,
      "learning_rate": 1.9402003757044458e-05,
      "loss": 0.5929,
      "step": 11548,
      "task_loss": 0.47071853280067444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5188835859298706,
      "epoch": 9.76,
      "learning_rate": 1.9398872886662493e-05,
      "loss": 0.4872,
      "step": 11549,
      "task_loss": 0.9092277884483337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7299895882606506,
      "epoch": 9.76,
      "learning_rate": 1.939574201628053e-05,
      "loss": 0.6106,
      "step": 11550,
      "task_loss": 0.989351212978363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5251337289810181,
      "epoch": 9.76,
      "learning_rate": 1.9392611145898564e-05,
      "loss": 0.5233,
      "step": 11551,
      "task_loss": 0.5385008454322815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7040932178497314,
      "epoch": 9.76,
      "learning_rate": 1.9389480275516595e-05,
      "loss": 0.7615,
      "step": 11552,
      "task_loss": 1.3508975505828857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5177218317985535,
      "epoch": 9.77,
      "learning_rate": 1.938634940513463e-05,
      "loss": 0.5612,
      "step": 11553,
      "task_loss": 1.1349859237670898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45916664600372314,
      "epoch": 9.77,
      "learning_rate": 1.9383218534752662e-05,
      "loss": 0.3912,
      "step": 11554,
      "task_loss": 0.8141466975212097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5239891409873962,
      "epoch": 9.77,
      "learning_rate": 1.9380087664370698e-05,
      "loss": 0.5367,
      "step": 11555,
      "task_loss": 0.5013299584388733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4903170168399811,
      "epoch": 9.77,
      "learning_rate": 1.937695679398873e-05,
      "loss": 0.4922,
      "step": 11556,
      "task_loss": 0.3154742419719696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5253037810325623,
      "epoch": 9.77,
      "learning_rate": 1.9373825923606764e-05,
      "loss": 0.5804,
      "step": 11557,
      "task_loss": 0.7890669107437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8684146404266357,
      "epoch": 9.77,
      "learning_rate": 1.9370695053224796e-05,
      "loss": 0.716,
      "step": 11558,
      "task_loss": 0.4173005521297455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6388171911239624,
      "epoch": 9.77,
      "learning_rate": 1.936756418284283e-05,
      "loss": 0.6312,
      "step": 11559,
      "task_loss": 0.9064346551895142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5461736917495728,
      "epoch": 9.77,
      "learning_rate": 1.9364433312460863e-05,
      "loss": 0.6342,
      "step": 11560,
      "task_loss": 0.6102699041366577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6301363706588745,
      "epoch": 9.77,
      "learning_rate": 1.93613024420789e-05,
      "loss": 0.457,
      "step": 11561,
      "task_loss": 0.7611414194107056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5485497117042542,
      "epoch": 9.77,
      "learning_rate": 1.935817157169693e-05,
      "loss": 0.8057,
      "step": 11562,
      "task_loss": 0.38453030586242676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3792394697666168,
      "epoch": 9.77,
      "learning_rate": 1.9355040701314965e-05,
      "loss": 0.4725,
      "step": 11563,
      "task_loss": 0.7644608020782471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40754276514053345,
      "epoch": 9.77,
      "learning_rate": 1.9351909830933e-05,
      "loss": 0.5365,
      "step": 11564,
      "task_loss": 0.23216968774795532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5285704731941223,
      "epoch": 9.78,
      "learning_rate": 1.9348778960551032e-05,
      "loss": 0.5262,
      "step": 11565,
      "task_loss": 0.6981925964355469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33965396881103516,
      "epoch": 9.78,
      "learning_rate": 1.9345648090169067e-05,
      "loss": 0.387,
      "step": 11566,
      "task_loss": 0.6116869449615479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5505032539367676,
      "epoch": 9.78,
      "learning_rate": 1.9342517219787103e-05,
      "loss": 0.5972,
      "step": 11567,
      "task_loss": 0.41497817635536194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.462602436542511,
      "epoch": 9.78,
      "learning_rate": 1.9339386349405138e-05,
      "loss": 0.5303,
      "step": 11568,
      "task_loss": 1.3448935747146606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5178964138031006,
      "epoch": 9.78,
      "learning_rate": 1.933625547902317e-05,
      "loss": 0.544,
      "step": 11569,
      "task_loss": 1.0277327299118042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7191877961158752,
      "epoch": 9.78,
      "learning_rate": 1.9333124608641205e-05,
      "loss": 0.7025,
      "step": 11570,
      "task_loss": 1.7156333923339844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7906275987625122,
      "epoch": 9.78,
      "learning_rate": 1.9329993738259236e-05,
      "loss": 0.537,
      "step": 11571,
      "task_loss": 0.6520065069198608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9213466048240662,
      "epoch": 9.78,
      "learning_rate": 1.932686286787727e-05,
      "loss": 0.7303,
      "step": 11572,
      "task_loss": 1.2434160709381104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3979056775569916,
      "epoch": 9.78,
      "learning_rate": 1.9323731997495303e-05,
      "loss": 0.4742,
      "step": 11573,
      "task_loss": 0.40355876088142395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3085879981517792,
      "epoch": 9.78,
      "learning_rate": 1.932060112711334e-05,
      "loss": 0.4179,
      "step": 11574,
      "task_loss": 0.8947088718414307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5550545454025269,
      "epoch": 9.78,
      "learning_rate": 1.931747025673137e-05,
      "loss": 0.6216,
      "step": 11575,
      "task_loss": 0.5907147526741028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49374741315841675,
      "epoch": 9.78,
      "learning_rate": 1.9314339386349406e-05,
      "loss": 0.5298,
      "step": 11576,
      "task_loss": 0.8309386968612671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23060837388038635,
      "epoch": 9.79,
      "learning_rate": 1.931120851596744e-05,
      "loss": 0.4744,
      "step": 11577,
      "task_loss": 0.4298765957355499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7837389707565308,
      "epoch": 9.79,
      "learning_rate": 1.9308077645585473e-05,
      "loss": 0.6037,
      "step": 11578,
      "task_loss": 0.4761753976345062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8629990816116333,
      "epoch": 9.79,
      "learning_rate": 1.9304946775203508e-05,
      "loss": 0.7452,
      "step": 11579,
      "task_loss": 0.7306995391845703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5794805884361267,
      "epoch": 9.79,
      "learning_rate": 1.930181590482154e-05,
      "loss": 0.4533,
      "step": 11580,
      "task_loss": 1.1658952236175537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5774139165878296,
      "epoch": 9.79,
      "learning_rate": 1.9298685034439575e-05,
      "loss": 0.5396,
      "step": 11581,
      "task_loss": 0.3340483605861664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49272406101226807,
      "epoch": 9.79,
      "learning_rate": 1.929555416405761e-05,
      "loss": 0.4421,
      "step": 11582,
      "task_loss": 0.6467495560646057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5440459251403809,
      "epoch": 9.79,
      "learning_rate": 1.929242329367564e-05,
      "loss": 0.6028,
      "step": 11583,
      "task_loss": 0.11604884266853333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5874073505401611,
      "epoch": 9.79,
      "learning_rate": 1.9289292423293677e-05,
      "loss": 0.532,
      "step": 11584,
      "task_loss": 0.9532662630081177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955988168716431,
      "epoch": 9.79,
      "learning_rate": 1.9286161552911712e-05,
      "loss": 0.5659,
      "step": 11585,
      "task_loss": 0.6402496099472046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7460747361183167,
      "epoch": 9.79,
      "learning_rate": 1.9283030682529744e-05,
      "loss": 0.6155,
      "step": 11586,
      "task_loss": 0.7455217838287354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42250698804855347,
      "epoch": 9.79,
      "learning_rate": 1.927989981214778e-05,
      "loss": 0.5438,
      "step": 11587,
      "task_loss": 1.042486548423767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6501675248146057,
      "epoch": 9.79,
      "learning_rate": 1.9276768941765814e-05,
      "loss": 0.5539,
      "step": 11588,
      "task_loss": 0.29313334822654724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7363775968551636,
      "epoch": 9.8,
      "learning_rate": 1.9273638071383846e-05,
      "loss": 0.6043,
      "step": 11589,
      "task_loss": 0.6457009315490723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5330055952072144,
      "epoch": 9.8,
      "learning_rate": 1.927050720100188e-05,
      "loss": 0.5794,
      "step": 11590,
      "task_loss": 0.6738833785057068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6053811311721802,
      "epoch": 9.8,
      "learning_rate": 1.9267376330619913e-05,
      "loss": 0.6913,
      "step": 11591,
      "task_loss": 0.31903544068336487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31426000595092773,
      "epoch": 9.8,
      "learning_rate": 1.9264245460237948e-05,
      "loss": 0.6199,
      "step": 11592,
      "task_loss": 0.4453038275241852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4127032458782196,
      "epoch": 9.8,
      "learning_rate": 1.926111458985598e-05,
      "loss": 0.4937,
      "step": 11593,
      "task_loss": 0.2862144708633423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45055079460144043,
      "epoch": 9.8,
      "learning_rate": 1.9257983719474015e-05,
      "loss": 0.5383,
      "step": 11594,
      "task_loss": 0.9530044198036194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48205122351646423,
      "epoch": 9.8,
      "learning_rate": 1.9254852849092047e-05,
      "loss": 0.472,
      "step": 11595,
      "task_loss": 0.2901204526424408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29041963815689087,
      "epoch": 9.8,
      "learning_rate": 1.9251721978710082e-05,
      "loss": 0.4681,
      "step": 11596,
      "task_loss": 1.7053228616714478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43605008721351624,
      "epoch": 9.8,
      "learning_rate": 1.9248591108328114e-05,
      "loss": 0.4204,
      "step": 11597,
      "task_loss": 0.6596958637237549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3363676071166992,
      "epoch": 9.8,
      "learning_rate": 1.924546023794615e-05,
      "loss": 0.6752,
      "step": 11598,
      "task_loss": 0.8508536219596863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34936535358428955,
      "epoch": 9.8,
      "learning_rate": 1.9242329367564184e-05,
      "loss": 0.4866,
      "step": 11599,
      "task_loss": 0.43759697675704956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29865720868110657,
      "epoch": 9.81,
      "learning_rate": 1.923919849718222e-05,
      "loss": 0.4272,
      "step": 11600,
      "task_loss": 0.25117528438568115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37694886326789856,
      "epoch": 9.81,
      "learning_rate": 1.9236067626800254e-05,
      "loss": 0.5007,
      "step": 11601,
      "task_loss": 0.6251943707466125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6062031388282776,
      "epoch": 9.81,
      "learning_rate": 1.9232936756418286e-05,
      "loss": 0.5204,
      "step": 11602,
      "task_loss": 0.16507107019424438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9894158840179443,
      "epoch": 9.81,
      "learning_rate": 1.922980588603632e-05,
      "loss": 0.6728,
      "step": 11603,
      "task_loss": 0.3643621802330017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5071310997009277,
      "epoch": 9.81,
      "learning_rate": 1.9226675015654353e-05,
      "loss": 0.5007,
      "step": 11604,
      "task_loss": 0.4692237377166748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42064419388771057,
      "epoch": 9.81,
      "learning_rate": 1.9223544145272388e-05,
      "loss": 0.4918,
      "step": 11605,
      "task_loss": 0.41767436265945435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3294799327850342,
      "epoch": 9.81,
      "learning_rate": 1.922041327489042e-05,
      "loss": 0.5259,
      "step": 11606,
      "task_loss": 0.6014008522033691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36913594603538513,
      "epoch": 9.81,
      "learning_rate": 1.9217282404508455e-05,
      "loss": 0.5324,
      "step": 11607,
      "task_loss": 0.6401878595352173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6220061779022217,
      "epoch": 9.81,
      "learning_rate": 1.9214151534126487e-05,
      "loss": 0.6252,
      "step": 11608,
      "task_loss": 0.5668118596076965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33942121267318726,
      "epoch": 9.81,
      "learning_rate": 1.9211020663744522e-05,
      "loss": 0.6232,
      "step": 11609,
      "task_loss": 0.33705922961235046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7575415968894958,
      "epoch": 9.81,
      "learning_rate": 1.9207889793362554e-05,
      "loss": 0.6018,
      "step": 11610,
      "task_loss": 0.8695986866950989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2809826731681824,
      "epoch": 9.81,
      "learning_rate": 1.920475892298059e-05,
      "loss": 0.4007,
      "step": 11611,
      "task_loss": 0.5300547480583191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3313601315021515,
      "epoch": 9.82,
      "learning_rate": 1.920162805259862e-05,
      "loss": 0.5764,
      "step": 11612,
      "task_loss": 0.2890830934047699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49127912521362305,
      "epoch": 9.82,
      "learning_rate": 1.9198497182216656e-05,
      "loss": 0.533,
      "step": 11613,
      "task_loss": 0.400774210691452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40472733974456787,
      "epoch": 9.82,
      "learning_rate": 1.919536631183469e-05,
      "loss": 0.5049,
      "step": 11614,
      "task_loss": 0.82468581199646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4780983328819275,
      "epoch": 9.82,
      "learning_rate": 1.9192235441452723e-05,
      "loss": 0.4921,
      "step": 11615,
      "task_loss": 0.9737722277641296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2713300585746765,
      "epoch": 9.82,
      "learning_rate": 1.9189104571070758e-05,
      "loss": 0.4388,
      "step": 11616,
      "task_loss": 0.7067311406135559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25810959935188293,
      "epoch": 9.82,
      "learning_rate": 1.9185973700688793e-05,
      "loss": 0.5488,
      "step": 11617,
      "task_loss": 0.06526412814855576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.653371274471283,
      "epoch": 9.82,
      "learning_rate": 1.918284283030683e-05,
      "loss": 0.3965,
      "step": 11618,
      "task_loss": 0.7719858884811401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6831097602844238,
      "epoch": 9.82,
      "learning_rate": 1.917971195992486e-05,
      "loss": 0.4826,
      "step": 11619,
      "task_loss": 0.6945610046386719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40035974979400635,
      "epoch": 9.82,
      "learning_rate": 1.9176581089542895e-05,
      "loss": 0.4684,
      "step": 11620,
      "task_loss": 1.38874351978302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4912932813167572,
      "epoch": 9.82,
      "learning_rate": 1.9173450219160927e-05,
      "loss": 0.7159,
      "step": 11621,
      "task_loss": 0.48841750621795654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6443482637405396,
      "epoch": 9.82,
      "learning_rate": 1.9170319348778962e-05,
      "loss": 0.6035,
      "step": 11622,
      "task_loss": 0.3873414695262909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4334559142589569,
      "epoch": 9.82,
      "learning_rate": 1.9167188478396994e-05,
      "loss": 0.4711,
      "step": 11623,
      "task_loss": 0.3239089846611023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6895104646682739,
      "epoch": 9.83,
      "learning_rate": 1.916405760801503e-05,
      "loss": 0.5415,
      "step": 11624,
      "task_loss": 1.085261344909668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6037175059318542,
      "epoch": 9.83,
      "learning_rate": 1.9160926737633064e-05,
      "loss": 0.5711,
      "step": 11625,
      "task_loss": 0.40324530005455017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8174339532852173,
      "epoch": 9.83,
      "learning_rate": 1.9157795867251096e-05,
      "loss": 0.6082,
      "step": 11626,
      "task_loss": 0.9434210062026978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35624364018440247,
      "epoch": 9.83,
      "learning_rate": 1.915466499686913e-05,
      "loss": 0.4692,
      "step": 11627,
      "task_loss": 0.5591573119163513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3987756669521332,
      "epoch": 9.83,
      "learning_rate": 1.9151534126487163e-05,
      "loss": 0.5968,
      "step": 11628,
      "task_loss": 1.1687684059143066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4443475008010864,
      "epoch": 9.83,
      "learning_rate": 1.91484032561052e-05,
      "loss": 0.5354,
      "step": 11629,
      "task_loss": 1.0343165397644043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6272701621055603,
      "epoch": 9.83,
      "learning_rate": 1.914527238572323e-05,
      "loss": 0.6106,
      "step": 11630,
      "task_loss": 0.6612398028373718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31788021326065063,
      "epoch": 9.83,
      "learning_rate": 1.9142141515341265e-05,
      "loss": 0.5084,
      "step": 11631,
      "task_loss": 0.17871107161045074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5376238226890564,
      "epoch": 9.83,
      "learning_rate": 1.9139010644959297e-05,
      "loss": 0.4395,
      "step": 11632,
      "task_loss": 0.4230214059352875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4418473243713379,
      "epoch": 9.83,
      "learning_rate": 1.9135879774577332e-05,
      "loss": 0.4025,
      "step": 11633,
      "task_loss": 0.2775084376335144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5347391963005066,
      "epoch": 9.83,
      "learning_rate": 1.9132748904195367e-05,
      "loss": 0.4937,
      "step": 11634,
      "task_loss": 0.35187169909477234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4136130213737488,
      "epoch": 9.83,
      "learning_rate": 1.9129618033813403e-05,
      "loss": 0.4501,
      "step": 11635,
      "task_loss": 0.3466648459434509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6766029000282288,
      "epoch": 9.84,
      "learning_rate": 1.9126487163431434e-05,
      "loss": 0.5412,
      "step": 11636,
      "task_loss": 0.7170143723487854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3744688332080841,
      "epoch": 9.84,
      "learning_rate": 1.912335629304947e-05,
      "loss": 0.4683,
      "step": 11637,
      "task_loss": 1.1521302461624146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8409370183944702,
      "epoch": 9.84,
      "learning_rate": 1.9120225422667505e-05,
      "loss": 0.5236,
      "step": 11638,
      "task_loss": 0.8573271632194519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.334531307220459,
      "epoch": 9.84,
      "learning_rate": 1.9117094552285537e-05,
      "loss": 0.4713,
      "step": 11639,
      "task_loss": 0.4135565757751465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6684764623641968,
      "epoch": 9.84,
      "learning_rate": 1.9113963681903572e-05,
      "loss": 0.4439,
      "step": 11640,
      "task_loss": 0.8059796094894409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3719712197780609,
      "epoch": 9.84,
      "learning_rate": 1.9110832811521603e-05,
      "loss": 0.5351,
      "step": 11641,
      "task_loss": 0.583067774772644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4075293242931366,
      "epoch": 9.84,
      "learning_rate": 1.910770194113964e-05,
      "loss": 0.567,
      "step": 11642,
      "task_loss": 0.371187686920166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3296508193016052,
      "epoch": 9.84,
      "learning_rate": 1.910457107075767e-05,
      "loss": 0.4511,
      "step": 11643,
      "task_loss": 0.1307692527770996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6070318222045898,
      "epoch": 9.84,
      "learning_rate": 1.9101440200375706e-05,
      "loss": 0.5028,
      "step": 11644,
      "task_loss": 0.82576584815979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7037962675094604,
      "epoch": 9.84,
      "learning_rate": 1.9098309329993737e-05,
      "loss": 0.5359,
      "step": 11645,
      "task_loss": 1.251917839050293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6993818283081055,
      "epoch": 9.84,
      "learning_rate": 1.9095178459611773e-05,
      "loss": 0.7712,
      "step": 11646,
      "task_loss": 0.3885155916213989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46423831582069397,
      "epoch": 9.84,
      "learning_rate": 1.9092047589229804e-05,
      "loss": 0.4277,
      "step": 11647,
      "task_loss": 0.28110402822494507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3986390233039856,
      "epoch": 9.85,
      "learning_rate": 1.908891671884784e-05,
      "loss": 0.4214,
      "step": 11648,
      "task_loss": 0.4870525002479553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30507081747055054,
      "epoch": 9.85,
      "learning_rate": 1.9085785848465875e-05,
      "loss": 0.5265,
      "step": 11649,
      "task_loss": 0.11836572736501694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5322054028511047,
      "epoch": 9.85,
      "learning_rate": 1.9082654978083906e-05,
      "loss": 0.466,
      "step": 11650,
      "task_loss": 1.4828978776931763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5156811475753784,
      "epoch": 9.85,
      "learning_rate": 1.907952410770194e-05,
      "loss": 0.4594,
      "step": 11651,
      "task_loss": 0.7437028288841248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44915640354156494,
      "epoch": 9.85,
      "learning_rate": 1.9076393237319977e-05,
      "loss": 0.4448,
      "step": 11652,
      "task_loss": 1.2757439613342285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5807198286056519,
      "epoch": 9.85,
      "learning_rate": 1.9073262366938012e-05,
      "loss": 0.5992,
      "step": 11653,
      "task_loss": 0.7748962640762329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3512771427631378,
      "epoch": 9.85,
      "learning_rate": 1.9070131496556044e-05,
      "loss": 0.4748,
      "step": 11654,
      "task_loss": 1.020880937576294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5941442251205444,
      "epoch": 9.85,
      "learning_rate": 1.906700062617408e-05,
      "loss": 0.5484,
      "step": 11655,
      "task_loss": 0.582425057888031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7293955087661743,
      "epoch": 9.85,
      "learning_rate": 1.906386975579211e-05,
      "loss": 0.5198,
      "step": 11656,
      "task_loss": 1.1509495973587036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6824651956558228,
      "epoch": 9.85,
      "learning_rate": 1.9060738885410146e-05,
      "loss": 0.6582,
      "step": 11657,
      "task_loss": 0.3971060812473297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5371817350387573,
      "epoch": 9.85,
      "learning_rate": 1.9057608015028178e-05,
      "loss": 0.5574,
      "step": 11658,
      "task_loss": 0.7185880541801453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41720718145370483,
      "epoch": 9.85,
      "learning_rate": 1.9054477144646213e-05,
      "loss": 0.4911,
      "step": 11659,
      "task_loss": 0.5411965847015381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8634131550788879,
      "epoch": 9.86,
      "learning_rate": 1.9051346274264245e-05,
      "loss": 0.5785,
      "step": 11660,
      "task_loss": 0.8641926050186157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.70477294921875,
      "epoch": 9.86,
      "learning_rate": 1.904821540388228e-05,
      "loss": 0.4723,
      "step": 11661,
      "task_loss": 1.615020513534546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4454159736633301,
      "epoch": 9.86,
      "learning_rate": 1.9045084533500315e-05,
      "loss": 0.4174,
      "step": 11662,
      "task_loss": 0.5658724308013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7771435976028442,
      "epoch": 9.86,
      "learning_rate": 1.9041953663118347e-05,
      "loss": 0.5999,
      "step": 11663,
      "task_loss": 1.2596251964569092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47270432114601135,
      "epoch": 9.86,
      "learning_rate": 1.9038822792736382e-05,
      "loss": 0.4755,
      "step": 11664,
      "task_loss": 0.8126937747001648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5478535890579224,
      "epoch": 9.86,
      "learning_rate": 1.9035691922354414e-05,
      "loss": 0.5346,
      "step": 11665,
      "task_loss": 0.2695099413394928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47677361965179443,
      "epoch": 9.86,
      "learning_rate": 1.903256105197245e-05,
      "loss": 0.4375,
      "step": 11666,
      "task_loss": 0.9839802384376526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1930397748947144,
      "epoch": 9.86,
      "learning_rate": 1.9029430181590484e-05,
      "loss": 0.6807,
      "step": 11667,
      "task_loss": 1.2367212772369385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4396187663078308,
      "epoch": 9.86,
      "learning_rate": 1.902629931120852e-05,
      "loss": 0.6117,
      "step": 11668,
      "task_loss": 0.8203877210617065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6872769594192505,
      "epoch": 9.86,
      "learning_rate": 1.902316844082655e-05,
      "loss": 0.5027,
      "step": 11669,
      "task_loss": 0.7643510699272156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503201484680176,
      "epoch": 9.86,
      "learning_rate": 1.9020037570444586e-05,
      "loss": 0.5617,
      "step": 11670,
      "task_loss": 0.4945705533027649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3918520510196686,
      "epoch": 9.87,
      "learning_rate": 1.9016906700062618e-05,
      "loss": 0.6168,
      "step": 11671,
      "task_loss": 0.07031655311584473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32385683059692383,
      "epoch": 9.87,
      "learning_rate": 1.9013775829680653e-05,
      "loss": 0.4147,
      "step": 11672,
      "task_loss": 0.5764465928077698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5020001530647278,
      "epoch": 9.87,
      "learning_rate": 1.9010644959298685e-05,
      "loss": 0.4609,
      "step": 11673,
      "task_loss": 0.9338234663009644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7054738998413086,
      "epoch": 9.87,
      "learning_rate": 1.900751408891672e-05,
      "loss": 0.6544,
      "step": 11674,
      "task_loss": 1.5539976358413696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9579525589942932,
      "epoch": 9.87,
      "learning_rate": 1.9004383218534755e-05,
      "loss": 0.6606,
      "step": 11675,
      "task_loss": 1.654561161994934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4573095440864563,
      "epoch": 9.87,
      "learning_rate": 1.9001252348152787e-05,
      "loss": 0.6438,
      "step": 11676,
      "task_loss": 0.970325767993927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3295503258705139,
      "epoch": 9.87,
      "learning_rate": 1.8998121477770822e-05,
      "loss": 0.5734,
      "step": 11677,
      "task_loss": 0.06749876588582993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3778839111328125,
      "epoch": 9.87,
      "learning_rate": 1.8994990607388854e-05,
      "loss": 0.3907,
      "step": 11678,
      "task_loss": 0.5506734251976013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4969003200531006,
      "epoch": 9.87,
      "learning_rate": 1.899185973700689e-05,
      "loss": 0.55,
      "step": 11679,
      "task_loss": 0.9779006838798523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3716694712638855,
      "epoch": 9.87,
      "learning_rate": 1.898872886662492e-05,
      "loss": 0.5839,
      "step": 11680,
      "task_loss": 0.47546854615211487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5105975270271301,
      "epoch": 9.87,
      "learning_rate": 1.8985597996242956e-05,
      "loss": 0.5143,
      "step": 11681,
      "task_loss": 0.28621628880500793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3418923020362854,
      "epoch": 9.87,
      "learning_rate": 1.8982467125860988e-05,
      "loss": 0.4533,
      "step": 11682,
      "task_loss": 0.19986537098884583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5049116015434265,
      "epoch": 9.88,
      "learning_rate": 1.8979336255479023e-05,
      "loss": 0.5808,
      "step": 11683,
      "task_loss": 0.534247100353241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7671142816543579,
      "epoch": 9.88,
      "learning_rate": 1.8976205385097058e-05,
      "loss": 0.5522,
      "step": 11684,
      "task_loss": 0.9490468502044678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5991873741149902,
      "epoch": 9.88,
      "learning_rate": 1.8973074514715093e-05,
      "loss": 0.7618,
      "step": 11685,
      "task_loss": 1.162739634513855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.75941401720047,
      "epoch": 9.88,
      "learning_rate": 1.896994364433313e-05,
      "loss": 0.5908,
      "step": 11686,
      "task_loss": 0.27749398350715637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4548431634902954,
      "epoch": 9.88,
      "learning_rate": 1.896681277395116e-05,
      "loss": 0.4404,
      "step": 11687,
      "task_loss": 0.10448364168405533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5203955769538879,
      "epoch": 9.88,
      "learning_rate": 1.8963681903569195e-05,
      "loss": 0.5176,
      "step": 11688,
      "task_loss": 1.1743535995483398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7890534400939941,
      "epoch": 9.88,
      "learning_rate": 1.8960551033187227e-05,
      "loss": 0.6389,
      "step": 11689,
      "task_loss": 1.1439086198806763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19163915514945984,
      "epoch": 9.88,
      "learning_rate": 1.8957420162805262e-05,
      "loss": 0.4439,
      "step": 11690,
      "task_loss": 0.0605764165520668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4326263666152954,
      "epoch": 9.88,
      "learning_rate": 1.8954289292423294e-05,
      "loss": 0.5058,
      "step": 11691,
      "task_loss": 0.9461544752120972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3897644877433777,
      "epoch": 9.88,
      "learning_rate": 1.895115842204133e-05,
      "loss": 0.6968,
      "step": 11692,
      "task_loss": 0.9366523027420044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5151474475860596,
      "epoch": 9.88,
      "learning_rate": 1.894802755165936e-05,
      "loss": 0.6051,
      "step": 11693,
      "task_loss": 0.5469402074813843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5115368962287903,
      "epoch": 9.88,
      "learning_rate": 1.8944896681277396e-05,
      "loss": 0.4773,
      "step": 11694,
      "task_loss": 0.8160803318023682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7056788206100464,
      "epoch": 9.89,
      "learning_rate": 1.8941765810895428e-05,
      "loss": 0.594,
      "step": 11695,
      "task_loss": 0.3815004825592041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6320429444313049,
      "epoch": 9.89,
      "learning_rate": 1.8938634940513463e-05,
      "loss": 0.6134,
      "step": 11696,
      "task_loss": 0.41797196865081787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6054628491401672,
      "epoch": 9.89,
      "learning_rate": 1.8935504070131495e-05,
      "loss": 0.4766,
      "step": 11697,
      "task_loss": 0.2623986005783081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6233913898468018,
      "epoch": 9.89,
      "learning_rate": 1.893237319974953e-05,
      "loss": 0.6951,
      "step": 11698,
      "task_loss": 1.2117607593536377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6299286484718323,
      "epoch": 9.89,
      "learning_rate": 1.8929242329367565e-05,
      "loss": 0.5079,
      "step": 11699,
      "task_loss": 0.5708884596824646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48938143253326416,
      "epoch": 9.89,
      "learning_rate": 1.8926111458985597e-05,
      "loss": 0.5166,
      "step": 11700,
      "task_loss": 0.549912691116333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27777087688446045,
      "epoch": 9.89,
      "learning_rate": 1.8922980588603632e-05,
      "loss": 0.3503,
      "step": 11701,
      "task_loss": 1.0480424165725708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2659012973308563,
      "epoch": 9.89,
      "learning_rate": 1.8919849718221668e-05,
      "loss": 0.4421,
      "step": 11702,
      "task_loss": 0.4578627347946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5705265998840332,
      "epoch": 9.89,
      "learning_rate": 1.8916718847839703e-05,
      "loss": 0.5251,
      "step": 11703,
      "task_loss": 0.7417893409729004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9203222393989563,
      "epoch": 9.89,
      "learning_rate": 1.8913587977457734e-05,
      "loss": 0.5766,
      "step": 11704,
      "task_loss": 1.2614158391952515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6709079146385193,
      "epoch": 9.89,
      "learning_rate": 1.891045710707577e-05,
      "loss": 0.6761,
      "step": 11705,
      "task_loss": 0.5382978320121765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3294762969017029,
      "epoch": 9.89,
      "learning_rate": 1.89073262366938e-05,
      "loss": 0.5423,
      "step": 11706,
      "task_loss": 0.09254828840494156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6487944722175598,
      "epoch": 9.9,
      "learning_rate": 1.8904195366311837e-05,
      "loss": 0.6204,
      "step": 11707,
      "task_loss": 0.739871621131897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6824483871459961,
      "epoch": 9.9,
      "learning_rate": 1.890106449592987e-05,
      "loss": 0.6486,
      "step": 11708,
      "task_loss": 1.5229136943817139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5428893566131592,
      "epoch": 9.9,
      "learning_rate": 1.8897933625547904e-05,
      "loss": 0.7813,
      "step": 11709,
      "task_loss": 0.5793831944465637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293118000030518,
      "epoch": 9.9,
      "learning_rate": 1.8894802755165935e-05,
      "loss": 0.6736,
      "step": 11710,
      "task_loss": 0.8805944919586182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5093080997467041,
      "epoch": 9.9,
      "learning_rate": 1.889167188478397e-05,
      "loss": 0.5526,
      "step": 11711,
      "task_loss": 1.0464494228363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.264046847820282,
      "epoch": 9.9,
      "learning_rate": 1.8888541014402006e-05,
      "loss": 0.4012,
      "step": 11712,
      "task_loss": 0.43050819635391235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6901537179946899,
      "epoch": 9.9,
      "learning_rate": 1.8885410144020037e-05,
      "loss": 0.7145,
      "step": 11713,
      "task_loss": 0.4162661135196686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6292136907577515,
      "epoch": 9.9,
      "learning_rate": 1.8882279273638073e-05,
      "loss": 0.5291,
      "step": 11714,
      "task_loss": 0.871176540851593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4616739749908447,
      "epoch": 9.9,
      "learning_rate": 1.8879148403256104e-05,
      "loss": 0.5026,
      "step": 11715,
      "task_loss": 0.728681743144989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5086719989776611,
      "epoch": 9.9,
      "learning_rate": 1.887601753287414e-05,
      "loss": 0.4575,
      "step": 11716,
      "task_loss": 0.6137264370918274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6728965044021606,
      "epoch": 9.9,
      "learning_rate": 1.887288666249217e-05,
      "loss": 0.7244,
      "step": 11717,
      "task_loss": 0.782421886920929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5934192538261414,
      "epoch": 9.9,
      "learning_rate": 1.8869755792110206e-05,
      "loss": 0.4614,
      "step": 11718,
      "task_loss": 1.1765084266662598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4801115393638611,
      "epoch": 9.91,
      "learning_rate": 1.886662492172824e-05,
      "loss": 0.6468,
      "step": 11719,
      "task_loss": 0.38565534353256226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8073398470878601,
      "epoch": 9.91,
      "learning_rate": 1.8863494051346277e-05,
      "loss": 0.5934,
      "step": 11720,
      "task_loss": 1.2019716501235962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5098705291748047,
      "epoch": 9.91,
      "learning_rate": 1.886036318096431e-05,
      "loss": 0.4972,
      "step": 11721,
      "task_loss": 1.0211752653121948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3643978536128998,
      "epoch": 9.91,
      "learning_rate": 1.8857232310582344e-05,
      "loss": 0.5838,
      "step": 11722,
      "task_loss": 1.4557913541793823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34722352027893066,
      "epoch": 9.91,
      "learning_rate": 1.885410144020038e-05,
      "loss": 0.6114,
      "step": 11723,
      "task_loss": 0.25257423520088196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3816722631454468,
      "epoch": 9.91,
      "learning_rate": 1.885097056981841e-05,
      "loss": 0.5181,
      "step": 11724,
      "task_loss": 0.8350476026535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9122496843338013,
      "epoch": 9.91,
      "learning_rate": 1.8847839699436446e-05,
      "loss": 0.6005,
      "step": 11725,
      "task_loss": 0.45714980363845825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34653598070144653,
      "epoch": 9.91,
      "learning_rate": 1.8844708829054478e-05,
      "loss": 0.4141,
      "step": 11726,
      "task_loss": 0.2567834258079529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8041822910308838,
      "epoch": 9.91,
      "learning_rate": 1.8841577958672513e-05,
      "loss": 0.5451,
      "step": 11727,
      "task_loss": 0.7415429949760437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5322411060333252,
      "epoch": 9.91,
      "learning_rate": 1.8838447088290545e-05,
      "loss": 0.612,
      "step": 11728,
      "task_loss": 1.3931331634521484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8586335778236389,
      "epoch": 9.91,
      "learning_rate": 1.883531621790858e-05,
      "loss": 0.6408,
      "step": 11729,
      "task_loss": 0.9485067129135132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5577413439750671,
      "epoch": 9.91,
      "learning_rate": 1.883218534752661e-05,
      "loss": 0.5159,
      "step": 11730,
      "task_loss": 1.0154595375061035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434437394142151,
      "epoch": 9.92,
      "learning_rate": 1.8829054477144647e-05,
      "loss": 0.6714,
      "step": 11731,
      "task_loss": 0.738750159740448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6281569004058838,
      "epoch": 9.92,
      "learning_rate": 1.882592360676268e-05,
      "loss": 0.488,
      "step": 11732,
      "task_loss": 1.6868007183074951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7241640686988831,
      "epoch": 9.92,
      "learning_rate": 1.8822792736380714e-05,
      "loss": 0.6329,
      "step": 11733,
      "task_loss": 0.7312030792236328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.333202064037323,
      "epoch": 9.92,
      "learning_rate": 1.881966186599875e-05,
      "loss": 0.4861,
      "step": 11734,
      "task_loss": 0.4666426479816437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6310888528823853,
      "epoch": 9.92,
      "learning_rate": 1.881653099561678e-05,
      "loss": 0.549,
      "step": 11735,
      "task_loss": 0.4868190586566925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3222123086452484,
      "epoch": 9.92,
      "learning_rate": 1.8813400125234816e-05,
      "loss": 0.4741,
      "step": 11736,
      "task_loss": 0.07343541085720062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6123582720756531,
      "epoch": 9.92,
      "learning_rate": 1.881026925485285e-05,
      "loss": 0.6344,
      "step": 11737,
      "task_loss": 0.65635085105896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6079263687133789,
      "epoch": 9.92,
      "learning_rate": 1.8807138384470886e-05,
      "loss": 0.5723,
      "step": 11738,
      "task_loss": 0.3748495280742645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6696275472640991,
      "epoch": 9.92,
      "learning_rate": 1.8804007514088918e-05,
      "loss": 0.6847,
      "step": 11739,
      "task_loss": 0.8432466983795166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.363864541053772,
      "epoch": 9.92,
      "learning_rate": 1.8800876643706953e-05,
      "loss": 0.5845,
      "step": 11740,
      "task_loss": 0.46451112627983093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46929818391799927,
      "epoch": 9.92,
      "learning_rate": 1.8797745773324985e-05,
      "loss": 0.4333,
      "step": 11741,
      "task_loss": 0.5042869448661804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3879769444465637,
      "epoch": 9.93,
      "learning_rate": 1.879461490294302e-05,
      "loss": 0.4926,
      "step": 11742,
      "task_loss": 0.7122860550880432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3491581380367279,
      "epoch": 9.93,
      "learning_rate": 1.8791484032561052e-05,
      "loss": 0.5514,
      "step": 11743,
      "task_loss": 0.5618366003036499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6292937994003296,
      "epoch": 9.93,
      "learning_rate": 1.8788353162179087e-05,
      "loss": 0.5626,
      "step": 11744,
      "task_loss": 0.3628067970275879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9676641821861267,
      "epoch": 9.93,
      "learning_rate": 1.878522229179712e-05,
      "loss": 0.6863,
      "step": 11745,
      "task_loss": 1.1600873470306396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187219381332397,
      "epoch": 9.93,
      "learning_rate": 1.8782091421415154e-05,
      "loss": 0.6204,
      "step": 11746,
      "task_loss": 1.3426660299301147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9243628978729248,
      "epoch": 9.93,
      "learning_rate": 1.8778960551033186e-05,
      "loss": 0.7063,
      "step": 11747,
      "task_loss": 0.722308874130249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27294445037841797,
      "epoch": 9.93,
      "learning_rate": 1.877582968065122e-05,
      "loss": 0.672,
      "step": 11748,
      "task_loss": 1.0869640111923218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7464796304702759,
      "epoch": 9.93,
      "learning_rate": 1.8772698810269256e-05,
      "loss": 0.4275,
      "step": 11749,
      "task_loss": 1.504287600517273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6274821162223816,
      "epoch": 9.93,
      "learning_rate": 1.8769567939887288e-05,
      "loss": 0.6056,
      "step": 11750,
      "task_loss": 1.0555065870285034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34639567136764526,
      "epoch": 9.93,
      "learning_rate": 1.8766437069505323e-05,
      "loss": 0.4342,
      "step": 11751,
      "task_loss": 1.2775434255599976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2621229588985443,
      "epoch": 9.93,
      "learning_rate": 1.8763306199123358e-05,
      "loss": 0.5517,
      "step": 11752,
      "task_loss": 0.031082237139344215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7995820045471191,
      "epoch": 9.93,
      "learning_rate": 1.8760175328741393e-05,
      "loss": 0.4929,
      "step": 11753,
      "task_loss": 0.8363316059112549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43546241521835327,
      "epoch": 9.94,
      "learning_rate": 1.8757044458359425e-05,
      "loss": 0.4623,
      "step": 11754,
      "task_loss": 0.23944571614265442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47052475810050964,
      "epoch": 9.94,
      "learning_rate": 1.875391358797746e-05,
      "loss": 0.4049,
      "step": 11755,
      "task_loss": 0.187409445643425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4224753677845001,
      "epoch": 9.94,
      "learning_rate": 1.8750782717595492e-05,
      "loss": 0.5641,
      "step": 11756,
      "task_loss": 0.5005813241004944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5649669766426086,
      "epoch": 9.94,
      "learning_rate": 1.8747651847213527e-05,
      "loss": 0.5373,
      "step": 11757,
      "task_loss": 0.2670878767967224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.554460346698761,
      "epoch": 9.94,
      "learning_rate": 1.874452097683156e-05,
      "loss": 0.6564,
      "step": 11758,
      "task_loss": 0.37876802682876587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5926956534385681,
      "epoch": 9.94,
      "learning_rate": 1.8741390106449594e-05,
      "loss": 0.4811,
      "step": 11759,
      "task_loss": 0.6162615418434143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8007664084434509,
      "epoch": 9.94,
      "learning_rate": 1.873825923606763e-05,
      "loss": 0.488,
      "step": 11760,
      "task_loss": 0.27505552768707275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.626805305480957,
      "epoch": 9.94,
      "learning_rate": 1.873512836568566e-05,
      "loss": 0.5527,
      "step": 11761,
      "task_loss": 0.32076558470726013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3736714720726013,
      "epoch": 9.94,
      "learning_rate": 1.8731997495303696e-05,
      "loss": 0.4673,
      "step": 11762,
      "task_loss": 0.22960704565048218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5448825359344482,
      "epoch": 9.94,
      "learning_rate": 1.8728866624921728e-05,
      "loss": 0.5179,
      "step": 11763,
      "task_loss": 0.4545641541481018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4515939950942993,
      "epoch": 9.94,
      "learning_rate": 1.8725735754539763e-05,
      "loss": 0.6344,
      "step": 11764,
      "task_loss": 0.3224949836730957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3991573452949524,
      "epoch": 9.94,
      "learning_rate": 1.8722604884157795e-05,
      "loss": 0.4559,
      "step": 11765,
      "task_loss": 0.45076531171798706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4022199511528015,
      "epoch": 9.95,
      "learning_rate": 1.871947401377583e-05,
      "loss": 0.4489,
      "step": 11766,
      "task_loss": 0.33653396368026733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4383222460746765,
      "epoch": 9.95,
      "learning_rate": 1.8716343143393862e-05,
      "loss": 0.4107,
      "step": 11767,
      "task_loss": 0.08910595625638962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4132869243621826,
      "epoch": 9.95,
      "learning_rate": 1.8713212273011897e-05,
      "loss": 0.5718,
      "step": 11768,
      "task_loss": 0.2924239933490753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3181550204753876,
      "epoch": 9.95,
      "learning_rate": 1.8710081402629932e-05,
      "loss": 0.4286,
      "step": 11769,
      "task_loss": 0.3659997880458832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7958353757858276,
      "epoch": 9.95,
      "learning_rate": 1.8706950532247968e-05,
      "loss": 0.5401,
      "step": 11770,
      "task_loss": 0.428263783454895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8368152379989624,
      "epoch": 9.95,
      "learning_rate": 1.8703819661866e-05,
      "loss": 0.5113,
      "step": 11771,
      "task_loss": 1.0283136367797852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40531042218208313,
      "epoch": 9.95,
      "learning_rate": 1.8700688791484034e-05,
      "loss": 0.4952,
      "step": 11772,
      "task_loss": 1.3702152967453003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28863608837127686,
      "epoch": 9.95,
      "learning_rate": 1.869755792110207e-05,
      "loss": 0.4825,
      "step": 11773,
      "task_loss": 0.1701551228761673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8097884058952332,
      "epoch": 9.95,
      "learning_rate": 1.86944270507201e-05,
      "loss": 0.4874,
      "step": 11774,
      "task_loss": 1.4247848987579346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37122994661331177,
      "epoch": 9.95,
      "learning_rate": 1.8691296180338137e-05,
      "loss": 0.5906,
      "step": 11775,
      "task_loss": 1.2842862606048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2793921232223511,
      "epoch": 9.95,
      "learning_rate": 1.868816530995617e-05,
      "loss": 0.5722,
      "step": 11776,
      "task_loss": 0.9509588479995728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3793666958808899,
      "epoch": 9.95,
      "learning_rate": 1.8685034439574204e-05,
      "loss": 0.4974,
      "step": 11777,
      "task_loss": 0.9551975727081299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4627087116241455,
      "epoch": 9.96,
      "learning_rate": 1.8681903569192235e-05,
      "loss": 0.5431,
      "step": 11778,
      "task_loss": 0.7242524027824402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3095799684524536,
      "epoch": 9.96,
      "learning_rate": 1.867877269881027e-05,
      "loss": 0.4391,
      "step": 11779,
      "task_loss": 0.697620153427124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.568248987197876,
      "epoch": 9.96,
      "learning_rate": 1.8675641828428302e-05,
      "loss": 0.7444,
      "step": 11780,
      "task_loss": 0.638322114944458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6804888248443604,
      "epoch": 9.96,
      "learning_rate": 1.8672510958046337e-05,
      "loss": 0.4696,
      "step": 11781,
      "task_loss": 0.44510912895202637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41400861740112305,
      "epoch": 9.96,
      "learning_rate": 1.866938008766437e-05,
      "loss": 0.4956,
      "step": 11782,
      "task_loss": 0.5615767240524292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49559861421585083,
      "epoch": 9.96,
      "learning_rate": 1.8666249217282404e-05,
      "loss": 0.4938,
      "step": 11783,
      "task_loss": 0.7224570512771606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30016028881073,
      "epoch": 9.96,
      "learning_rate": 1.866311834690044e-05,
      "loss": 0.4353,
      "step": 11784,
      "task_loss": 0.392351359128952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6252831220626831,
      "epoch": 9.96,
      "learning_rate": 1.865998747651847e-05,
      "loss": 0.8383,
      "step": 11785,
      "task_loss": 0.7282399535179138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44238409399986267,
      "epoch": 9.96,
      "learning_rate": 1.8656856606136507e-05,
      "loss": 0.4082,
      "step": 11786,
      "task_loss": 0.07588744163513184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45960357785224915,
      "epoch": 9.96,
      "learning_rate": 1.8653725735754542e-05,
      "loss": 0.4903,
      "step": 11787,
      "task_loss": 0.26694414019584656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22507253289222717,
      "epoch": 9.96,
      "learning_rate": 1.8650594865372577e-05,
      "loss": 0.4311,
      "step": 11788,
      "task_loss": 0.6326087117195129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44818174839019775,
      "epoch": 9.96,
      "learning_rate": 1.864746399499061e-05,
      "loss": 0.4934,
      "step": 11789,
      "task_loss": 0.11435481905937195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38110971450805664,
      "epoch": 9.97,
      "learning_rate": 1.8644333124608644e-05,
      "loss": 0.5092,
      "step": 11790,
      "task_loss": 0.1679525524377823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48966848850250244,
      "epoch": 9.97,
      "learning_rate": 1.8641202254226676e-05,
      "loss": 0.4204,
      "step": 11791,
      "task_loss": 0.5117335915565491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28338634967803955,
      "epoch": 9.97,
      "learning_rate": 1.863807138384471e-05,
      "loss": 0.3713,
      "step": 11792,
      "task_loss": 0.09126608073711395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6019378304481506,
      "epoch": 9.97,
      "learning_rate": 1.8634940513462743e-05,
      "loss": 0.4705,
      "step": 11793,
      "task_loss": 0.29883450269699097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35695675015449524,
      "epoch": 9.97,
      "learning_rate": 1.8631809643080778e-05,
      "loss": 0.4897,
      "step": 11794,
      "task_loss": 0.5929141044616699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6013560891151428,
      "epoch": 9.97,
      "learning_rate": 1.862867877269881e-05,
      "loss": 0.6065,
      "step": 11795,
      "task_loss": 1.1748204231262207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4136088490486145,
      "epoch": 9.97,
      "learning_rate": 1.8625547902316845e-05,
      "loss": 0.5201,
      "step": 11796,
      "task_loss": 0.7465836405754089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23197601735591888,
      "epoch": 9.97,
      "learning_rate": 1.862241703193488e-05,
      "loss": 0.4645,
      "step": 11797,
      "task_loss": 0.6430725455284119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.713988184928894,
      "epoch": 9.97,
      "learning_rate": 1.861928616155291e-05,
      "loss": 0.5508,
      "step": 11798,
      "task_loss": 0.6547066569328308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196396708488464,
      "epoch": 9.97,
      "learning_rate": 1.8616155291170947e-05,
      "loss": 0.5612,
      "step": 11799,
      "task_loss": 1.2492334842681885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3766554296016693,
      "epoch": 9.97,
      "learning_rate": 1.861302442078898e-05,
      "loss": 0.4772,
      "step": 11800,
      "task_loss": 0.1991298943758011
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5182839035987854,
      "epoch": 9.97,
      "learning_rate": 1.8609893550407014e-05,
      "loss": 0.4523,
      "step": 11801,
      "task_loss": 0.4825158417224884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3331873118877411,
      "epoch": 9.98,
      "learning_rate": 1.8606762680025046e-05,
      "loss": 0.3847,
      "step": 11802,
      "task_loss": 0.40961912274360657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5574594736099243,
      "epoch": 9.98,
      "learning_rate": 1.860363180964308e-05,
      "loss": 0.6035,
      "step": 11803,
      "task_loss": 0.8215177655220032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5494710803031921,
      "epoch": 9.98,
      "learning_rate": 1.8600500939261116e-05,
      "loss": 0.3717,
      "step": 11804,
      "task_loss": 0.5676952600479126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42646145820617676,
      "epoch": 9.98,
      "learning_rate": 1.859737006887915e-05,
      "loss": 0.6016,
      "step": 11805,
      "task_loss": 0.5025997757911682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6166901588439941,
      "epoch": 9.98,
      "learning_rate": 1.8594239198497183e-05,
      "loss": 0.456,
      "step": 11806,
      "task_loss": 0.3977431654930115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4038289785385132,
      "epoch": 9.98,
      "learning_rate": 1.8591108328115218e-05,
      "loss": 0.4677,
      "step": 11807,
      "task_loss": 0.40876325964927673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8574131727218628,
      "epoch": 9.98,
      "learning_rate": 1.858797745773325e-05,
      "loss": 0.5171,
      "step": 11808,
      "task_loss": 0.36882442235946655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4938904643058777,
      "epoch": 9.98,
      "learning_rate": 1.8584846587351285e-05,
      "loss": 0.4648,
      "step": 11809,
      "task_loss": 0.4225209653377533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.717519998550415,
      "epoch": 9.98,
      "learning_rate": 1.858171571696932e-05,
      "loss": 0.6975,
      "step": 11810,
      "task_loss": 0.996735692024231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.724993109703064,
      "epoch": 9.98,
      "learning_rate": 1.8578584846587352e-05,
      "loss": 0.5377,
      "step": 11811,
      "task_loss": 1.1715377569198608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.62744140625,
      "epoch": 9.98,
      "learning_rate": 1.8575453976205387e-05,
      "loss": 0.5704,
      "step": 11812,
      "task_loss": 0.4236169159412384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21306070685386658,
      "epoch": 9.99,
      "learning_rate": 1.857232310582342e-05,
      "loss": 0.4849,
      "step": 11813,
      "task_loss": 0.43288013339042664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5285851955413818,
      "epoch": 9.99,
      "learning_rate": 1.8569192235441454e-05,
      "loss": 0.4933,
      "step": 11814,
      "task_loss": 0.2645236551761627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33192771673202515,
      "epoch": 9.99,
      "learning_rate": 1.8566061365059486e-05,
      "loss": 0.5465,
      "step": 11815,
      "task_loss": 0.27421340346336365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6576056480407715,
      "epoch": 9.99,
      "learning_rate": 1.856293049467752e-05,
      "loss": 0.6887,
      "step": 11816,
      "task_loss": 1.8824236392974854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35208582878112793,
      "epoch": 9.99,
      "learning_rate": 1.8559799624295553e-05,
      "loss": 0.4135,
      "step": 11817,
      "task_loss": 0.6364741325378418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4812324047088623,
      "epoch": 9.99,
      "learning_rate": 1.8556668753913588e-05,
      "loss": 0.4902,
      "step": 11818,
      "task_loss": 0.6208165884017944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28622639179229736,
      "epoch": 9.99,
      "learning_rate": 1.8553537883531623e-05,
      "loss": 0.3529,
      "step": 11819,
      "task_loss": 0.023107778280973434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4559904932975769,
      "epoch": 9.99,
      "learning_rate": 1.8550407013149658e-05,
      "loss": 0.5327,
      "step": 11820,
      "task_loss": 1.1600409746170044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5496419668197632,
      "epoch": 9.99,
      "learning_rate": 1.854727614276769e-05,
      "loss": 0.4649,
      "step": 11821,
      "task_loss": 0.4436890184879303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5788514614105225,
      "epoch": 9.99,
      "learning_rate": 1.8544145272385725e-05,
      "loss": 0.4754,
      "step": 11822,
      "task_loss": 0.8245562314987183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.242612823843956,
      "epoch": 9.99,
      "learning_rate": 1.854101440200376e-05,
      "loss": 0.5781,
      "step": 11823,
      "task_loss": 0.061053112149238586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6755926012992859,
      "epoch": 9.99,
      "learning_rate": 1.8537883531621792e-05,
      "loss": 0.5082,
      "step": 11824,
      "task_loss": 1.1956509351730347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2775809168815613,
      "epoch": 10.0,
      "learning_rate": 1.8534752661239827e-05,
      "loss": 0.4623,
      "step": 11825,
      "task_loss": 0.0929676815867424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6108213067054749,
      "epoch": 10.0,
      "learning_rate": 1.853162179085786e-05,
      "loss": 0.5291,
      "step": 11826,
      "task_loss": 0.6461613178253174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39011693000793457,
      "epoch": 10.0,
      "learning_rate": 1.8528490920475894e-05,
      "loss": 0.5367,
      "step": 11827,
      "task_loss": 1.197256088256836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7376540303230286,
      "epoch": 10.0,
      "learning_rate": 1.8525360050093926e-05,
      "loss": 0.513,
      "step": 11828,
      "task_loss": 0.9222686886787415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5071805715560913,
      "epoch": 10.0,
      "learning_rate": 1.852222917971196e-05,
      "loss": 0.5587,
      "step": 11829,
      "task_loss": 0.86247318983078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39048558473587036,
      "epoch": 10.0,
      "learning_rate": 1.8519098309329993e-05,
      "loss": 0.5477,
      "step": 11830,
      "task_loss": 1.0019280910491943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.573614239692688,
      "epoch": 10.0,
      "learning_rate": 1.8515967438948028e-05,
      "loss": 1.0209,
      "step": 11831,
      "task_loss": 0.5039496421813965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0122331380844116,
      "epoch": 10.0,
      "learning_rate": 1.851283656856606e-05,
      "loss": 0.545,
      "step": 11832,
      "task_loss": 1.4548113346099854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6015266180038452,
      "epoch": 10.0,
      "learning_rate": 1.8509705698184095e-05,
      "loss": 0.5483,
      "step": 11833,
      "task_loss": 0.9096762537956238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.519451379776001,
      "epoch": 10.0,
      "learning_rate": 1.850657482780213e-05,
      "loss": 0.6555,
      "step": 11834,
      "task_loss": 0.8040266633033752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6428947448730469,
      "epoch": 10.0,
      "learning_rate": 1.8503443957420162e-05,
      "loss": 0.5459,
      "step": 11835,
      "task_loss": 1.3019704818725586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4378812611103058,
      "epoch": 10.01,
      "learning_rate": 1.8500313087038197e-05,
      "loss": 0.572,
      "step": 11836,
      "task_loss": 0.2593410611152649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4471648931503296,
      "epoch": 10.01,
      "learning_rate": 1.8497182216656232e-05,
      "loss": 0.4662,
      "step": 11837,
      "task_loss": 0.3572514057159424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35012274980545044,
      "epoch": 10.01,
      "learning_rate": 1.8494051346274268e-05,
      "loss": 0.51,
      "step": 11838,
      "task_loss": 0.7921426892280579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3982032537460327,
      "epoch": 10.01,
      "learning_rate": 1.84909204758923e-05,
      "loss": 0.6048,
      "step": 11839,
      "task_loss": 0.4389876425266266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2256946861743927,
      "epoch": 10.01,
      "learning_rate": 1.8487789605510335e-05,
      "loss": 0.4633,
      "step": 11840,
      "task_loss": 0.39759141206741333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3144148290157318,
      "epoch": 10.01,
      "learning_rate": 1.8484658735128366e-05,
      "loss": 0.5446,
      "step": 11841,
      "task_loss": 0.3085957467556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4704146385192871,
      "epoch": 10.01,
      "learning_rate": 1.84815278647464e-05,
      "loss": 0.4586,
      "step": 11842,
      "task_loss": 0.20664894580841064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34629982709884644,
      "epoch": 10.01,
      "learning_rate": 1.8478396994364433e-05,
      "loss": 0.4897,
      "step": 11843,
      "task_loss": 0.6387989521026611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7815293669700623,
      "epoch": 10.01,
      "learning_rate": 1.847526612398247e-05,
      "loss": 0.6093,
      "step": 11844,
      "task_loss": 1.727777361869812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4518944025039673,
      "epoch": 10.01,
      "learning_rate": 1.84721352536005e-05,
      "loss": 0.4962,
      "step": 11845,
      "task_loss": 0.31168121099472046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8797907829284668,
      "epoch": 10.01,
      "learning_rate": 1.8469004383218535e-05,
      "loss": 0.6421,
      "step": 11846,
      "task_loss": 1.1763713359832764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36543023586273193,
      "epoch": 10.01,
      "learning_rate": 1.846587351283657e-05,
      "loss": 0.6842,
      "step": 11847,
      "task_loss": 0.04626606032252312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.943684458732605,
      "epoch": 10.02,
      "learning_rate": 1.8462742642454602e-05,
      "loss": 0.628,
      "step": 11848,
      "task_loss": 1.1483348608016968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.348634272813797,
      "epoch": 10.02,
      "learning_rate": 1.8459611772072637e-05,
      "loss": 0.5683,
      "step": 11849,
      "task_loss": 0.7357624173164368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4989299178123474,
      "epoch": 10.02,
      "learning_rate": 1.845648090169067e-05,
      "loss": 0.5808,
      "step": 11850,
      "task_loss": 1.176228642463684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5001161098480225,
      "epoch": 10.02,
      "learning_rate": 1.8453350031308704e-05,
      "loss": 0.4869,
      "step": 11851,
      "task_loss": 1.078476905822754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4927525222301483,
      "epoch": 10.02,
      "learning_rate": 1.8450219160926736e-05,
      "loss": 0.4741,
      "step": 11852,
      "task_loss": 0.7335951924324036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4639641046524048,
      "epoch": 10.02,
      "learning_rate": 1.844708829054477e-05,
      "loss": 0.5683,
      "step": 11853,
      "task_loss": 0.7101012468338013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27075132727622986,
      "epoch": 10.02,
      "learning_rate": 1.8443957420162807e-05,
      "loss": 0.4864,
      "step": 11854,
      "task_loss": 0.6216970086097717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2400934100151062,
      "epoch": 10.02,
      "learning_rate": 1.8440826549780842e-05,
      "loss": 0.3966,
      "step": 11855,
      "task_loss": 0.5425400137901306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5233400464057922,
      "epoch": 10.02,
      "learning_rate": 1.8437695679398874e-05,
      "loss": 0.4811,
      "step": 11856,
      "task_loss": 0.8149230480194092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2610895335674286,
      "epoch": 10.02,
      "learning_rate": 1.843456480901691e-05,
      "loss": 0.3849,
      "step": 11857,
      "task_loss": 0.24298550188541412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4431195557117462,
      "epoch": 10.02,
      "learning_rate": 1.8431433938634944e-05,
      "loss": 0.4412,
      "step": 11858,
      "task_loss": 1.0330628156661987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6324293613433838,
      "epoch": 10.02,
      "learning_rate": 1.8428303068252976e-05,
      "loss": 0.5947,
      "step": 11859,
      "task_loss": 0.7978057265281677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2642650604248047,
      "epoch": 10.03,
      "learning_rate": 1.842517219787101e-05,
      "loss": 0.4966,
      "step": 11860,
      "task_loss": 0.15288308262825012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5137324333190918,
      "epoch": 10.03,
      "learning_rate": 1.8422041327489043e-05,
      "loss": 0.3964,
      "step": 11861,
      "task_loss": 0.2097819596529007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5943300724029541,
      "epoch": 10.03,
      "learning_rate": 1.8418910457107078e-05,
      "loss": 0.5667,
      "step": 11862,
      "task_loss": 0.66886967420578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4728262424468994,
      "epoch": 10.03,
      "learning_rate": 1.841577958672511e-05,
      "loss": 0.6727,
      "step": 11863,
      "task_loss": 0.33133354783058167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7342443466186523,
      "epoch": 10.03,
      "learning_rate": 1.8412648716343145e-05,
      "loss": 0.4155,
      "step": 11864,
      "task_loss": 0.9448426365852356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38220518827438354,
      "epoch": 10.03,
      "learning_rate": 1.8409517845961176e-05,
      "loss": 0.4854,
      "step": 11865,
      "task_loss": 0.14742380380630493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.522541344165802,
      "epoch": 10.03,
      "learning_rate": 1.840638697557921e-05,
      "loss": 0.4112,
      "step": 11866,
      "task_loss": 0.6054068803787231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3673941195011139,
      "epoch": 10.03,
      "learning_rate": 1.8403256105197243e-05,
      "loss": 0.4267,
      "step": 11867,
      "task_loss": 1.269416332244873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8133429884910583,
      "epoch": 10.03,
      "learning_rate": 1.840012523481528e-05,
      "loss": 0.6918,
      "step": 11868,
      "task_loss": 0.9615734815597534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4054149389266968,
      "epoch": 10.03,
      "learning_rate": 1.839699436443331e-05,
      "loss": 0.4636,
      "step": 11869,
      "task_loss": 0.043320443481206894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5212281346321106,
      "epoch": 10.03,
      "learning_rate": 1.8393863494051346e-05,
      "loss": 0.5379,
      "step": 11870,
      "task_loss": 1.0919591188430786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3338669240474701,
      "epoch": 10.03,
      "learning_rate": 1.839073262366938e-05,
      "loss": 0.5319,
      "step": 11871,
      "task_loss": 1.1334413290023804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4621918797492981,
      "epoch": 10.04,
      "learning_rate": 1.8387601753287416e-05,
      "loss": 0.5888,
      "step": 11872,
      "task_loss": 1.0532444715499878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5453698635101318,
      "epoch": 10.04,
      "learning_rate": 1.838447088290545e-05,
      "loss": 0.4478,
      "step": 11873,
      "task_loss": 0.7809507846832275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4258708953857422,
      "epoch": 10.04,
      "learning_rate": 1.8381340012523483e-05,
      "loss": 0.5177,
      "step": 11874,
      "task_loss": 0.13625706732273102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6970002055168152,
      "epoch": 10.04,
      "learning_rate": 1.8378209142141518e-05,
      "loss": 0.6418,
      "step": 11875,
      "task_loss": 1.2745261192321777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4338301420211792,
      "epoch": 10.04,
      "learning_rate": 1.837507827175955e-05,
      "loss": 0.5058,
      "step": 11876,
      "task_loss": 0.4660428464412689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3863411247730255,
      "epoch": 10.04,
      "learning_rate": 1.8371947401377585e-05,
      "loss": 0.5034,
      "step": 11877,
      "task_loss": 0.46990084648132324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6842662692070007,
      "epoch": 10.04,
      "learning_rate": 1.8368816530995617e-05,
      "loss": 0.6167,
      "step": 11878,
      "task_loss": 1.072363257408142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6997926235198975,
      "epoch": 10.04,
      "learning_rate": 1.8365685660613652e-05,
      "loss": 0.6171,
      "step": 11879,
      "task_loss": 1.1311322450637817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5067988038063049,
      "epoch": 10.04,
      "learning_rate": 1.8362554790231684e-05,
      "loss": 0.4079,
      "step": 11880,
      "task_loss": 0.27674242854118347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34035414457321167,
      "epoch": 10.04,
      "learning_rate": 1.835942391984972e-05,
      "loss": 0.4632,
      "step": 11881,
      "task_loss": 0.18859435617923737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5251001119613647,
      "epoch": 10.04,
      "learning_rate": 1.8356293049467754e-05,
      "loss": 0.4955,
      "step": 11882,
      "task_loss": 0.5429094433784485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38952159881591797,
      "epoch": 10.04,
      "learning_rate": 1.8353162179085786e-05,
      "loss": 0.5652,
      "step": 11883,
      "task_loss": 0.38006290793418884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5447397232055664,
      "epoch": 10.05,
      "learning_rate": 1.835003130870382e-05,
      "loss": 0.5162,
      "step": 11884,
      "task_loss": 0.9888135194778442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4869982600212097,
      "epoch": 10.05,
      "learning_rate": 1.8346900438321853e-05,
      "loss": 0.5098,
      "step": 11885,
      "task_loss": 0.6297141909599304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4317600131034851,
      "epoch": 10.05,
      "learning_rate": 1.8343769567939888e-05,
      "loss": 0.5166,
      "step": 11886,
      "task_loss": 0.3621313273906708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38352957367897034,
      "epoch": 10.05,
      "learning_rate": 1.834063869755792e-05,
      "loss": 0.434,
      "step": 11887,
      "task_loss": 0.33340156078338623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5041660070419312,
      "epoch": 10.05,
      "learning_rate": 1.8337507827175955e-05,
      "loss": 0.5573,
      "step": 11888,
      "task_loss": 0.3025062680244446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5290478467941284,
      "epoch": 10.05,
      "learning_rate": 1.833437695679399e-05,
      "loss": 0.5301,
      "step": 11889,
      "task_loss": 0.6290261149406433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43631699681282043,
      "epoch": 10.05,
      "learning_rate": 1.8331246086412025e-05,
      "loss": 0.4709,
      "step": 11890,
      "task_loss": 0.9419873952865601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37002548575401306,
      "epoch": 10.05,
      "learning_rate": 1.8328115216030057e-05,
      "loss": 0.5224,
      "step": 11891,
      "task_loss": 1.400595784187317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35538381338119507,
      "epoch": 10.05,
      "learning_rate": 1.8324984345648092e-05,
      "loss": 0.5548,
      "step": 11892,
      "task_loss": 0.5066011548042297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.330211877822876,
      "epoch": 10.05,
      "learning_rate": 1.8321853475266124e-05,
      "loss": 0.4801,
      "step": 11893,
      "task_loss": 0.6809589266777039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7314883470535278,
      "epoch": 10.05,
      "learning_rate": 1.831872260488416e-05,
      "loss": 0.6155,
      "step": 11894,
      "task_loss": 1.7068151235580444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4618019461631775,
      "epoch": 10.05,
      "learning_rate": 1.8315591734502194e-05,
      "loss": 0.5994,
      "step": 11895,
      "task_loss": 0.49507543444633484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5336235761642456,
      "epoch": 10.06,
      "learning_rate": 1.8312460864120226e-05,
      "loss": 0.4046,
      "step": 11896,
      "task_loss": 1.6036204099655151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8582067489624023,
      "epoch": 10.06,
      "learning_rate": 1.830932999373826e-05,
      "loss": 0.518,
      "step": 11897,
      "task_loss": 0.7478420734405518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7184785604476929,
      "epoch": 10.06,
      "learning_rate": 1.8306199123356293e-05,
      "loss": 0.6585,
      "step": 11898,
      "task_loss": 0.6461512446403503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2741459310054779,
      "epoch": 10.06,
      "learning_rate": 1.8303068252974328e-05,
      "loss": 0.4307,
      "step": 11899,
      "task_loss": 0.22900283336639404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42498379945755005,
      "epoch": 10.06,
      "learning_rate": 1.829993738259236e-05,
      "loss": 0.3986,
      "step": 11900,
      "task_loss": 0.29451608657836914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6632781028747559,
      "epoch": 10.06,
      "learning_rate": 1.8296806512210395e-05,
      "loss": 0.5895,
      "step": 11901,
      "task_loss": 1.779968500137329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5856399536132812,
      "epoch": 10.06,
      "learning_rate": 1.8293675641828427e-05,
      "loss": 0.5981,
      "step": 11902,
      "task_loss": 1.1742357015609741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4982651472091675,
      "epoch": 10.06,
      "learning_rate": 1.8290544771446462e-05,
      "loss": 0.4392,
      "step": 11903,
      "task_loss": 0.7314689755439758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43142369389533997,
      "epoch": 10.06,
      "learning_rate": 1.8287413901064497e-05,
      "loss": 0.5093,
      "step": 11904,
      "task_loss": 0.2720101773738861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5521692037582397,
      "epoch": 10.06,
      "learning_rate": 1.8284283030682532e-05,
      "loss": 0.4817,
      "step": 11905,
      "task_loss": 0.2980252802371979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8019011616706848,
      "epoch": 10.06,
      "learning_rate": 1.8281152160300564e-05,
      "loss": 0.5841,
      "step": 11906,
      "task_loss": 1.507855772972107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6010299324989319,
      "epoch": 10.07,
      "learning_rate": 1.82780212899186e-05,
      "loss": 0.6771,
      "step": 11907,
      "task_loss": 0.8570787310600281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5556377172470093,
      "epoch": 10.07,
      "learning_rate": 1.8274890419536635e-05,
      "loss": 0.5176,
      "step": 11908,
      "task_loss": 1.381196141242981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38272637128829956,
      "epoch": 10.07,
      "learning_rate": 1.8271759549154666e-05,
      "loss": 0.4155,
      "step": 11909,
      "task_loss": 0.8253744840621948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6307418346405029,
      "epoch": 10.07,
      "learning_rate": 1.82686286787727e-05,
      "loss": 0.4544,
      "step": 11910,
      "task_loss": 0.6507962942123413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7920186519622803,
      "epoch": 10.07,
      "learning_rate": 1.8265497808390733e-05,
      "loss": 0.5492,
      "step": 11911,
      "task_loss": 0.17453062534332275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42062264680862427,
      "epoch": 10.07,
      "learning_rate": 1.826236693800877e-05,
      "loss": 0.5439,
      "step": 11912,
      "task_loss": 0.43165865540504456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45185399055480957,
      "epoch": 10.07,
      "learning_rate": 1.82592360676268e-05,
      "loss": 0.5481,
      "step": 11913,
      "task_loss": 0.866303563117981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2518584430217743,
      "epoch": 10.07,
      "learning_rate": 1.8256105197244835e-05,
      "loss": 0.4661,
      "step": 11914,
      "task_loss": 0.42644309997558594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39169013500213623,
      "epoch": 10.07,
      "learning_rate": 1.8252974326862867e-05,
      "loss": 0.6316,
      "step": 11915,
      "task_loss": 0.3899060785770416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5305859446525574,
      "epoch": 10.07,
      "learning_rate": 1.8249843456480902e-05,
      "loss": 0.4936,
      "step": 11916,
      "task_loss": 1.2438266277313232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5410599112510681,
      "epoch": 10.07,
      "learning_rate": 1.8246712586098934e-05,
      "loss": 0.472,
      "step": 11917,
      "task_loss": 0.7229633331298828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3879723846912384,
      "epoch": 10.07,
      "learning_rate": 1.824358171571697e-05,
      "loss": 0.4581,
      "step": 11918,
      "task_loss": 0.7790693044662476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3686602711677551,
      "epoch": 10.08,
      "learning_rate": 1.8240450845335004e-05,
      "loss": 0.4496,
      "step": 11919,
      "task_loss": 0.3374233543872833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5402283668518066,
      "epoch": 10.08,
      "learning_rate": 1.8237319974953036e-05,
      "loss": 0.5897,
      "step": 11920,
      "task_loss": 0.7575618028640747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6014347076416016,
      "epoch": 10.08,
      "learning_rate": 1.823418910457107e-05,
      "loss": 0.5681,
      "step": 11921,
      "task_loss": 0.5591609477996826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36061975359916687,
      "epoch": 10.08,
      "learning_rate": 1.8231058234189107e-05,
      "loss": 0.4673,
      "step": 11922,
      "task_loss": 0.61372309923172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33913707733154297,
      "epoch": 10.08,
      "learning_rate": 1.8227927363807142e-05,
      "loss": 0.4101,
      "step": 11923,
      "task_loss": 0.7801917791366577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4929392337799072,
      "epoch": 10.08,
      "learning_rate": 1.8224796493425174e-05,
      "loss": 0.4061,
      "step": 11924,
      "task_loss": 0.2593909502029419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49953585863113403,
      "epoch": 10.08,
      "learning_rate": 1.822166562304321e-05,
      "loss": 0.522,
      "step": 11925,
      "task_loss": 0.22385400533676147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3363998830318451,
      "epoch": 10.08,
      "learning_rate": 1.821853475266124e-05,
      "loss": 0.4972,
      "step": 11926,
      "task_loss": 0.4675111472606659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5529756546020508,
      "epoch": 10.08,
      "learning_rate": 1.8215403882279276e-05,
      "loss": 0.6389,
      "step": 11927,
      "task_loss": 0.6886316537857056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25953251123428345,
      "epoch": 10.08,
      "learning_rate": 1.8212273011897307e-05,
      "loss": 0.5668,
      "step": 11928,
      "task_loss": 0.3315168023109436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2634521424770355,
      "epoch": 10.08,
      "learning_rate": 1.8209142141515343e-05,
      "loss": 0.3497,
      "step": 11929,
      "task_loss": 0.3371821939945221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.480176717042923,
      "epoch": 10.08,
      "learning_rate": 1.8206011271133374e-05,
      "loss": 0.4868,
      "step": 11930,
      "task_loss": 0.6029389500617981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3795178532600403,
      "epoch": 10.09,
      "learning_rate": 1.820288040075141e-05,
      "loss": 0.4306,
      "step": 11931,
      "task_loss": 1.2051299810409546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7666014432907104,
      "epoch": 10.09,
      "learning_rate": 1.8199749530369445e-05,
      "loss": 0.5767,
      "step": 11932,
      "task_loss": 0.8345617651939392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196911096572876,
      "epoch": 10.09,
      "learning_rate": 1.8196618659987477e-05,
      "loss": 0.5714,
      "step": 11933,
      "task_loss": 0.5302334427833557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.434179425239563,
      "epoch": 10.09,
      "learning_rate": 1.819348778960551e-05,
      "loss": 0.5751,
      "step": 11934,
      "task_loss": 1.4489260911941528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6102753281593323,
      "epoch": 10.09,
      "learning_rate": 1.8190356919223543e-05,
      "loss": 0.5324,
      "step": 11935,
      "task_loss": 0.3866889178752899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5891766548156738,
      "epoch": 10.09,
      "learning_rate": 1.818722604884158e-05,
      "loss": 0.5013,
      "step": 11936,
      "task_loss": 1.1297861337661743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6296302080154419,
      "epoch": 10.09,
      "learning_rate": 1.818409517845961e-05,
      "loss": 0.4744,
      "step": 11937,
      "task_loss": 1.045244812965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20342552661895752,
      "epoch": 10.09,
      "learning_rate": 1.8180964308077646e-05,
      "loss": 0.4396,
      "step": 11938,
      "task_loss": 0.09281840175390244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26525214314460754,
      "epoch": 10.09,
      "learning_rate": 1.817783343769568e-05,
      "loss": 0.3553,
      "step": 11939,
      "task_loss": 0.20385567843914032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48645997047424316,
      "epoch": 10.09,
      "learning_rate": 1.8174702567313716e-05,
      "loss": 0.5393,
      "step": 11940,
      "task_loss": 0.9254416823387146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49700677394866943,
      "epoch": 10.09,
      "learning_rate": 1.8171571696931748e-05,
      "loss": 0.5649,
      "step": 11941,
      "task_loss": 1.1869666576385498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3799194395542145,
      "epoch": 10.09,
      "learning_rate": 1.8168440826549783e-05,
      "loss": 0.5607,
      "step": 11942,
      "task_loss": 0.8608298301696777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39190685749053955,
      "epoch": 10.1,
      "learning_rate": 1.8165309956167815e-05,
      "loss": 0.544,
      "step": 11943,
      "task_loss": 0.19806435704231262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3603771924972534,
      "epoch": 10.1,
      "learning_rate": 1.816217908578585e-05,
      "loss": 0.616,
      "step": 11944,
      "task_loss": 0.13370120525360107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4323745369911194,
      "epoch": 10.1,
      "learning_rate": 1.8159048215403885e-05,
      "loss": 0.4827,
      "step": 11945,
      "task_loss": 0.5119966268539429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.714235782623291,
      "epoch": 10.1,
      "learning_rate": 1.8155917345021917e-05,
      "loss": 0.6007,
      "step": 11946,
      "task_loss": 1.5682661533355713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5041913986206055,
      "epoch": 10.1,
      "learning_rate": 1.8152786474639952e-05,
      "loss": 0.5199,
      "step": 11947,
      "task_loss": 0.6148562431335449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5477074384689331,
      "epoch": 10.1,
      "learning_rate": 1.8149655604257984e-05,
      "loss": 0.5768,
      "step": 11948,
      "task_loss": 0.3812944293022156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.553023099899292,
      "epoch": 10.1,
      "learning_rate": 1.814652473387602e-05,
      "loss": 0.5344,
      "step": 11949,
      "task_loss": 0.6007188558578491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7481228113174438,
      "epoch": 10.1,
      "learning_rate": 1.814339386349405e-05,
      "loss": 0.5926,
      "step": 11950,
      "task_loss": 1.2068064212799072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6951996088027954,
      "epoch": 10.1,
      "learning_rate": 1.8140262993112086e-05,
      "loss": 0.5857,
      "step": 11951,
      "task_loss": 1.8991118669509888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4695318639278412,
      "epoch": 10.1,
      "learning_rate": 1.8137132122730118e-05,
      "loss": 0.5046,
      "step": 11952,
      "task_loss": 0.2603614628314972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21509301662445068,
      "epoch": 10.1,
      "learning_rate": 1.8134001252348153e-05,
      "loss": 0.4821,
      "step": 11953,
      "task_loss": 0.27137383818626404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8246045708656311,
      "epoch": 10.1,
      "learning_rate": 1.8130870381966185e-05,
      "loss": 0.6164,
      "step": 11954,
      "task_loss": 0.9676323533058167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6132639646530151,
      "epoch": 10.11,
      "learning_rate": 1.812773951158422e-05,
      "loss": 0.4439,
      "step": 11955,
      "task_loss": 1.0401791334152222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8934365510940552,
      "epoch": 10.11,
      "learning_rate": 1.8124608641202255e-05,
      "loss": 0.6176,
      "step": 11956,
      "task_loss": 0.4012407958507538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33261188864707947,
      "epoch": 10.11,
      "learning_rate": 1.812147777082029e-05,
      "loss": 0.4346,
      "step": 11957,
      "task_loss": 0.345401406288147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6085391044616699,
      "epoch": 10.11,
      "learning_rate": 1.8118346900438325e-05,
      "loss": 0.6793,
      "step": 11958,
      "task_loss": 2.874612808227539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7885323762893677,
      "epoch": 10.11,
      "learning_rate": 1.8115216030056357e-05,
      "loss": 0.5288,
      "step": 11959,
      "task_loss": 0.784598708152771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6752193570137024,
      "epoch": 10.11,
      "learning_rate": 1.8112085159674392e-05,
      "loss": 0.4734,
      "step": 11960,
      "task_loss": 0.5668706893920898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5953697562217712,
      "epoch": 10.11,
      "learning_rate": 1.8108954289292424e-05,
      "loss": 0.6645,
      "step": 11961,
      "task_loss": 0.49043387174606323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5394877195358276,
      "epoch": 10.11,
      "learning_rate": 1.810582341891046e-05,
      "loss": 0.4972,
      "step": 11962,
      "task_loss": 1.133232593536377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4368830621242523,
      "epoch": 10.11,
      "learning_rate": 1.810269254852849e-05,
      "loss": 0.4705,
      "step": 11963,
      "task_loss": 0.8905189037322998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28562018275260925,
      "epoch": 10.11,
      "learning_rate": 1.8099561678146526e-05,
      "loss": 0.4671,
      "step": 11964,
      "task_loss": 0.6866825819015503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4449443221092224,
      "epoch": 10.11,
      "learning_rate": 1.8096430807764558e-05,
      "loss": 0.4076,
      "step": 11965,
      "task_loss": 0.3457188308238983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7404114603996277,
      "epoch": 10.11,
      "learning_rate": 1.8093299937382593e-05,
      "loss": 0.4487,
      "step": 11966,
      "task_loss": 0.09735433012247086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44974032044410706,
      "epoch": 10.12,
      "learning_rate": 1.8090169067000625e-05,
      "loss": 0.4208,
      "step": 11967,
      "task_loss": 1.4680790901184082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2576064467430115,
      "epoch": 10.12,
      "learning_rate": 1.808703819661866e-05,
      "loss": 0.3902,
      "step": 11968,
      "task_loss": 0.49863123893737793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5658372640609741,
      "epoch": 10.12,
      "learning_rate": 1.8083907326236695e-05,
      "loss": 0.5053,
      "step": 11969,
      "task_loss": 0.07551191747188568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3111751973628998,
      "epoch": 10.12,
      "learning_rate": 1.8080776455854727e-05,
      "loss": 0.552,
      "step": 11970,
      "task_loss": 0.37528494000434875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2674192786216736,
      "epoch": 10.12,
      "learning_rate": 1.8077645585472762e-05,
      "loss": 0.4566,
      "step": 11971,
      "task_loss": 0.4724051058292389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32935386896133423,
      "epoch": 10.12,
      "learning_rate": 1.8074514715090797e-05,
      "loss": 0.3986,
      "step": 11972,
      "task_loss": 0.5914874076843262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3320724368095398,
      "epoch": 10.12,
      "learning_rate": 1.807138384470883e-05,
      "loss": 0.5075,
      "step": 11973,
      "task_loss": 0.6343813538551331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6177480220794678,
      "epoch": 10.12,
      "learning_rate": 1.8068252974326864e-05,
      "loss": 0.5055,
      "step": 11974,
      "task_loss": 0.6024479269981384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5748840570449829,
      "epoch": 10.12,
      "learning_rate": 1.80651221039449e-05,
      "loss": 0.5444,
      "step": 11975,
      "task_loss": 0.3186684548854828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32908183336257935,
      "epoch": 10.12,
      "learning_rate": 1.806199123356293e-05,
      "loss": 0.418,
      "step": 11976,
      "task_loss": 0.2868935167789459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7213194370269775,
      "epoch": 10.12,
      "learning_rate": 1.8058860363180966e-05,
      "loss": 0.6759,
      "step": 11977,
      "task_loss": 0.5693639516830444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4019198417663574,
      "epoch": 10.13,
      "learning_rate": 1.8055729492798998e-05,
      "loss": 0.5637,
      "step": 11978,
      "task_loss": 0.4135168194770813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5542411804199219,
      "epoch": 10.13,
      "learning_rate": 1.8052598622417033e-05,
      "loss": 0.5137,
      "step": 11979,
      "task_loss": 0.2759263813495636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5234736204147339,
      "epoch": 10.13,
      "learning_rate": 1.8049467752035065e-05,
      "loss": 0.5621,
      "step": 11980,
      "task_loss": 0.30167049169540405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29652249813079834,
      "epoch": 10.13,
      "learning_rate": 1.80463368816531e-05,
      "loss": 0.4804,
      "step": 11981,
      "task_loss": 0.3228597640991211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4809386134147644,
      "epoch": 10.13,
      "learning_rate": 1.8043206011271135e-05,
      "loss": 0.5172,
      "step": 11982,
      "task_loss": 0.7798720002174377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22345766425132751,
      "epoch": 10.13,
      "learning_rate": 1.8040075140889167e-05,
      "loss": 0.4174,
      "step": 11983,
      "task_loss": 0.2587651312351227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45418813824653625,
      "epoch": 10.13,
      "learning_rate": 1.8036944270507202e-05,
      "loss": 0.4643,
      "step": 11984,
      "task_loss": 0.32602351903915405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7528649568557739,
      "epoch": 10.13,
      "learning_rate": 1.8033813400125234e-05,
      "loss": 0.6221,
      "step": 11985,
      "task_loss": 0.9729608297348022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.519275426864624,
      "epoch": 10.13,
      "learning_rate": 1.803068252974327e-05,
      "loss": 0.5816,
      "step": 11986,
      "task_loss": 0.8167797923088074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6711570024490356,
      "epoch": 10.13,
      "learning_rate": 1.80275516593613e-05,
      "loss": 0.5881,
      "step": 11987,
      "task_loss": 0.586622416973114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47273746132850647,
      "epoch": 10.13,
      "learning_rate": 1.8024420788979336e-05,
      "loss": 0.5917,
      "step": 11988,
      "task_loss": 0.7469164729118347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49289005994796753,
      "epoch": 10.13,
      "learning_rate": 1.802128991859737e-05,
      "loss": 0.5231,
      "step": 11989,
      "task_loss": 0.2942104935646057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6479471325874329,
      "epoch": 10.14,
      "learning_rate": 1.8018159048215407e-05,
      "loss": 0.72,
      "step": 11990,
      "task_loss": 0.3644965887069702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6494221091270447,
      "epoch": 10.14,
      "learning_rate": 1.801502817783344e-05,
      "loss": 0.553,
      "step": 11991,
      "task_loss": 0.7293792366981506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40172338485717773,
      "epoch": 10.14,
      "learning_rate": 1.8011897307451474e-05,
      "loss": 0.5032,
      "step": 11992,
      "task_loss": 0.7648729681968689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7259783744812012,
      "epoch": 10.14,
      "learning_rate": 1.800876643706951e-05,
      "loss": 0.6539,
      "step": 11993,
      "task_loss": 0.645050048828125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.479883074760437,
      "epoch": 10.14,
      "learning_rate": 1.800563556668754e-05,
      "loss": 0.4979,
      "step": 11994,
      "task_loss": 1.3832471370697021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3185862898826599,
      "epoch": 10.14,
      "learning_rate": 1.8002504696305576e-05,
      "loss": 0.38,
      "step": 11995,
      "task_loss": 0.20617687702178955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7085285186767578,
      "epoch": 10.14,
      "learning_rate": 1.7999373825923607e-05,
      "loss": 0.5246,
      "step": 11996,
      "task_loss": 1.2935453653335571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34835192561149597,
      "epoch": 10.14,
      "learning_rate": 1.7996242955541643e-05,
      "loss": 0.4907,
      "step": 11997,
      "task_loss": 0.23376747965812683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37399110198020935,
      "epoch": 10.14,
      "learning_rate": 1.7993112085159674e-05,
      "loss": 0.3769,
      "step": 11998,
      "task_loss": 0.45206204056739807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6348373889923096,
      "epoch": 10.14,
      "learning_rate": 1.798998121477771e-05,
      "loss": 0.6645,
      "step": 11999,
      "task_loss": 0.6434426307678223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4983244240283966,
      "epoch": 10.14,
      "learning_rate": 1.798685034439574e-05,
      "loss": 0.425,
      "step": 12000,
      "task_loss": 0.6595286726951599
    },
    {
      "epoch": 10.14,
      "eval_accuracy": 0.905940594059406,
      "eval_loss": 0.36149701476097107,
      "eval_runtime": 206.8852,
      "eval_samples_per_second": 122.048,
      "eval_steps_per_second": 0.957,
      "step": 12000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4854140281677246,
      "epoch": 10.14,
      "learning_rate": 1.7983719474013777e-05,
      "loss": 0.6094,
      "step": 12001,
      "task_loss": 1.6257245540618896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47899723052978516,
      "epoch": 10.15,
      "learning_rate": 1.798058860363181e-05,
      "loss": 0.5563,
      "step": 12002,
      "task_loss": 0.7581605315208435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3620864748954773,
      "epoch": 10.15,
      "learning_rate": 1.7977457733249844e-05,
      "loss": 0.4747,
      "step": 12003,
      "task_loss": 0.41931480169296265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3591528534889221,
      "epoch": 10.15,
      "learning_rate": 1.7974326862867875e-05,
      "loss": 0.3974,
      "step": 12004,
      "task_loss": 0.3311234414577484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41835927963256836,
      "epoch": 10.15,
      "learning_rate": 1.797119599248591e-05,
      "loss": 0.4301,
      "step": 12005,
      "task_loss": 0.20978368818759918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3658050298690796,
      "epoch": 10.15,
      "learning_rate": 1.7968065122103946e-05,
      "loss": 0.5229,
      "step": 12006,
      "task_loss": 0.30081966519355774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47107937932014465,
      "epoch": 10.15,
      "learning_rate": 1.796493425172198e-05,
      "loss": 0.5092,
      "step": 12007,
      "task_loss": 0.4290759861469269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27061188220977783,
      "epoch": 10.15,
      "learning_rate": 1.7961803381340016e-05,
      "loss": 0.421,
      "step": 12008,
      "task_loss": 0.7357758283615112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5408056378364563,
      "epoch": 10.15,
      "learning_rate": 1.7958672510958048e-05,
      "loss": 0.5592,
      "step": 12009,
      "task_loss": 0.872681736946106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5029695630073547,
      "epoch": 10.15,
      "learning_rate": 1.7955541640576083e-05,
      "loss": 0.5193,
      "step": 12010,
      "task_loss": 0.6903013586997986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3501845896244049,
      "epoch": 10.15,
      "learning_rate": 1.7952410770194115e-05,
      "loss": 0.4613,
      "step": 12011,
      "task_loss": 1.014859914779663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2505016326904297,
      "epoch": 10.15,
      "learning_rate": 1.794927989981215e-05,
      "loss": 0.3909,
      "step": 12012,
      "task_loss": 0.8884826302528381
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.615286111831665,
      "epoch": 10.15,
      "learning_rate": 1.794614902943018e-05,
      "loss": 0.4775,
      "step": 12013,
      "task_loss": 0.40324491262435913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6798600554466248,
      "epoch": 10.16,
      "learning_rate": 1.7943018159048217e-05,
      "loss": 0.5216,
      "step": 12014,
      "task_loss": 1.2024500370025635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5951483249664307,
      "epoch": 10.16,
      "learning_rate": 1.793988728866625e-05,
      "loss": 0.4995,
      "step": 12015,
      "task_loss": 0.8973203897476196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6922138333320618,
      "epoch": 10.16,
      "learning_rate": 1.7936756418284284e-05,
      "loss": 0.6149,
      "step": 12016,
      "task_loss": 1.4704807996749878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4563525319099426,
      "epoch": 10.16,
      "learning_rate": 1.793362554790232e-05,
      "loss": 0.5013,
      "step": 12017,
      "task_loss": 0.15977802872657776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31994450092315674,
      "epoch": 10.16,
      "learning_rate": 1.793049467752035e-05,
      "loss": 0.6545,
      "step": 12018,
      "task_loss": 0.2737879455089569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5105599164962769,
      "epoch": 10.16,
      "learning_rate": 1.7927363807138386e-05,
      "loss": 0.3714,
      "step": 12019,
      "task_loss": 0.7855756282806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49507635831832886,
      "epoch": 10.16,
      "learning_rate": 1.7924232936756418e-05,
      "loss": 0.3515,
      "step": 12020,
      "task_loss": 0.16255690157413483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3792104125022888,
      "epoch": 10.16,
      "learning_rate": 1.7921102066374453e-05,
      "loss": 0.4951,
      "step": 12021,
      "task_loss": 0.4633488655090332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6868609189987183,
      "epoch": 10.16,
      "learning_rate": 1.7917971195992485e-05,
      "loss": 0.5467,
      "step": 12022,
      "task_loss": 0.35662999749183655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5744777321815491,
      "epoch": 10.16,
      "learning_rate": 1.791484032561052e-05,
      "loss": 0.6039,
      "step": 12023,
      "task_loss": 0.8216590881347656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7112334966659546,
      "epoch": 10.16,
      "learning_rate": 1.7911709455228555e-05,
      "loss": 0.5968,
      "step": 12024,
      "task_loss": 0.9066623449325562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8560420274734497,
      "epoch": 10.16,
      "learning_rate": 1.790857858484659e-05,
      "loss": 0.621,
      "step": 12025,
      "task_loss": 0.7734057903289795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7827113270759583,
      "epoch": 10.17,
      "learning_rate": 1.7905447714464622e-05,
      "loss": 0.6318,
      "step": 12026,
      "task_loss": 1.2292592525482178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4711020886898041,
      "epoch": 10.17,
      "learning_rate": 1.7902316844082657e-05,
      "loss": 0.6176,
      "step": 12027,
      "task_loss": 0.6844468712806702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22153571248054504,
      "epoch": 10.17,
      "learning_rate": 1.789918597370069e-05,
      "loss": 0.4698,
      "step": 12028,
      "task_loss": 0.3284510374069214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4110615849494934,
      "epoch": 10.17,
      "learning_rate": 1.7896055103318724e-05,
      "loss": 0.5419,
      "step": 12029,
      "task_loss": 0.055999573320150375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7471761107444763,
      "epoch": 10.17,
      "learning_rate": 1.789292423293676e-05,
      "loss": 0.528,
      "step": 12030,
      "task_loss": 1.1426992416381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5584474802017212,
      "epoch": 10.17,
      "learning_rate": 1.788979336255479e-05,
      "loss": 0.5503,
      "step": 12031,
      "task_loss": 0.12276840209960938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3508461117744446,
      "epoch": 10.17,
      "learning_rate": 1.7886662492172826e-05,
      "loss": 0.4472,
      "step": 12032,
      "task_loss": 0.22514846920967102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9211220741271973,
      "epoch": 10.17,
      "learning_rate": 1.7883531621790858e-05,
      "loss": 0.7544,
      "step": 12033,
      "task_loss": 0.9317436218261719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6198623180389404,
      "epoch": 10.17,
      "learning_rate": 1.7880400751408893e-05,
      "loss": 0.491,
      "step": 12034,
      "task_loss": 0.6504527926445007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3975866138935089,
      "epoch": 10.17,
      "learning_rate": 1.7877269881026925e-05,
      "loss": 0.5965,
      "step": 12035,
      "task_loss": 0.37547704577445984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5710036754608154,
      "epoch": 10.17,
      "learning_rate": 1.787413901064496e-05,
      "loss": 0.5003,
      "step": 12036,
      "task_loss": 0.5649453401565552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2373313456773758,
      "epoch": 10.17,
      "learning_rate": 1.7871008140262992e-05,
      "loss": 0.3649,
      "step": 12037,
      "task_loss": 0.3479361832141876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4211253523826599,
      "epoch": 10.18,
      "learning_rate": 1.7867877269881027e-05,
      "loss": 0.4569,
      "step": 12038,
      "task_loss": 0.17443418502807617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7137956619262695,
      "epoch": 10.18,
      "learning_rate": 1.7864746399499062e-05,
      "loss": 0.5191,
      "step": 12039,
      "task_loss": 0.23349237442016602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6691463589668274,
      "epoch": 10.18,
      "learning_rate": 1.7861615529117094e-05,
      "loss": 0.7942,
      "step": 12040,
      "task_loss": 0.7262662053108215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7568945288658142,
      "epoch": 10.18,
      "learning_rate": 1.785848465873513e-05,
      "loss": 0.582,
      "step": 12041,
      "task_loss": 0.936819314956665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7748256921768188,
      "epoch": 10.18,
      "learning_rate": 1.7855353788353164e-05,
      "loss": 0.6297,
      "step": 12042,
      "task_loss": 1.015466570854187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8585696816444397,
      "epoch": 10.18,
      "learning_rate": 1.78522229179712e-05,
      "loss": 0.7016,
      "step": 12043,
      "task_loss": 0.2474176436662674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32613107562065125,
      "epoch": 10.18,
      "learning_rate": 1.784909204758923e-05,
      "loss": 0.3997,
      "step": 12044,
      "task_loss": 0.9145128130912781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5153183937072754,
      "epoch": 10.18,
      "learning_rate": 1.7845961177207266e-05,
      "loss": 0.4675,
      "step": 12045,
      "task_loss": 1.2591519355773926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2362176477909088,
      "epoch": 10.18,
      "learning_rate": 1.7842830306825298e-05,
      "loss": 0.3252,
      "step": 12046,
      "task_loss": 0.45949381589889526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7145122289657593,
      "epoch": 10.18,
      "learning_rate": 1.7839699436443333e-05,
      "loss": 0.6637,
      "step": 12047,
      "task_loss": 1.5078215599060059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5949344038963318,
      "epoch": 10.18,
      "learning_rate": 1.7836568566061365e-05,
      "loss": 0.5413,
      "step": 12048,
      "task_loss": 0.664148211479187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20267042517662048,
      "epoch": 10.19,
      "learning_rate": 1.78334376956794e-05,
      "loss": 0.3858,
      "step": 12049,
      "task_loss": 0.2480286955833435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5515130758285522,
      "epoch": 10.19,
      "learning_rate": 1.7830306825297432e-05,
      "loss": 0.6232,
      "step": 12050,
      "task_loss": 1.1592943668365479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4712703227996826,
      "epoch": 10.19,
      "learning_rate": 1.7827175954915467e-05,
      "loss": 0.6007,
      "step": 12051,
      "task_loss": 0.6107129454612732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3108679950237274,
      "epoch": 10.19,
      "learning_rate": 1.78240450845335e-05,
      "loss": 0.4902,
      "step": 12052,
      "task_loss": 1.1061323881149292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2998300790786743,
      "epoch": 10.19,
      "learning_rate": 1.7820914214151534e-05,
      "loss": 0.3785,
      "step": 12053,
      "task_loss": 0.38599419593811035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3487786054611206,
      "epoch": 10.19,
      "learning_rate": 1.781778334376957e-05,
      "loss": 0.3814,
      "step": 12054,
      "task_loss": 0.596051037311554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5298779010772705,
      "epoch": 10.19,
      "learning_rate": 1.78146524733876e-05,
      "loss": 0.6901,
      "step": 12055,
      "task_loss": 1.3664515018463135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3733927011489868,
      "epoch": 10.19,
      "learning_rate": 1.7811521603005636e-05,
      "loss": 0.401,
      "step": 12056,
      "task_loss": 0.9975472092628479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5162145495414734,
      "epoch": 10.19,
      "learning_rate": 1.780839073262367e-05,
      "loss": 0.4339,
      "step": 12057,
      "task_loss": 0.7391830086708069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4401974380016327,
      "epoch": 10.19,
      "learning_rate": 1.7805259862241703e-05,
      "loss": 0.5246,
      "step": 12058,
      "task_loss": 0.4944423735141754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7237913012504578,
      "epoch": 10.19,
      "learning_rate": 1.780212899185974e-05,
      "loss": 0.6115,
      "step": 12059,
      "task_loss": 1.9113237857818604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6287128925323486,
      "epoch": 10.19,
      "learning_rate": 1.7798998121477774e-05,
      "loss": 0.4814,
      "step": 12060,
      "task_loss": 0.7144003510475159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39218080043792725,
      "epoch": 10.2,
      "learning_rate": 1.7795867251095805e-05,
      "loss": 0.5447,
      "step": 12061,
      "task_loss": 1.4202492237091064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4332091808319092,
      "epoch": 10.2,
      "learning_rate": 1.779273638071384e-05,
      "loss": 0.4419,
      "step": 12062,
      "task_loss": 0.5966039299964905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5354828238487244,
      "epoch": 10.2,
      "learning_rate": 1.7789605510331872e-05,
      "loss": 0.5058,
      "step": 12063,
      "task_loss": 0.7709137797355652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6104151010513306,
      "epoch": 10.2,
      "learning_rate": 1.7786474639949908e-05,
      "loss": 0.677,
      "step": 12064,
      "task_loss": 1.089311122894287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4579690992832184,
      "epoch": 10.2,
      "learning_rate": 1.778334376956794e-05,
      "loss": 0.538,
      "step": 12065,
      "task_loss": 0.4620235860347748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5979282259941101,
      "epoch": 10.2,
      "learning_rate": 1.7780212899185974e-05,
      "loss": 0.5479,
      "step": 12066,
      "task_loss": 0.374456524848938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4693400263786316,
      "epoch": 10.2,
      "learning_rate": 1.777708202880401e-05,
      "loss": 0.4606,
      "step": 12067,
      "task_loss": 0.5529929995536804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25787633657455444,
      "epoch": 10.2,
      "learning_rate": 1.777395115842204e-05,
      "loss": 0.499,
      "step": 12068,
      "task_loss": 0.6285697221755981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6094725131988525,
      "epoch": 10.2,
      "learning_rate": 1.7770820288040077e-05,
      "loss": 0.4073,
      "step": 12069,
      "task_loss": 0.4138059914112091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5640205144882202,
      "epoch": 10.2,
      "learning_rate": 1.776768941765811e-05,
      "loss": 0.4971,
      "step": 12070,
      "task_loss": 0.7809429168701172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7550443410873413,
      "epoch": 10.2,
      "learning_rate": 1.7764558547276144e-05,
      "loss": 0.6207,
      "step": 12071,
      "task_loss": 0.8398879170417786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3323984146118164,
      "epoch": 10.2,
      "learning_rate": 1.7761427676894175e-05,
      "loss": 0.5886,
      "step": 12072,
      "task_loss": 0.5666842460632324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3159791827201843,
      "epoch": 10.21,
      "learning_rate": 1.775829680651221e-05,
      "loss": 0.4098,
      "step": 12073,
      "task_loss": 0.2646048963069916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7762233018875122,
      "epoch": 10.21,
      "learning_rate": 1.7755165936130246e-05,
      "loss": 0.6624,
      "step": 12074,
      "task_loss": 1.2266242504119873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4130973219871521,
      "epoch": 10.21,
      "learning_rate": 1.775203506574828e-05,
      "loss": 0.4634,
      "step": 12075,
      "task_loss": 0.7562817931175232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5121117234230042,
      "epoch": 10.21,
      "learning_rate": 1.7748904195366313e-05,
      "loss": 0.5175,
      "step": 12076,
      "task_loss": 1.4286850690841675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4065849184989929,
      "epoch": 10.21,
      "learning_rate": 1.7745773324984348e-05,
      "loss": 0.6416,
      "step": 12077,
      "task_loss": 0.6912841796875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.50447678565979,
      "epoch": 10.21,
      "learning_rate": 1.774264245460238e-05,
      "loss": 0.4671,
      "step": 12078,
      "task_loss": 0.25848886370658875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4183650612831116,
      "epoch": 10.21,
      "learning_rate": 1.7739511584220415e-05,
      "loss": 0.451,
      "step": 12079,
      "task_loss": 0.527722179889679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6097018718719482,
      "epoch": 10.21,
      "learning_rate": 1.773638071383845e-05,
      "loss": 0.3811,
      "step": 12080,
      "task_loss": 0.3850257694721222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7559892535209656,
      "epoch": 10.21,
      "learning_rate": 1.773324984345648e-05,
      "loss": 0.5697,
      "step": 12081,
      "task_loss": 1.0737966299057007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4425274133682251,
      "epoch": 10.21,
      "learning_rate": 1.7730118973074517e-05,
      "loss": 0.3537,
      "step": 12082,
      "task_loss": 0.08130941540002823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7087022662162781,
      "epoch": 10.21,
      "learning_rate": 1.772698810269255e-05,
      "loss": 0.5567,
      "step": 12083,
      "task_loss": 0.6555995941162109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6517351865768433,
      "epoch": 10.21,
      "learning_rate": 1.7723857232310584e-05,
      "loss": 0.5335,
      "step": 12084,
      "task_loss": 0.7729477286338806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36969369649887085,
      "epoch": 10.22,
      "learning_rate": 1.7720726361928616e-05,
      "loss": 0.4908,
      "step": 12085,
      "task_loss": 0.6894257664680481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.517872154712677,
      "epoch": 10.22,
      "learning_rate": 1.771759549154665e-05,
      "loss": 0.5657,
      "step": 12086,
      "task_loss": 1.731475830078125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3724587559700012,
      "epoch": 10.22,
      "learning_rate": 1.7714464621164683e-05,
      "loss": 0.4739,
      "step": 12087,
      "task_loss": 0.1370657980442047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28910109400749207,
      "epoch": 10.22,
      "learning_rate": 1.7711333750782718e-05,
      "loss": 0.4626,
      "step": 12088,
      "task_loss": 0.9637137055397034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5147919058799744,
      "epoch": 10.22,
      "learning_rate": 1.770820288040075e-05,
      "loss": 0.5588,
      "step": 12089,
      "task_loss": 0.17413052916526794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6898822784423828,
      "epoch": 10.22,
      "learning_rate": 1.7705072010018785e-05,
      "loss": 0.6392,
      "step": 12090,
      "task_loss": 0.3913952708244324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0461584329605103,
      "epoch": 10.22,
      "learning_rate": 1.770194113963682e-05,
      "loss": 0.6091,
      "step": 12091,
      "task_loss": 1.3729164600372314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4589737057685852,
      "epoch": 10.22,
      "learning_rate": 1.7698810269254855e-05,
      "loss": 0.4898,
      "step": 12092,
      "task_loss": 0.1940767616033554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833649754524231,
      "epoch": 10.22,
      "learning_rate": 1.769567939887289e-05,
      "loss": 0.4364,
      "step": 12093,
      "task_loss": 0.7980688810348511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29123055934906006,
      "epoch": 10.22,
      "learning_rate": 1.7692548528490922e-05,
      "loss": 0.5289,
      "step": 12094,
      "task_loss": 0.412523090839386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33498305082321167,
      "epoch": 10.22,
      "learning_rate": 1.7689417658108957e-05,
      "loss": 0.49,
      "step": 12095,
      "task_loss": 0.7191115021705627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5982953310012817,
      "epoch": 10.22,
      "learning_rate": 1.768628678772699e-05,
      "loss": 0.5643,
      "step": 12096,
      "task_loss": 1.2451001405715942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2948097586631775,
      "epoch": 10.23,
      "learning_rate": 1.7683155917345024e-05,
      "loss": 0.4162,
      "step": 12097,
      "task_loss": 0.4813440442085266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4312650263309479,
      "epoch": 10.23,
      "learning_rate": 1.7680025046963056e-05,
      "loss": 0.443,
      "step": 12098,
      "task_loss": 0.4428671598434448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1226814985275269,
      "epoch": 10.23,
      "learning_rate": 1.767689417658109e-05,
      "loss": 0.7598,
      "step": 12099,
      "task_loss": 1.325530767440796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41781941056251526,
      "epoch": 10.23,
      "learning_rate": 1.7673763306199123e-05,
      "loss": 0.4898,
      "step": 12100,
      "task_loss": 0.9023401737213135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2583785355091095,
      "epoch": 10.23,
      "learning_rate": 1.7670632435817158e-05,
      "loss": 0.4591,
      "step": 12101,
      "task_loss": 0.4332703948020935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28926944732666016,
      "epoch": 10.23,
      "learning_rate": 1.766750156543519e-05,
      "loss": 0.4441,
      "step": 12102,
      "task_loss": 0.13211257755756378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47958904504776,
      "epoch": 10.23,
      "learning_rate": 1.7664370695053225e-05,
      "loss": 0.5073,
      "step": 12103,
      "task_loss": 0.2032935619354248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.692255437374115,
      "epoch": 10.23,
      "learning_rate": 1.766123982467126e-05,
      "loss": 0.516,
      "step": 12104,
      "task_loss": 0.7967835068702698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8719264268875122,
      "epoch": 10.23,
      "learning_rate": 1.7658108954289292e-05,
      "loss": 0.6197,
      "step": 12105,
      "task_loss": 1.8209797143936157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4094051718711853,
      "epoch": 10.23,
      "learning_rate": 1.7654978083907327e-05,
      "loss": 0.6337,
      "step": 12106,
      "task_loss": 0.8741607666015625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6099573373794556,
      "epoch": 10.23,
      "learning_rate": 1.765184721352536e-05,
      "loss": 0.6222,
      "step": 12107,
      "task_loss": 0.7903013229370117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5944379568099976,
      "epoch": 10.23,
      "learning_rate": 1.7648716343143394e-05,
      "loss": 0.4809,
      "step": 12108,
      "task_loss": 0.7794653177261353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5122544169425964,
      "epoch": 10.24,
      "learning_rate": 1.764558547276143e-05,
      "loss": 0.4814,
      "step": 12109,
      "task_loss": 0.3959050178527832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4770876169204712,
      "epoch": 10.24,
      "learning_rate": 1.7642454602379464e-05,
      "loss": 0.3798,
      "step": 12110,
      "task_loss": 0.2645481526851654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1892295479774475,
      "epoch": 10.24,
      "learning_rate": 1.7639323731997496e-05,
      "loss": 0.3481,
      "step": 12111,
      "task_loss": 0.38886502385139465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7293222546577454,
      "epoch": 10.24,
      "learning_rate": 1.763619286161553e-05,
      "loss": 0.5811,
      "step": 12112,
      "task_loss": 0.9574298858642578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7497427463531494,
      "epoch": 10.24,
      "learning_rate": 1.7633061991233563e-05,
      "loss": 0.5637,
      "step": 12113,
      "task_loss": 1.4975786209106445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.67572021484375,
      "epoch": 10.24,
      "learning_rate": 1.7629931120851598e-05,
      "loss": 0.6841,
      "step": 12114,
      "task_loss": 1.651687741279602
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7337039709091187,
      "epoch": 10.24,
      "learning_rate": 1.762680025046963e-05,
      "loss": 0.7132,
      "step": 12115,
      "task_loss": 0.8532959222793579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.552988588809967,
      "epoch": 10.24,
      "learning_rate": 1.7623669380087665e-05,
      "loss": 0.4405,
      "step": 12116,
      "task_loss": 0.49354392290115356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39959484338760376,
      "epoch": 10.24,
      "learning_rate": 1.76205385097057e-05,
      "loss": 0.6258,
      "step": 12117,
      "task_loss": 0.8514547944068909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1248748302459717,
      "epoch": 10.24,
      "learning_rate": 1.7617407639323732e-05,
      "loss": 0.8035,
      "step": 12118,
      "task_loss": 1.1672132015228271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.585518479347229,
      "epoch": 10.24,
      "learning_rate": 1.7614276768941767e-05,
      "loss": 0.4123,
      "step": 12119,
      "task_loss": 0.5796045660972595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3688305616378784,
      "epoch": 10.24,
      "learning_rate": 1.76111458985598e-05,
      "loss": 0.4004,
      "step": 12120,
      "task_loss": 1.3265544176101685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38508957624435425,
      "epoch": 10.25,
      "learning_rate": 1.7608015028177834e-05,
      "loss": 0.4362,
      "step": 12121,
      "task_loss": 0.0689396932721138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31436505913734436,
      "epoch": 10.25,
      "learning_rate": 1.7604884157795866e-05,
      "loss": 0.4901,
      "step": 12122,
      "task_loss": 0.3027558922767639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2550210952758789,
      "epoch": 10.25,
      "learning_rate": 1.76017532874139e-05,
      "loss": 0.4442,
      "step": 12123,
      "task_loss": 0.6222748160362244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7247139811515808,
      "epoch": 10.25,
      "learning_rate": 1.7598622417031936e-05,
      "loss": 0.611,
      "step": 12124,
      "task_loss": 0.990831732749939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5541338324546814,
      "epoch": 10.25,
      "learning_rate": 1.7595491546649968e-05,
      "loss": 0.5055,
      "step": 12125,
      "task_loss": 0.5877610445022583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5502634048461914,
      "epoch": 10.25,
      "learning_rate": 1.7592360676268003e-05,
      "loss": 0.4975,
      "step": 12126,
      "task_loss": 0.5198662281036377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5692994594573975,
      "epoch": 10.25,
      "learning_rate": 1.758922980588604e-05,
      "loss": 0.5405,
      "step": 12127,
      "task_loss": 0.8563494086265564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39899617433547974,
      "epoch": 10.25,
      "learning_rate": 1.7586098935504074e-05,
      "loss": 0.4737,
      "step": 12128,
      "task_loss": 0.40708664059638977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8247205018997192,
      "epoch": 10.25,
      "learning_rate": 1.7582968065122105e-05,
      "loss": 0.4997,
      "step": 12129,
      "task_loss": 0.6439359188079834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5629087686538696,
      "epoch": 10.25,
      "learning_rate": 1.757983719474014e-05,
      "loss": 0.703,
      "step": 12130,
      "task_loss": 0.8603923916816711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5646600723266602,
      "epoch": 10.25,
      "learning_rate": 1.7576706324358172e-05,
      "loss": 0.7702,
      "step": 12131,
      "task_loss": 1.4253817796707153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9408529996871948,
      "epoch": 10.26,
      "learning_rate": 1.7573575453976208e-05,
      "loss": 0.5873,
      "step": 12132,
      "task_loss": 2.546365737915039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.298992395401001,
      "epoch": 10.26,
      "learning_rate": 1.757044458359424e-05,
      "loss": 0.5947,
      "step": 12133,
      "task_loss": 0.6273448467254639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3034610152244568,
      "epoch": 10.26,
      "learning_rate": 1.7567313713212275e-05,
      "loss": 0.3991,
      "step": 12134,
      "task_loss": 0.4971887171268463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8183097243309021,
      "epoch": 10.26,
      "learning_rate": 1.7564182842830306e-05,
      "loss": 0.6013,
      "step": 12135,
      "task_loss": 0.5642912983894348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6853615045547485,
      "epoch": 10.26,
      "learning_rate": 1.756105197244834e-05,
      "loss": 0.4068,
      "step": 12136,
      "task_loss": 0.6056121587753296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2095937281847,
      "epoch": 10.26,
      "learning_rate": 1.7557921102066373e-05,
      "loss": 0.4076,
      "step": 12137,
      "task_loss": 0.3784959614276886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33837854862213135,
      "epoch": 10.26,
      "learning_rate": 1.755479023168441e-05,
      "loss": 0.4875,
      "step": 12138,
      "task_loss": 0.47654134035110474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5795750021934509,
      "epoch": 10.26,
      "learning_rate": 1.755165936130244e-05,
      "loss": 0.5628,
      "step": 12139,
      "task_loss": 0.5714025497436523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2206198126077652,
      "epoch": 10.26,
      "learning_rate": 1.7548528490920475e-05,
      "loss": 0.3323,
      "step": 12140,
      "task_loss": 0.4442630112171173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8855122327804565,
      "epoch": 10.26,
      "learning_rate": 1.754539762053851e-05,
      "loss": 0.4963,
      "step": 12141,
      "task_loss": 0.27703234553337097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5920486450195312,
      "epoch": 10.26,
      "learning_rate": 1.7542266750156546e-05,
      "loss": 0.5779,
      "step": 12142,
      "task_loss": 0.2762804925441742
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39011240005493164,
      "epoch": 10.26,
      "learning_rate": 1.7539135879774577e-05,
      "loss": 0.4518,
      "step": 12143,
      "task_loss": 1.1141444444656372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4639725685119629,
      "epoch": 10.27,
      "learning_rate": 1.7536005009392613e-05,
      "loss": 0.5686,
      "step": 12144,
      "task_loss": 0.30392763018608093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3288063406944275,
      "epoch": 10.27,
      "learning_rate": 1.7532874139010648e-05,
      "loss": 0.4498,
      "step": 12145,
      "task_loss": 0.5114906430244446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33811482787132263,
      "epoch": 10.27,
      "learning_rate": 1.752974326862868e-05,
      "loss": 0.4504,
      "step": 12146,
      "task_loss": 1.084761142730713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5091581344604492,
      "epoch": 10.27,
      "learning_rate": 1.7526612398246715e-05,
      "loss": 0.5187,
      "step": 12147,
      "task_loss": 0.739599347114563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6010454893112183,
      "epoch": 10.27,
      "learning_rate": 1.7523481527864747e-05,
      "loss": 0.6833,
      "step": 12148,
      "task_loss": 1.2797173261642456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6224385499954224,
      "epoch": 10.27,
      "learning_rate": 1.7520350657482782e-05,
      "loss": 0.4896,
      "step": 12149,
      "task_loss": 0.7689597010612488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4768401086330414,
      "epoch": 10.27,
      "learning_rate": 1.7517219787100814e-05,
      "loss": 0.5809,
      "step": 12150,
      "task_loss": 0.8329519629478455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3430788516998291,
      "epoch": 10.27,
      "learning_rate": 1.751408891671885e-05,
      "loss": 0.4345,
      "step": 12151,
      "task_loss": 0.4872564971446991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4670379161834717,
      "epoch": 10.27,
      "learning_rate": 1.7510958046336884e-05,
      "loss": 0.4552,
      "step": 12152,
      "task_loss": 0.9554538726806641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5339517593383789,
      "epoch": 10.27,
      "learning_rate": 1.7507827175954916e-05,
      "loss": 0.492,
      "step": 12153,
      "task_loss": 0.20278915762901306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8736552000045776,
      "epoch": 10.27,
      "learning_rate": 1.750469630557295e-05,
      "loss": 0.6452,
      "step": 12154,
      "task_loss": 0.8815100789070129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5381532311439514,
      "epoch": 10.27,
      "learning_rate": 1.7501565435190983e-05,
      "loss": 0.5333,
      "step": 12155,
      "task_loss": 0.6295170187950134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.449758380651474,
      "epoch": 10.28,
      "learning_rate": 1.7498434564809018e-05,
      "loss": 0.5593,
      "step": 12156,
      "task_loss": 0.36644792556762695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5347714424133301,
      "epoch": 10.28,
      "learning_rate": 1.749530369442705e-05,
      "loss": 0.8123,
      "step": 12157,
      "task_loss": 0.3820698857307434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5335156917572021,
      "epoch": 10.28,
      "learning_rate": 1.7492172824045085e-05,
      "loss": 0.4865,
      "step": 12158,
      "task_loss": 1.1111325025558472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3091448247432709,
      "epoch": 10.28,
      "learning_rate": 1.748904195366312e-05,
      "loss": 0.3366,
      "step": 12159,
      "task_loss": 0.2085484117269516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4802117347717285,
      "epoch": 10.28,
      "learning_rate": 1.7485911083281155e-05,
      "loss": 0.618,
      "step": 12160,
      "task_loss": 1.4415159225463867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5550795793533325,
      "epoch": 10.28,
      "learning_rate": 1.7482780212899187e-05,
      "loss": 0.4485,
      "step": 12161,
      "task_loss": 0.9607769846916199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25969797372817993,
      "epoch": 10.28,
      "learning_rate": 1.7479649342517222e-05,
      "loss": 0.4299,
      "step": 12162,
      "task_loss": 0.2780642807483673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47950419783592224,
      "epoch": 10.28,
      "learning_rate": 1.7476518472135254e-05,
      "loss": 0.3911,
      "step": 12163,
      "task_loss": 0.6902692317962646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41208064556121826,
      "epoch": 10.28,
      "learning_rate": 1.747338760175329e-05,
      "loss": 0.4248,
      "step": 12164,
      "task_loss": 0.15303565561771393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3424745202064514,
      "epoch": 10.28,
      "learning_rate": 1.7470256731371324e-05,
      "loss": 0.3354,
      "step": 12165,
      "task_loss": 0.5274087190628052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.541602373123169,
      "epoch": 10.28,
      "learning_rate": 1.7467125860989356e-05,
      "loss": 0.5845,
      "step": 12166,
      "task_loss": 0.6942696571350098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3709469139575958,
      "epoch": 10.28,
      "learning_rate": 1.746399499060739e-05,
      "loss": 0.4667,
      "step": 12167,
      "task_loss": 1.3158189058303833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.1968079805374146,
      "epoch": 10.29,
      "learning_rate": 1.7460864120225423e-05,
      "loss": 0.663,
      "step": 12168,
      "task_loss": 1.0810977220535278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4244834780693054,
      "epoch": 10.29,
      "learning_rate": 1.7457733249843458e-05,
      "loss": 0.5346,
      "step": 12169,
      "task_loss": 0.5792749524116516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.548768162727356,
      "epoch": 10.29,
      "learning_rate": 1.745460237946149e-05,
      "loss": 0.4861,
      "step": 12170,
      "task_loss": 0.4075787663459778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8195865750312805,
      "epoch": 10.29,
      "learning_rate": 1.7451471509079525e-05,
      "loss": 0.7251,
      "step": 12171,
      "task_loss": 1.2254607677459717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4595829248428345,
      "epoch": 10.29,
      "learning_rate": 1.7448340638697557e-05,
      "loss": 0.5706,
      "step": 12172,
      "task_loss": 0.8418439030647278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37524357438087463,
      "epoch": 10.29,
      "learning_rate": 1.7445209768315592e-05,
      "loss": 0.6144,
      "step": 12173,
      "task_loss": 0.7548801302909851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.351808100938797,
      "epoch": 10.29,
      "learning_rate": 1.7442078897933624e-05,
      "loss": 0.5286,
      "step": 12174,
      "task_loss": 0.20178617537021637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35312336683273315,
      "epoch": 10.29,
      "learning_rate": 1.743894802755166e-05,
      "loss": 0.5638,
      "step": 12175,
      "task_loss": 0.5014525651931763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4214268922805786,
      "epoch": 10.29,
      "learning_rate": 1.7435817157169694e-05,
      "loss": 0.4556,
      "step": 12176,
      "task_loss": 0.7634850740432739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5734293460845947,
      "epoch": 10.29,
      "learning_rate": 1.743268628678773e-05,
      "loss": 0.4598,
      "step": 12177,
      "task_loss": 0.4482349157333374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23997092247009277,
      "epoch": 10.29,
      "learning_rate": 1.7429555416405764e-05,
      "loss": 0.6078,
      "step": 12178,
      "task_loss": 0.021681414917111397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8235051035881042,
      "epoch": 10.29,
      "learning_rate": 1.7426424546023796e-05,
      "loss": 0.6131,
      "step": 12179,
      "task_loss": 0.6130803823471069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8186478614807129,
      "epoch": 10.3,
      "learning_rate": 1.742329367564183e-05,
      "loss": 0.6552,
      "step": 12180,
      "task_loss": 1.2082864046096802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6827694773674011,
      "epoch": 10.3,
      "learning_rate": 1.7420162805259863e-05,
      "loss": 0.5427,
      "step": 12181,
      "task_loss": 0.43797826766967773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3387342095375061,
      "epoch": 10.3,
      "learning_rate": 1.7417031934877898e-05,
      "loss": 0.3994,
      "step": 12182,
      "task_loss": 0.6677094101905823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22866083681583405,
      "epoch": 10.3,
      "learning_rate": 1.741390106449593e-05,
      "loss": 0.4692,
      "step": 12183,
      "task_loss": 0.39938992261886597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5735954642295837,
      "epoch": 10.3,
      "learning_rate": 1.7410770194113965e-05,
      "loss": 0.5651,
      "step": 12184,
      "task_loss": 0.2714807689189911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6572301983833313,
      "epoch": 10.3,
      "learning_rate": 1.7407639323731997e-05,
      "loss": 0.432,
      "step": 12185,
      "task_loss": 0.4191094934940338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4912635087966919,
      "epoch": 10.3,
      "learning_rate": 1.7404508453350032e-05,
      "loss": 0.5024,
      "step": 12186,
      "task_loss": 0.4234296679496765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5507910251617432,
      "epoch": 10.3,
      "learning_rate": 1.7401377582968064e-05,
      "loss": 0.6193,
      "step": 12187,
      "task_loss": 0.8246733546257019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6601153016090393,
      "epoch": 10.3,
      "learning_rate": 1.73982467125861e-05,
      "loss": 0.5215,
      "step": 12188,
      "task_loss": 1.04474937915802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4999523162841797,
      "epoch": 10.3,
      "learning_rate": 1.7395115842204134e-05,
      "loss": 0.4893,
      "step": 12189,
      "task_loss": 0.5610742568969727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7085359692573547,
      "epoch": 10.3,
      "learning_rate": 1.7391984971822166e-05,
      "loss": 0.4611,
      "step": 12190,
      "task_loss": 0.48162421584129333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4173715114593506,
      "epoch": 10.3,
      "learning_rate": 1.73888541014402e-05,
      "loss": 0.5023,
      "step": 12191,
      "task_loss": 0.9034230709075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4331740736961365,
      "epoch": 10.31,
      "learning_rate": 1.7385723231058233e-05,
      "loss": 0.4689,
      "step": 12192,
      "task_loss": 1.1922953128814697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5675303936004639,
      "epoch": 10.31,
      "learning_rate": 1.7382592360676268e-05,
      "loss": 0.559,
      "step": 12193,
      "task_loss": 0.888352632522583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7231813073158264,
      "epoch": 10.31,
      "learning_rate": 1.7379461490294303e-05,
      "loss": 0.5844,
      "step": 12194,
      "task_loss": 0.715495228767395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2692994177341461,
      "epoch": 10.31,
      "learning_rate": 1.737633061991234e-05,
      "loss": 0.4257,
      "step": 12195,
      "task_loss": 0.08780968934297562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5697711706161499,
      "epoch": 10.31,
      "learning_rate": 1.737319974953037e-05,
      "loss": 0.6708,
      "step": 12196,
      "task_loss": 0.710485577583313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0372469425201416,
      "epoch": 10.31,
      "learning_rate": 1.7370068879148405e-05,
      "loss": 0.5986,
      "step": 12197,
      "task_loss": 0.2013901025056839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36944013833999634,
      "epoch": 10.31,
      "learning_rate": 1.7366938008766437e-05,
      "loss": 0.5026,
      "step": 12198,
      "task_loss": 0.7722318768501282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.531379222869873,
      "epoch": 10.31,
      "learning_rate": 1.7363807138384472e-05,
      "loss": 0.5159,
      "step": 12199,
      "task_loss": 0.18065273761749268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47422710061073303,
      "epoch": 10.31,
      "learning_rate": 1.7360676268002504e-05,
      "loss": 0.5259,
      "step": 12200,
      "task_loss": 0.8400028347969055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8568718433380127,
      "epoch": 10.31,
      "learning_rate": 1.735754539762054e-05,
      "loss": 0.6497,
      "step": 12201,
      "task_loss": 0.6886548399925232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6522707343101501,
      "epoch": 10.31,
      "learning_rate": 1.7354414527238575e-05,
      "loss": 0.4885,
      "step": 12202,
      "task_loss": 0.9855214357376099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3413834869861603,
      "epoch": 10.32,
      "learning_rate": 1.7351283656856606e-05,
      "loss": 0.4146,
      "step": 12203,
      "task_loss": 0.11795129626989365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37840113043785095,
      "epoch": 10.32,
      "learning_rate": 1.734815278647464e-05,
      "loss": 0.4439,
      "step": 12204,
      "task_loss": 0.17236557602882385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6404232978820801,
      "epoch": 10.32,
      "learning_rate": 1.7345021916092673e-05,
      "loss": 0.7254,
      "step": 12205,
      "task_loss": 0.40103477239608765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4390019178390503,
      "epoch": 10.32,
      "learning_rate": 1.734189104571071e-05,
      "loss": 0.4521,
      "step": 12206,
      "task_loss": 0.4988808035850525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5556554794311523,
      "epoch": 10.32,
      "learning_rate": 1.733876017532874e-05,
      "loss": 0.6874,
      "step": 12207,
      "task_loss": 0.6498032212257385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5765914916992188,
      "epoch": 10.32,
      "learning_rate": 1.7335629304946775e-05,
      "loss": 0.4352,
      "step": 12208,
      "task_loss": 1.6233189105987549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5411723852157593,
      "epoch": 10.32,
      "learning_rate": 1.733249843456481e-05,
      "loss": 0.571,
      "step": 12209,
      "task_loss": 1.6129049062728882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6225683689117432,
      "epoch": 10.32,
      "learning_rate": 1.7329367564182842e-05,
      "loss": 0.4976,
      "step": 12210,
      "task_loss": 0.6423135995864868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8439531326293945,
      "epoch": 10.32,
      "learning_rate": 1.7326236693800878e-05,
      "loss": 0.6191,
      "step": 12211,
      "task_loss": 0.3985973298549652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.765265941619873,
      "epoch": 10.32,
      "learning_rate": 1.7323105823418913e-05,
      "loss": 0.5385,
      "step": 12212,
      "task_loss": 0.7927666902542114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3803078234195709,
      "epoch": 10.32,
      "learning_rate": 1.7319974953036944e-05,
      "loss": 0.5381,
      "step": 12213,
      "task_loss": 1.3237972259521484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5011600255966187,
      "epoch": 10.32,
      "learning_rate": 1.731684408265498e-05,
      "loss": 0.5679,
      "step": 12214,
      "task_loss": 0.6040918231010437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3896874189376831,
      "epoch": 10.33,
      "learning_rate": 1.7313713212273015e-05,
      "loss": 0.4288,
      "step": 12215,
      "task_loss": 0.7434263229370117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2747374176979065,
      "epoch": 10.33,
      "learning_rate": 1.7310582341891047e-05,
      "loss": 0.6155,
      "step": 12216,
      "task_loss": 0.3529528081417084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2948361337184906,
      "epoch": 10.33,
      "learning_rate": 1.7307451471509082e-05,
      "loss": 0.3907,
      "step": 12217,
      "task_loss": 0.5203471779823303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6264392137527466,
      "epoch": 10.33,
      "learning_rate": 1.7304320601127114e-05,
      "loss": 0.4644,
      "step": 12218,
      "task_loss": 0.9097943305969238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6916968822479248,
      "epoch": 10.33,
      "learning_rate": 1.730118973074515e-05,
      "loss": 0.9255,
      "step": 12219,
      "task_loss": 1.1891075372695923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6629174947738647,
      "epoch": 10.33,
      "learning_rate": 1.729805886036318e-05,
      "loss": 0.5083,
      "step": 12220,
      "task_loss": 1.116591453552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48602724075317383,
      "epoch": 10.33,
      "learning_rate": 1.7294927989981216e-05,
      "loss": 0.4826,
      "step": 12221,
      "task_loss": 0.09738582372665405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5736634731292725,
      "epoch": 10.33,
      "learning_rate": 1.7291797119599247e-05,
      "loss": 0.4693,
      "step": 12222,
      "task_loss": 0.6700268983840942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7391406893730164,
      "epoch": 10.33,
      "learning_rate": 1.7288666249217283e-05,
      "loss": 0.5782,
      "step": 12223,
      "task_loss": 0.7286933660507202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4050447940826416,
      "epoch": 10.33,
      "learning_rate": 1.7285535378835314e-05,
      "loss": 0.454,
      "step": 12224,
      "task_loss": 0.2854902446269989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34053921699523926,
      "epoch": 10.33,
      "learning_rate": 1.728240450845335e-05,
      "loss": 0.3791,
      "step": 12225,
      "task_loss": 0.34353652596473694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22024428844451904,
      "epoch": 10.33,
      "learning_rate": 1.7279273638071385e-05,
      "loss": 0.5084,
      "step": 12226,
      "task_loss": 0.3408294916152954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39716506004333496,
      "epoch": 10.34,
      "learning_rate": 1.727614276768942e-05,
      "loss": 0.48,
      "step": 12227,
      "task_loss": 0.40844520926475525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5761492848396301,
      "epoch": 10.34,
      "learning_rate": 1.7273011897307455e-05,
      "loss": 0.4828,
      "step": 12228,
      "task_loss": 1.0160927772521973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7320243120193481,
      "epoch": 10.34,
      "learning_rate": 1.7269881026925487e-05,
      "loss": 0.5331,
      "step": 12229,
      "task_loss": 0.660978376865387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2697523534297943,
      "epoch": 10.34,
      "learning_rate": 1.7266750156543522e-05,
      "loss": 0.4401,
      "step": 12230,
      "task_loss": 0.4118894934654236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34834277629852295,
      "epoch": 10.34,
      "learning_rate": 1.7263619286161554e-05,
      "loss": 0.5629,
      "step": 12231,
      "task_loss": 0.08823658525943756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27456793189048767,
      "epoch": 10.34,
      "learning_rate": 1.726048841577959e-05,
      "loss": 0.4078,
      "step": 12232,
      "task_loss": 0.28218990564346313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5704047679901123,
      "epoch": 10.34,
      "learning_rate": 1.725735754539762e-05,
      "loss": 0.4961,
      "step": 12233,
      "task_loss": 0.368924617767334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4881141185760498,
      "epoch": 10.34,
      "learning_rate": 1.7254226675015656e-05,
      "loss": 0.5204,
      "step": 12234,
      "task_loss": 0.8035383224487305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3036963939666748,
      "epoch": 10.34,
      "learning_rate": 1.7251095804633688e-05,
      "loss": 0.3655,
      "step": 12235,
      "task_loss": 0.5877688527107239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5915317535400391,
      "epoch": 10.34,
      "learning_rate": 1.7247964934251723e-05,
      "loss": 0.5099,
      "step": 12236,
      "task_loss": 0.9211133122444153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3020688593387604,
      "epoch": 10.34,
      "learning_rate": 1.7244834063869755e-05,
      "loss": 0.5487,
      "step": 12237,
      "task_loss": 0.7379892468452454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8382809162139893,
      "epoch": 10.34,
      "learning_rate": 1.724170319348779e-05,
      "loss": 0.6193,
      "step": 12238,
      "task_loss": 0.7261719107627869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7891133427619934,
      "epoch": 10.35,
      "learning_rate": 1.7238572323105825e-05,
      "loss": 0.5514,
      "step": 12239,
      "task_loss": 1.1004043817520142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4192657768726349,
      "epoch": 10.35,
      "learning_rate": 1.7235441452723857e-05,
      "loss": 0.447,
      "step": 12240,
      "task_loss": 0.7670013308525085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32054758071899414,
      "epoch": 10.35,
      "learning_rate": 1.7232310582341892e-05,
      "loss": 0.4434,
      "step": 12241,
      "task_loss": 0.5419958829879761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3918742537498474,
      "epoch": 10.35,
      "learning_rate": 1.7229179711959924e-05,
      "loss": 0.5362,
      "step": 12242,
      "task_loss": 0.8697637319564819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5483147501945496,
      "epoch": 10.35,
      "learning_rate": 1.722604884157796e-05,
      "loss": 0.5763,
      "step": 12243,
      "task_loss": 0.7845941185951233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42728525400161743,
      "epoch": 10.35,
      "learning_rate": 1.7222917971195994e-05,
      "loss": 0.3382,
      "step": 12244,
      "task_loss": 0.28603053092956543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2533744275569916,
      "epoch": 10.35,
      "learning_rate": 1.721978710081403e-05,
      "loss": 0.5509,
      "step": 12245,
      "task_loss": 0.13504517078399658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35888269543647766,
      "epoch": 10.35,
      "learning_rate": 1.721665623043206e-05,
      "loss": 0.5038,
      "step": 12246,
      "task_loss": 0.38439247012138367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7100124955177307,
      "epoch": 10.35,
      "learning_rate": 1.7213525360050096e-05,
      "loss": 0.6588,
      "step": 12247,
      "task_loss": 0.9679797887802124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49897757172584534,
      "epoch": 10.35,
      "learning_rate": 1.7210394489668128e-05,
      "loss": 0.5138,
      "step": 12248,
      "task_loss": 0.5328618884086609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105197072029114,
      "epoch": 10.35,
      "learning_rate": 1.7207263619286163e-05,
      "loss": 0.4437,
      "step": 12249,
      "task_loss": 0.4941640794277191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32585203647613525,
      "epoch": 10.35,
      "learning_rate": 1.7204132748904198e-05,
      "loss": 0.4398,
      "step": 12250,
      "task_loss": 0.5088539719581604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5296124815940857,
      "epoch": 10.36,
      "learning_rate": 1.720100187852223e-05,
      "loss": 0.3938,
      "step": 12251,
      "task_loss": 0.7750639915466309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7517831325531006,
      "epoch": 10.36,
      "learning_rate": 1.7197871008140265e-05,
      "loss": 0.6655,
      "step": 12252,
      "task_loss": 1.4544979333877563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.533845841884613,
      "epoch": 10.36,
      "learning_rate": 1.7194740137758297e-05,
      "loss": 0.5206,
      "step": 12253,
      "task_loss": 0.8148673176765442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.727154552936554,
      "epoch": 10.36,
      "learning_rate": 1.7191609267376332e-05,
      "loss": 0.7482,
      "step": 12254,
      "task_loss": 0.7734328508377075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33595824241638184,
      "epoch": 10.36,
      "learning_rate": 1.7188478396994364e-05,
      "loss": 0.5418,
      "step": 12255,
      "task_loss": 1.254357933998108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4553719162940979,
      "epoch": 10.36,
      "learning_rate": 1.71853475266124e-05,
      "loss": 0.5266,
      "step": 12256,
      "task_loss": 0.16209007799625397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3668401837348938,
      "epoch": 10.36,
      "learning_rate": 1.718221665623043e-05,
      "loss": 0.464,
      "step": 12257,
      "task_loss": 0.4056311249732971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4568755030632019,
      "epoch": 10.36,
      "learning_rate": 1.7179085785848466e-05,
      "loss": 0.5027,
      "step": 12258,
      "task_loss": 0.8823167085647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5354210138320923,
      "epoch": 10.36,
      "learning_rate": 1.7175954915466498e-05,
      "loss": 0.4576,
      "step": 12259,
      "task_loss": 1.293291687965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5193758010864258,
      "epoch": 10.36,
      "learning_rate": 1.7172824045084533e-05,
      "loss": 0.4799,
      "step": 12260,
      "task_loss": 1.2169257402420044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5151838064193726,
      "epoch": 10.36,
      "learning_rate": 1.7169693174702568e-05,
      "loss": 0.5673,
      "step": 12261,
      "task_loss": 0.32707077264785767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4340287446975708,
      "epoch": 10.36,
      "learning_rate": 1.7166562304320603e-05,
      "loss": 0.4805,
      "step": 12262,
      "task_loss": 0.713024377822876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5026726722717285,
      "epoch": 10.37,
      "learning_rate": 1.716343143393864e-05,
      "loss": 0.4264,
      "step": 12263,
      "task_loss": 0.4953550696372986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6420920491218567,
      "epoch": 10.37,
      "learning_rate": 1.716030056355667e-05,
      "loss": 0.5906,
      "step": 12264,
      "task_loss": 0.5675892233848572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49645352363586426,
      "epoch": 10.37,
      "learning_rate": 1.7157169693174706e-05,
      "loss": 0.4946,
      "step": 12265,
      "task_loss": 0.3855322301387787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41374439001083374,
      "epoch": 10.37,
      "learning_rate": 1.7154038822792737e-05,
      "loss": 0.5889,
      "step": 12266,
      "task_loss": 1.4620635509490967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37082403898239136,
      "epoch": 10.37,
      "learning_rate": 1.7150907952410772e-05,
      "loss": 0.5309,
      "step": 12267,
      "task_loss": 0.10343547910451889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7614217400550842,
      "epoch": 10.37,
      "learning_rate": 1.7147777082028804e-05,
      "loss": 0.4293,
      "step": 12268,
      "task_loss": 1.0433911085128784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3330461382865906,
      "epoch": 10.37,
      "learning_rate": 1.714464621164684e-05,
      "loss": 0.3955,
      "step": 12269,
      "task_loss": 0.3990883529186249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4478636384010315,
      "epoch": 10.37,
      "learning_rate": 1.714151534126487e-05,
      "loss": 0.5609,
      "step": 12270,
      "task_loss": 0.7905673384666443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6165738105773926,
      "epoch": 10.37,
      "learning_rate": 1.7138384470882906e-05,
      "loss": 0.5414,
      "step": 12271,
      "task_loss": 0.19374816119670868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45530056953430176,
      "epoch": 10.37,
      "learning_rate": 1.7135253600500938e-05,
      "loss": 0.5715,
      "step": 12272,
      "task_loss": 0.28644248843193054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8567829132080078,
      "epoch": 10.37,
      "learning_rate": 1.7132122730118973e-05,
      "loss": 0.689,
      "step": 12273,
      "task_loss": 1.2195895910263062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5616340637207031,
      "epoch": 10.38,
      "learning_rate": 1.7128991859737005e-05,
      "loss": 0.491,
      "step": 12274,
      "task_loss": 0.4310693144798279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5032805800437927,
      "epoch": 10.38,
      "learning_rate": 1.712586098935504e-05,
      "loss": 0.3773,
      "step": 12275,
      "task_loss": 0.9398649334907532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5700476169586182,
      "epoch": 10.38,
      "learning_rate": 1.7122730118973075e-05,
      "loss": 0.5107,
      "step": 12276,
      "task_loss": 0.6020041108131409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7694606781005859,
      "epoch": 10.38,
      "learning_rate": 1.7119599248591107e-05,
      "loss": 0.5623,
      "step": 12277,
      "task_loss": 1.308854579925537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.240865558385849,
      "epoch": 10.38,
      "learning_rate": 1.7116468378209142e-05,
      "loss": 0.5059,
      "step": 12278,
      "task_loss": 0.5923565626144409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3567999601364136,
      "epoch": 10.38,
      "learning_rate": 1.7113337507827178e-05,
      "loss": 0.3847,
      "step": 12279,
      "task_loss": 0.21628281474113464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4050002992153168,
      "epoch": 10.38,
      "learning_rate": 1.7110206637445213e-05,
      "loss": 0.4302,
      "step": 12280,
      "task_loss": 1.063292384147644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6414216756820679,
      "epoch": 10.38,
      "learning_rate": 1.7107075767063245e-05,
      "loss": 0.502,
      "step": 12281,
      "task_loss": 0.2143091857433319
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37984931468963623,
      "epoch": 10.38,
      "learning_rate": 1.710394489668128e-05,
      "loss": 0.5156,
      "step": 12282,
      "task_loss": 0.493586927652359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6817167401313782,
      "epoch": 10.38,
      "learning_rate": 1.710081402629931e-05,
      "loss": 0.595,
      "step": 12283,
      "task_loss": 1.2521718740463257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6356970071792603,
      "epoch": 10.38,
      "learning_rate": 1.7097683155917347e-05,
      "loss": 0.5415,
      "step": 12284,
      "task_loss": 0.6144841313362122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5662777423858643,
      "epoch": 10.38,
      "learning_rate": 1.709455228553538e-05,
      "loss": 0.4402,
      "step": 12285,
      "task_loss": 0.40835049748420715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5199501514434814,
      "epoch": 10.39,
      "learning_rate": 1.7091421415153414e-05,
      "loss": 0.5184,
      "step": 12286,
      "task_loss": 0.2665833532810211
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49974730610847473,
      "epoch": 10.39,
      "learning_rate": 1.708829054477145e-05,
      "loss": 0.5493,
      "step": 12287,
      "task_loss": 0.5451720952987671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47618329524993896,
      "epoch": 10.39,
      "learning_rate": 1.708515967438948e-05,
      "loss": 0.4025,
      "step": 12288,
      "task_loss": 0.6389619708061218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29549553990364075,
      "epoch": 10.39,
      "learning_rate": 1.7082028804007516e-05,
      "loss": 0.3739,
      "step": 12289,
      "task_loss": 0.30647122859954834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48130083084106445,
      "epoch": 10.39,
      "learning_rate": 1.7078897933625547e-05,
      "loss": 0.5182,
      "step": 12290,
      "task_loss": 0.5374861359596252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828546762466431,
      "epoch": 10.39,
      "learning_rate": 1.7075767063243583e-05,
      "loss": 0.5784,
      "step": 12291,
      "task_loss": 1.2901469469070435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40620285272598267,
      "epoch": 10.39,
      "learning_rate": 1.7072636192861614e-05,
      "loss": 0.6692,
      "step": 12292,
      "task_loss": 1.235414981842041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.782830536365509,
      "epoch": 10.39,
      "learning_rate": 1.706950532247965e-05,
      "loss": 0.7079,
      "step": 12293,
      "task_loss": 1.218846082687378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.577411413192749,
      "epoch": 10.39,
      "learning_rate": 1.7066374452097685e-05,
      "loss": 0.4503,
      "step": 12294,
      "task_loss": 0.3457411527633667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38234925270080566,
      "epoch": 10.39,
      "learning_rate": 1.7063243581715717e-05,
      "loss": 0.6871,
      "step": 12295,
      "task_loss": 0.9793305397033691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4326210618019104,
      "epoch": 10.39,
      "learning_rate": 1.7060112711333752e-05,
      "loss": 0.4779,
      "step": 12296,
      "task_loss": 0.22104841470718384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.596454381942749,
      "epoch": 10.39,
      "learning_rate": 1.7056981840951787e-05,
      "loss": 0.4515,
      "step": 12297,
      "task_loss": 0.3910447359085083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4186401963233948,
      "epoch": 10.4,
      "learning_rate": 1.705385097056982e-05,
      "loss": 0.4098,
      "step": 12298,
      "task_loss": 0.3806252181529999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48662275075912476,
      "epoch": 10.4,
      "learning_rate": 1.7050720100187854e-05,
      "loss": 0.4946,
      "step": 12299,
      "task_loss": 0.30145952105522156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3112031817436218,
      "epoch": 10.4,
      "learning_rate": 1.704758922980589e-05,
      "loss": 0.5935,
      "step": 12300,
      "task_loss": 0.67006915807724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41914063692092896,
      "epoch": 10.4,
      "learning_rate": 1.704445835942392e-05,
      "loss": 0.5307,
      "step": 12301,
      "task_loss": 0.7782171964645386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6413158178329468,
      "epoch": 10.4,
      "learning_rate": 1.7041327489041956e-05,
      "loss": 0.4785,
      "step": 12302,
      "task_loss": 0.6725981831550598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42512789368629456,
      "epoch": 10.4,
      "learning_rate": 1.7038196618659988e-05,
      "loss": 0.5131,
      "step": 12303,
      "task_loss": 0.5381811261177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8157612681388855,
      "epoch": 10.4,
      "learning_rate": 1.7035065748278023e-05,
      "loss": 0.5121,
      "step": 12304,
      "task_loss": 0.3281375765800476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28827178478240967,
      "epoch": 10.4,
      "learning_rate": 1.7031934877896055e-05,
      "loss": 0.5247,
      "step": 12305,
      "task_loss": 0.4648421108722687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41553795337677,
      "epoch": 10.4,
      "learning_rate": 1.702880400751409e-05,
      "loss": 0.5953,
      "step": 12306,
      "task_loss": 0.270324170589447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45487162470817566,
      "epoch": 10.4,
      "learning_rate": 1.702567313713212e-05,
      "loss": 0.5071,
      "step": 12307,
      "task_loss": 0.6547653675079346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.357261061668396,
      "epoch": 10.4,
      "learning_rate": 1.7022542266750157e-05,
      "loss": 0.408,
      "step": 12308,
      "task_loss": 0.4919606149196625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25473788380622864,
      "epoch": 10.4,
      "learning_rate": 1.701941139636819e-05,
      "loss": 0.3839,
      "step": 12309,
      "task_loss": 0.12997429072856903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6615239381790161,
      "epoch": 10.41,
      "learning_rate": 1.7016280525986224e-05,
      "loss": 0.6802,
      "step": 12310,
      "task_loss": 1.3572030067443848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6650342345237732,
      "epoch": 10.41,
      "learning_rate": 1.701314965560426e-05,
      "loss": 0.4741,
      "step": 12311,
      "task_loss": 0.4832237660884857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7184391021728516,
      "epoch": 10.41,
      "learning_rate": 1.7010018785222294e-05,
      "loss": 0.5568,
      "step": 12312,
      "task_loss": 1.2294588088989258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3721161186695099,
      "epoch": 10.41,
      "learning_rate": 1.700688791484033e-05,
      "loss": 0.4657,
      "step": 12313,
      "task_loss": 0.765754759311676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3845919966697693,
      "epoch": 10.41,
      "learning_rate": 1.700375704445836e-05,
      "loss": 0.4132,
      "step": 12314,
      "task_loss": 0.39494407176971436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.554307758808136,
      "epoch": 10.41,
      "learning_rate": 1.7000626174076396e-05,
      "loss": 0.5825,
      "step": 12315,
      "task_loss": 0.7759048938751221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3120424151420593,
      "epoch": 10.41,
      "learning_rate": 1.6997495303694428e-05,
      "loss": 0.5132,
      "step": 12316,
      "task_loss": 0.3829892575740814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833746910095215,
      "epoch": 10.41,
      "learning_rate": 1.6994364433312463e-05,
      "loss": 0.6081,
      "step": 12317,
      "task_loss": 0.23813539743423462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4294738471508026,
      "epoch": 10.41,
      "learning_rate": 1.6991233562930495e-05,
      "loss": 0.4891,
      "step": 12318,
      "task_loss": 1.2044810056686401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5462110042572021,
      "epoch": 10.41,
      "learning_rate": 1.698810269254853e-05,
      "loss": 0.5835,
      "step": 12319,
      "task_loss": 0.7627325654029846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7123076319694519,
      "epoch": 10.41,
      "learning_rate": 1.6984971822166562e-05,
      "loss": 0.6619,
      "step": 12320,
      "task_loss": 0.8440114259719849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4917060136795044,
      "epoch": 10.41,
      "learning_rate": 1.6981840951784597e-05,
      "loss": 0.4493,
      "step": 12321,
      "task_loss": 0.784010648727417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.52115398645401,
      "epoch": 10.42,
      "learning_rate": 1.697871008140263e-05,
      "loss": 0.5197,
      "step": 12322,
      "task_loss": 0.9970873594284058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5352215766906738,
      "epoch": 10.42,
      "learning_rate": 1.6975579211020664e-05,
      "loss": 0.5101,
      "step": 12323,
      "task_loss": 0.25024116039276123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4464530348777771,
      "epoch": 10.42,
      "learning_rate": 1.69724483406387e-05,
      "loss": 0.5822,
      "step": 12324,
      "task_loss": 0.8409613966941833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4634682238101959,
      "epoch": 10.42,
      "learning_rate": 1.696931747025673e-05,
      "loss": 0.6498,
      "step": 12325,
      "task_loss": 0.31351298093795776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42263978719711304,
      "epoch": 10.42,
      "learning_rate": 1.6966186599874766e-05,
      "loss": 0.5043,
      "step": 12326,
      "task_loss": 0.42905542254447937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6689680218696594,
      "epoch": 10.42,
      "learning_rate": 1.6963055729492798e-05,
      "loss": 0.6305,
      "step": 12327,
      "task_loss": 1.2404260635375977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44589319825172424,
      "epoch": 10.42,
      "learning_rate": 1.6959924859110833e-05,
      "loss": 0.4203,
      "step": 12328,
      "task_loss": 0.9283291697502136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4498080909252167,
      "epoch": 10.42,
      "learning_rate": 1.6956793988728868e-05,
      "loss": 0.5226,
      "step": 12329,
      "task_loss": 0.0670446902513504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16393128037452698,
      "epoch": 10.42,
      "learning_rate": 1.6953663118346903e-05,
      "loss": 0.2027,
      "step": 12330,
      "task_loss": 0.023878000676631927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7711175084114075,
      "epoch": 10.42,
      "learning_rate": 1.6950532247964935e-05,
      "loss": 0.5569,
      "step": 12331,
      "task_loss": 0.9218887090682983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5217347145080566,
      "epoch": 10.42,
      "learning_rate": 1.694740137758297e-05,
      "loss": 0.4495,
      "step": 12332,
      "task_loss": 0.6408128142356873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34963053464889526,
      "epoch": 10.42,
      "learning_rate": 1.6944270507201002e-05,
      "loss": 0.6575,
      "step": 12333,
      "task_loss": 0.7822003364562988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4819610118865967,
      "epoch": 10.43,
      "learning_rate": 1.6941139636819037e-05,
      "loss": 0.6109,
      "step": 12334,
      "task_loss": 0.909914493560791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3376021683216095,
      "epoch": 10.43,
      "learning_rate": 1.693800876643707e-05,
      "loss": 0.5557,
      "step": 12335,
      "task_loss": 0.15435084700584412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7504376173019409,
      "epoch": 10.43,
      "learning_rate": 1.6934877896055104e-05,
      "loss": 0.5462,
      "step": 12336,
      "task_loss": 1.635261058807373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31656765937805176,
      "epoch": 10.43,
      "learning_rate": 1.693174702567314e-05,
      "loss": 0.601,
      "step": 12337,
      "task_loss": 0.4491124749183655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5915046334266663,
      "epoch": 10.43,
      "learning_rate": 1.692861615529117e-05,
      "loss": 0.579,
      "step": 12338,
      "task_loss": 0.8815596699714661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.361400306224823,
      "epoch": 10.43,
      "learning_rate": 1.6925485284909206e-05,
      "loss": 0.4174,
      "step": 12339,
      "task_loss": 1.2411081790924072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6631876230239868,
      "epoch": 10.43,
      "learning_rate": 1.6922354414527238e-05,
      "loss": 0.6385,
      "step": 12340,
      "task_loss": 0.6884949207305908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3292289674282074,
      "epoch": 10.43,
      "learning_rate": 1.6919223544145273e-05,
      "loss": 0.5125,
      "step": 12341,
      "task_loss": 0.42232534289360046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4712413251399994,
      "epoch": 10.43,
      "learning_rate": 1.6916092673763305e-05,
      "loss": 0.5897,
      "step": 12342,
      "task_loss": 0.6350299715995789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.616584300994873,
      "epoch": 10.43,
      "learning_rate": 1.691296180338134e-05,
      "loss": 0.5588,
      "step": 12343,
      "task_loss": 0.8559237718582153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7787129878997803,
      "epoch": 10.43,
      "learning_rate": 1.6909830932999372e-05,
      "loss": 0.7012,
      "step": 12344,
      "task_loss": 0.8923888206481934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28292185068130493,
      "epoch": 10.44,
      "learning_rate": 1.6906700062617407e-05,
      "loss": 0.5195,
      "step": 12345,
      "task_loss": 0.8947023153305054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37383949756622314,
      "epoch": 10.44,
      "learning_rate": 1.6903569192235442e-05,
      "loss": 0.4295,
      "step": 12346,
      "task_loss": 0.05950541794300079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5276881456375122,
      "epoch": 10.44,
      "learning_rate": 1.6900438321853478e-05,
      "loss": 0.4885,
      "step": 12347,
      "task_loss": 0.3524894118309021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6605134010314941,
      "epoch": 10.44,
      "learning_rate": 1.689730745147151e-05,
      "loss": 0.4972,
      "step": 12348,
      "task_loss": 1.2421077489852905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7562405467033386,
      "epoch": 10.44,
      "learning_rate": 1.6894176581089545e-05,
      "loss": 0.5262,
      "step": 12349,
      "task_loss": 0.8199668526649475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5466618537902832,
      "epoch": 10.44,
      "learning_rate": 1.689104571070758e-05,
      "loss": 0.4892,
      "step": 12350,
      "task_loss": 0.6097567081451416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6084431409835815,
      "epoch": 10.44,
      "learning_rate": 1.688791484032561e-05,
      "loss": 0.4177,
      "step": 12351,
      "task_loss": 0.4218100905418396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3900826871395111,
      "epoch": 10.44,
      "learning_rate": 1.6884783969943647e-05,
      "loss": 0.6217,
      "step": 12352,
      "task_loss": 0.9100607633590698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.270298033952713,
      "epoch": 10.44,
      "learning_rate": 1.688165309956168e-05,
      "loss": 0.6024,
      "step": 12353,
      "task_loss": 0.6020806431770325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6140271425247192,
      "epoch": 10.44,
      "learning_rate": 1.6878522229179714e-05,
      "loss": 0.501,
      "step": 12354,
      "task_loss": 0.24923928081989288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32782694697380066,
      "epoch": 10.44,
      "learning_rate": 1.6875391358797745e-05,
      "loss": 0.4913,
      "step": 12355,
      "task_loss": 0.3300352692604065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24197223782539368,
      "epoch": 10.44,
      "learning_rate": 1.687226048841578e-05,
      "loss": 0.5475,
      "step": 12356,
      "task_loss": 0.3087106943130493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8109524846076965,
      "epoch": 10.45,
      "learning_rate": 1.6869129618033812e-05,
      "loss": 0.5033,
      "step": 12357,
      "task_loss": 0.5193219184875488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6340799331665039,
      "epoch": 10.45,
      "learning_rate": 1.6865998747651848e-05,
      "loss": 0.5408,
      "step": 12358,
      "task_loss": 1.2620888948440552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36062368750572205,
      "epoch": 10.45,
      "learning_rate": 1.686286787726988e-05,
      "loss": 0.4704,
      "step": 12359,
      "task_loss": 0.529207170009613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6057044863700867,
      "epoch": 10.45,
      "learning_rate": 1.6859737006887914e-05,
      "loss": 0.4991,
      "step": 12360,
      "task_loss": 0.37151288986206055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42819732427597046,
      "epoch": 10.45,
      "learning_rate": 1.685660613650595e-05,
      "loss": 0.4228,
      "step": 12361,
      "task_loss": 0.562501847743988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2430780827999115,
      "epoch": 10.45,
      "learning_rate": 1.685347526612398e-05,
      "loss": 0.411,
      "step": 12362,
      "task_loss": 0.2594762146472931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45527490973472595,
      "epoch": 10.45,
      "learning_rate": 1.6850344395742017e-05,
      "loss": 0.3936,
      "step": 12363,
      "task_loss": 0.2557188868522644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4635499119758606,
      "epoch": 10.45,
      "learning_rate": 1.6847213525360052e-05,
      "loss": 0.3498,
      "step": 12364,
      "task_loss": 0.32127276062965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37802568078041077,
      "epoch": 10.45,
      "learning_rate": 1.6844082654978087e-05,
      "loss": 0.4387,
      "step": 12365,
      "task_loss": 0.5516072511672974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3356698155403137,
      "epoch": 10.45,
      "learning_rate": 1.684095178459612e-05,
      "loss": 0.3917,
      "step": 12366,
      "task_loss": 0.4234967529773712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4311438202857971,
      "epoch": 10.45,
      "learning_rate": 1.6837820914214154e-05,
      "loss": 0.5367,
      "step": 12367,
      "task_loss": 0.763773500919342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6944614052772522,
      "epoch": 10.45,
      "learning_rate": 1.6834690043832186e-05,
      "loss": 0.607,
      "step": 12368,
      "task_loss": 1.841718077659607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5214617252349854,
      "epoch": 10.46,
      "learning_rate": 1.683155917345022e-05,
      "loss": 0.7859,
      "step": 12369,
      "task_loss": 1.3463878631591797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4892733693122864,
      "epoch": 10.46,
      "learning_rate": 1.6828428303068253e-05,
      "loss": 0.6287,
      "step": 12370,
      "task_loss": 0.6725708842277527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22061726450920105,
      "epoch": 10.46,
      "learning_rate": 1.6825297432686288e-05,
      "loss": 0.4793,
      "step": 12371,
      "task_loss": 0.09887600690126419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4367928206920624,
      "epoch": 10.46,
      "learning_rate": 1.682216656230432e-05,
      "loss": 0.4979,
      "step": 12372,
      "task_loss": 0.6031847596168518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5871248245239258,
      "epoch": 10.46,
      "learning_rate": 1.6819035691922355e-05,
      "loss": 0.3901,
      "step": 12373,
      "task_loss": 0.7840461730957031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23544813692569733,
      "epoch": 10.46,
      "learning_rate": 1.681590482154039e-05,
      "loss": 0.3339,
      "step": 12374,
      "task_loss": 0.22653529047966003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7365343570709229,
      "epoch": 10.46,
      "learning_rate": 1.681277395115842e-05,
      "loss": 0.5955,
      "step": 12375,
      "task_loss": 1.3005489110946655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8637133836746216,
      "epoch": 10.46,
      "learning_rate": 1.6809643080776457e-05,
      "loss": 0.7384,
      "step": 12376,
      "task_loss": 0.8265105485916138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5887594223022461,
      "epoch": 10.46,
      "learning_rate": 1.680651221039449e-05,
      "loss": 0.4183,
      "step": 12377,
      "task_loss": 0.40939533710479736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4588717818260193,
      "epoch": 10.46,
      "learning_rate": 1.6803381340012524e-05,
      "loss": 0.5709,
      "step": 12378,
      "task_loss": 0.4582872986793518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6252527832984924,
      "epoch": 10.46,
      "learning_rate": 1.680025046963056e-05,
      "loss": 0.5188,
      "step": 12379,
      "task_loss": 0.3067522943019867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7391865253448486,
      "epoch": 10.46,
      "learning_rate": 1.6797119599248594e-05,
      "loss": 0.5698,
      "step": 12380,
      "task_loss": 1.2034697532653809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7498160004615784,
      "epoch": 10.47,
      "learning_rate": 1.6793988728866626e-05,
      "loss": 0.5837,
      "step": 12381,
      "task_loss": 1.8775243759155273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26314085721969604,
      "epoch": 10.47,
      "learning_rate": 1.679085785848466e-05,
      "loss": 0.4614,
      "step": 12382,
      "task_loss": 0.44063588976860046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37479516863822937,
      "epoch": 10.47,
      "learning_rate": 1.6787726988102693e-05,
      "loss": 0.485,
      "step": 12383,
      "task_loss": 0.6873224377632141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47590649127960205,
      "epoch": 10.47,
      "learning_rate": 1.6784596117720728e-05,
      "loss": 0.6664,
      "step": 12384,
      "task_loss": 0.605383574962616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19061024487018585,
      "epoch": 10.47,
      "learning_rate": 1.6781465247338763e-05,
      "loss": 0.4273,
      "step": 12385,
      "task_loss": 0.03321922942996025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5453975200653076,
      "epoch": 10.47,
      "learning_rate": 1.6778334376956795e-05,
      "loss": 0.5149,
      "step": 12386,
      "task_loss": 0.9377149939537048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6122019290924072,
      "epoch": 10.47,
      "learning_rate": 1.677520350657483e-05,
      "loss": 0.5552,
      "step": 12387,
      "task_loss": 0.31632745265960693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3554687798023224,
      "epoch": 10.47,
      "learning_rate": 1.6772072636192862e-05,
      "loss": 0.4521,
      "step": 12388,
      "task_loss": 0.7773295044898987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43887859582901,
      "epoch": 10.47,
      "learning_rate": 1.6768941765810897e-05,
      "loss": 0.6824,
      "step": 12389,
      "task_loss": 0.4230102300643921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6166804432868958,
      "epoch": 10.47,
      "learning_rate": 1.676581089542893e-05,
      "loss": 0.6247,
      "step": 12390,
      "task_loss": 1.0344005823135376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8169925212860107,
      "epoch": 10.47,
      "learning_rate": 1.6762680025046964e-05,
      "loss": 0.5779,
      "step": 12391,
      "task_loss": 0.686436116695404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5013287663459778,
      "epoch": 10.47,
      "learning_rate": 1.6759549154664996e-05,
      "loss": 0.3963,
      "step": 12392,
      "task_loss": 0.8616618514060974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8235589265823364,
      "epoch": 10.48,
      "learning_rate": 1.675641828428303e-05,
      "loss": 0.5805,
      "step": 12393,
      "task_loss": 0.5786736607551575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.580960750579834,
      "epoch": 10.48,
      "learning_rate": 1.6753287413901063e-05,
      "loss": 0.4774,
      "step": 12394,
      "task_loss": 0.243538960814476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4001111388206482,
      "epoch": 10.48,
      "learning_rate": 1.6750156543519098e-05,
      "loss": 0.5776,
      "step": 12395,
      "task_loss": 0.20296069979667664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6293742060661316,
      "epoch": 10.48,
      "learning_rate": 1.6747025673137133e-05,
      "loss": 0.5697,
      "step": 12396,
      "task_loss": 1.0582407712936401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.632168710231781,
      "epoch": 10.48,
      "learning_rate": 1.6743894802755168e-05,
      "loss": 0.7271,
      "step": 12397,
      "task_loss": 0.27197980880737305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44642215967178345,
      "epoch": 10.48,
      "learning_rate": 1.6740763932373203e-05,
      "loss": 0.3619,
      "step": 12398,
      "task_loss": 0.11779285967350006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5842616558074951,
      "epoch": 10.48,
      "learning_rate": 1.6737633061991235e-05,
      "loss": 0.5898,
      "step": 12399,
      "task_loss": 1.1564198732376099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5603123307228088,
      "epoch": 10.48,
      "learning_rate": 1.673450219160927e-05,
      "loss": 0.5221,
      "step": 12400,
      "task_loss": 1.4576374292373657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1678169071674347,
      "epoch": 10.48,
      "learning_rate": 1.6731371321227302e-05,
      "loss": 0.3794,
      "step": 12401,
      "task_loss": 0.04925220087170601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6261307597160339,
      "epoch": 10.48,
      "learning_rate": 1.6728240450845337e-05,
      "loss": 0.5375,
      "step": 12402,
      "task_loss": 0.6225045323371887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3058100938796997,
      "epoch": 10.48,
      "learning_rate": 1.672510958046337e-05,
      "loss": 0.5089,
      "step": 12403,
      "task_loss": 0.3323676288127899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37875181436538696,
      "epoch": 10.48,
      "learning_rate": 1.6721978710081404e-05,
      "loss": 0.4846,
      "step": 12404,
      "task_loss": 0.5216951966285706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48818647861480713,
      "epoch": 10.49,
      "learning_rate": 1.6718847839699436e-05,
      "loss": 0.4141,
      "step": 12405,
      "task_loss": 0.41023072600364685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3979291319847107,
      "epoch": 10.49,
      "learning_rate": 1.671571696931747e-05,
      "loss": 0.4168,
      "step": 12406,
      "task_loss": 0.33532148599624634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47524505853652954,
      "epoch": 10.49,
      "learning_rate": 1.6712586098935503e-05,
      "loss": 0.3266,
      "step": 12407,
      "task_loss": 0.7678389549255371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196292400360107,
      "epoch": 10.49,
      "learning_rate": 1.6709455228553538e-05,
      "loss": 0.5673,
      "step": 12408,
      "task_loss": 0.5960555076599121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45745134353637695,
      "epoch": 10.49,
      "learning_rate": 1.670632435817157e-05,
      "loss": 0.656,
      "step": 12409,
      "task_loss": 0.693329930305481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5826972126960754,
      "epoch": 10.49,
      "learning_rate": 1.6703193487789605e-05,
      "loss": 0.5243,
      "step": 12410,
      "task_loss": 0.7235835194587708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23974579572677612,
      "epoch": 10.49,
      "learning_rate": 1.670006261740764e-05,
      "loss": 0.4786,
      "step": 12411,
      "task_loss": 0.6817932724952698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7538391947746277,
      "epoch": 10.49,
      "learning_rate": 1.6696931747025672e-05,
      "loss": 0.4604,
      "step": 12412,
      "task_loss": 0.22005829215049744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43159157037734985,
      "epoch": 10.49,
      "learning_rate": 1.6693800876643707e-05,
      "loss": 0.6524,
      "step": 12413,
      "task_loss": 0.4137827455997467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3823860287666321,
      "epoch": 10.49,
      "learning_rate": 1.6690670006261742e-05,
      "loss": 0.6504,
      "step": 12414,
      "task_loss": 0.5951184034347534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4945065975189209,
      "epoch": 10.49,
      "learning_rate": 1.6687539135879778e-05,
      "loss": 0.4626,
      "step": 12415,
      "task_loss": 0.2858210504055023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6572139859199524,
      "epoch": 10.5,
      "learning_rate": 1.668440826549781e-05,
      "loss": 0.6109,
      "step": 12416,
      "task_loss": 1.2861640453338623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5393455028533936,
      "epoch": 10.5,
      "learning_rate": 1.6681277395115845e-05,
      "loss": 0.5082,
      "step": 12417,
      "task_loss": 1.5057226419448853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3368762135505676,
      "epoch": 10.5,
      "learning_rate": 1.6678146524733876e-05,
      "loss": 0.4521,
      "step": 12418,
      "task_loss": 1.3656002283096313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6208356618881226,
      "epoch": 10.5,
      "learning_rate": 1.667501565435191e-05,
      "loss": 0.5359,
      "step": 12419,
      "task_loss": 0.654286801815033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3460594415664673,
      "epoch": 10.5,
      "learning_rate": 1.6671884783969943e-05,
      "loss": 0.4715,
      "step": 12420,
      "task_loss": 0.8962922692298889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4145790934562683,
      "epoch": 10.5,
      "learning_rate": 1.666875391358798e-05,
      "loss": 0.4598,
      "step": 12421,
      "task_loss": 0.6839534044265747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4224816560745239,
      "epoch": 10.5,
      "learning_rate": 1.6665623043206014e-05,
      "loss": 0.5865,
      "step": 12422,
      "task_loss": 0.7567062377929688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6888131499290466,
      "epoch": 10.5,
      "learning_rate": 1.6662492172824045e-05,
      "loss": 0.5631,
      "step": 12423,
      "task_loss": 0.36458513140678406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36849337816238403,
      "epoch": 10.5,
      "learning_rate": 1.665936130244208e-05,
      "loss": 0.5025,
      "step": 12424,
      "task_loss": 0.6194280385971069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43467286229133606,
      "epoch": 10.5,
      "learning_rate": 1.6656230432060112e-05,
      "loss": 0.4613,
      "step": 12425,
      "task_loss": 0.6329926252365112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5862665772438049,
      "epoch": 10.5,
      "learning_rate": 1.6653099561678148e-05,
      "loss": 0.6269,
      "step": 12426,
      "task_loss": 1.0347108840942383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5354701280593872,
      "epoch": 10.5,
      "learning_rate": 1.664996869129618e-05,
      "loss": 0.6135,
      "step": 12427,
      "task_loss": 1.4006736278533936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30947279930114746,
      "epoch": 10.51,
      "learning_rate": 1.6646837820914215e-05,
      "loss": 0.5278,
      "step": 12428,
      "task_loss": 0.5917579531669617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7481690049171448,
      "epoch": 10.51,
      "learning_rate": 1.6643706950532246e-05,
      "loss": 0.474,
      "step": 12429,
      "task_loss": 1.0044103860855103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4719312787055969,
      "epoch": 10.51,
      "learning_rate": 1.664057608015028e-05,
      "loss": 0.4514,
      "step": 12430,
      "task_loss": 0.4199010729789734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33865857124328613,
      "epoch": 10.51,
      "learning_rate": 1.6637445209768317e-05,
      "loss": 0.4176,
      "step": 12431,
      "task_loss": 1.1088862419128418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4196971654891968,
      "epoch": 10.51,
      "learning_rate": 1.6634314339386352e-05,
      "loss": 0.5002,
      "step": 12432,
      "task_loss": 0.27119994163513184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4561672508716583,
      "epoch": 10.51,
      "learning_rate": 1.6631183469004384e-05,
      "loss": 0.4884,
      "step": 12433,
      "task_loss": 0.359623521566391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5810227990150452,
      "epoch": 10.51,
      "learning_rate": 1.662805259862242e-05,
      "loss": 0.5758,
      "step": 12434,
      "task_loss": 0.8715783357620239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7542203664779663,
      "epoch": 10.51,
      "learning_rate": 1.6624921728240454e-05,
      "loss": 0.733,
      "step": 12435,
      "task_loss": 0.9402740597724915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4289530813694,
      "epoch": 10.51,
      "learning_rate": 1.6621790857858486e-05,
      "loss": 0.5381,
      "step": 12436,
      "task_loss": 0.8890682458877563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4514431059360504,
      "epoch": 10.51,
      "learning_rate": 1.661865998747652e-05,
      "loss": 0.4811,
      "step": 12437,
      "task_loss": 0.6732566356658936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6131711602210999,
      "epoch": 10.51,
      "learning_rate": 1.6615529117094553e-05,
      "loss": 0.4439,
      "step": 12438,
      "task_loss": 0.3249630331993103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46263694763183594,
      "epoch": 10.51,
      "learning_rate": 1.6612398246712588e-05,
      "loss": 0.3753,
      "step": 12439,
      "task_loss": 0.07484301179647446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7042872905731201,
      "epoch": 10.52,
      "learning_rate": 1.660926737633062e-05,
      "loss": 0.5859,
      "step": 12440,
      "task_loss": 0.9625197052955627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8005270957946777,
      "epoch": 10.52,
      "learning_rate": 1.6606136505948655e-05,
      "loss": 0.6522,
      "step": 12441,
      "task_loss": 0.7229359745979309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33988049626350403,
      "epoch": 10.52,
      "learning_rate": 1.6603005635566687e-05,
      "loss": 0.4672,
      "step": 12442,
      "task_loss": 0.6471412181854248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33861011266708374,
      "epoch": 10.52,
      "learning_rate": 1.6599874765184722e-05,
      "loss": 0.4691,
      "step": 12443,
      "task_loss": 0.19340603053569794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4018016755580902,
      "epoch": 10.52,
      "learning_rate": 1.6596743894802753e-05,
      "loss": 0.4284,
      "step": 12444,
      "task_loss": 0.6225508451461792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6568403840065002,
      "epoch": 10.52,
      "learning_rate": 1.659361302442079e-05,
      "loss": 0.4085,
      "step": 12445,
      "task_loss": 0.5843892097473145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4032161235809326,
      "epoch": 10.52,
      "learning_rate": 1.6590482154038824e-05,
      "loss": 0.4666,
      "step": 12446,
      "task_loss": 1.3815257549285889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4969712495803833,
      "epoch": 10.52,
      "learning_rate": 1.658735128365686e-05,
      "loss": 0.6034,
      "step": 12447,
      "task_loss": 0.7115610241889954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.54939866065979,
      "epoch": 10.52,
      "learning_rate": 1.658422041327489e-05,
      "loss": 0.4566,
      "step": 12448,
      "task_loss": 0.850694477558136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4757629632949829,
      "epoch": 10.52,
      "learning_rate": 1.6581089542892926e-05,
      "loss": 0.4393,
      "step": 12449,
      "task_loss": 0.23263248801231384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.466394305229187,
      "epoch": 10.52,
      "learning_rate": 1.657795867251096e-05,
      "loss": 0.5911,
      "step": 12450,
      "task_loss": 0.24758923053741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5019265413284302,
      "epoch": 10.52,
      "learning_rate": 1.6574827802128993e-05,
      "loss": 0.5765,
      "step": 12451,
      "task_loss": 0.4615134298801422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3389222323894501,
      "epoch": 10.53,
      "learning_rate": 1.6571696931747028e-05,
      "loss": 0.525,
      "step": 12452,
      "task_loss": 0.5312319993972778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23250240087509155,
      "epoch": 10.53,
      "learning_rate": 1.656856606136506e-05,
      "loss": 0.404,
      "step": 12453,
      "task_loss": 0.5139718055725098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24876528978347778,
      "epoch": 10.53,
      "learning_rate": 1.6565435190983095e-05,
      "loss": 0.4686,
      "step": 12454,
      "task_loss": 0.19367915391921997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3424587845802307,
      "epoch": 10.53,
      "learning_rate": 1.6562304320601127e-05,
      "loss": 0.5226,
      "step": 12455,
      "task_loss": 0.3043158948421478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9089385271072388,
      "epoch": 10.53,
      "learning_rate": 1.6559173450219162e-05,
      "loss": 0.7984,
      "step": 12456,
      "task_loss": 1.2227623462677002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3975342810153961,
      "epoch": 10.53,
      "learning_rate": 1.6556042579837194e-05,
      "loss": 0.5098,
      "step": 12457,
      "task_loss": 0.7180137038230896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34020814299583435,
      "epoch": 10.53,
      "learning_rate": 1.655291170945523e-05,
      "loss": 0.431,
      "step": 12458,
      "task_loss": 0.18310758471488953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44596585631370544,
      "epoch": 10.53,
      "learning_rate": 1.6549780839073264e-05,
      "loss": 0.4831,
      "step": 12459,
      "task_loss": 0.39173251390457153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5384502410888672,
      "epoch": 10.53,
      "learning_rate": 1.6546649968691296e-05,
      "loss": 0.4612,
      "step": 12460,
      "task_loss": 0.325719952583313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5400130748748779,
      "epoch": 10.53,
      "learning_rate": 1.654351909830933e-05,
      "loss": 0.6355,
      "step": 12461,
      "task_loss": 0.5096601247787476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.583581805229187,
      "epoch": 10.53,
      "learning_rate": 1.6540388227927363e-05,
      "loss": 0.5884,
      "step": 12462,
      "task_loss": 0.5236307382583618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39938679337501526,
      "epoch": 10.53,
      "learning_rate": 1.6537257357545398e-05,
      "loss": 0.5654,
      "step": 12463,
      "task_loss": 0.1562756597995758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4626989960670471,
      "epoch": 10.54,
      "learning_rate": 1.6534126487163433e-05,
      "loss": 0.6831,
      "step": 12464,
      "task_loss": 0.7500542998313904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3211621344089508,
      "epoch": 10.54,
      "learning_rate": 1.653099561678147e-05,
      "loss": 0.394,
      "step": 12465,
      "task_loss": 0.6239553093910217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2399976253509521,
      "epoch": 10.54,
      "learning_rate": 1.65278647463995e-05,
      "loss": 0.7969,
      "step": 12466,
      "task_loss": 2.0350940227508545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32257014513015747,
      "epoch": 10.54,
      "learning_rate": 1.6524733876017535e-05,
      "loss": 0.4137,
      "step": 12467,
      "task_loss": 0.47391051054000854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6611876487731934,
      "epoch": 10.54,
      "learning_rate": 1.6521603005635567e-05,
      "loss": 0.6876,
      "step": 12468,
      "task_loss": 1.2143133878707886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29932701587677,
      "epoch": 10.54,
      "learning_rate": 1.6518472135253602e-05,
      "loss": 0.4752,
      "step": 12469,
      "task_loss": 0.8436862230300903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4649656414985657,
      "epoch": 10.54,
      "learning_rate": 1.6515341264871634e-05,
      "loss": 0.3899,
      "step": 12470,
      "task_loss": 0.25959697365760803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4533727765083313,
      "epoch": 10.54,
      "learning_rate": 1.651221039448967e-05,
      "loss": 0.5469,
      "step": 12471,
      "task_loss": 0.9056336879730225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5869718194007874,
      "epoch": 10.54,
      "learning_rate": 1.6509079524107704e-05,
      "loss": 0.5139,
      "step": 12472,
      "task_loss": 0.25065815448760986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5825937986373901,
      "epoch": 10.54,
      "learning_rate": 1.6505948653725736e-05,
      "loss": 0.4638,
      "step": 12473,
      "task_loss": 0.08579545468091965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.342678964138031,
      "epoch": 10.54,
      "learning_rate": 1.650281778334377e-05,
      "loss": 0.461,
      "step": 12474,
      "task_loss": 0.05556102842092514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6571763753890991,
      "epoch": 10.54,
      "learning_rate": 1.6499686912961803e-05,
      "loss": 0.5812,
      "step": 12475,
      "task_loss": 2.437140941619873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39404043555259705,
      "epoch": 10.55,
      "learning_rate": 1.6496556042579838e-05,
      "loss": 0.4299,
      "step": 12476,
      "task_loss": 0.3183479905128479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49310359358787537,
      "epoch": 10.55,
      "learning_rate": 1.649342517219787e-05,
      "loss": 0.4631,
      "step": 12477,
      "task_loss": 0.48143577575683594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.441850870847702,
      "epoch": 10.55,
      "learning_rate": 1.6490294301815905e-05,
      "loss": 0.4535,
      "step": 12478,
      "task_loss": 1.066569209098816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43468013405799866,
      "epoch": 10.55,
      "learning_rate": 1.6487163431433937e-05,
      "loss": 0.4672,
      "step": 12479,
      "task_loss": 1.024166226387024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6731959581375122,
      "epoch": 10.55,
      "learning_rate": 1.6484032561051972e-05,
      "loss": 0.4931,
      "step": 12480,
      "task_loss": 1.2129143476486206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49285516142845154,
      "epoch": 10.55,
      "learning_rate": 1.6480901690670007e-05,
      "loss": 0.6043,
      "step": 12481,
      "task_loss": 0.2416854202747345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3966233730316162,
      "epoch": 10.55,
      "learning_rate": 1.6477770820288042e-05,
      "loss": 0.3995,
      "step": 12482,
      "task_loss": 0.7882152795791626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6706939935684204,
      "epoch": 10.55,
      "learning_rate": 1.6474639949906078e-05,
      "loss": 0.5156,
      "step": 12483,
      "task_loss": 0.19471681118011475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6205955147743225,
      "epoch": 10.55,
      "learning_rate": 1.647150907952411e-05,
      "loss": 0.5429,
      "step": 12484,
      "task_loss": 0.6573511958122253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7065221667289734,
      "epoch": 10.55,
      "learning_rate": 1.6468378209142145e-05,
      "loss": 0.4686,
      "step": 12485,
      "task_loss": 0.9317858815193176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4714357256889343,
      "epoch": 10.55,
      "learning_rate": 1.6465247338760176e-05,
      "loss": 0.4603,
      "step": 12486,
      "task_loss": 0.831044614315033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7561823129653931,
      "epoch": 10.56,
      "learning_rate": 1.646211646837821e-05,
      "loss": 0.5351,
      "step": 12487,
      "task_loss": 1.2393789291381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6883769035339355,
      "epoch": 10.56,
      "learning_rate": 1.6458985597996243e-05,
      "loss": 0.6023,
      "step": 12488,
      "task_loss": 1.1642683744430542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6906355619430542,
      "epoch": 10.56,
      "learning_rate": 1.645585472761428e-05,
      "loss": 0.4447,
      "step": 12489,
      "task_loss": 0.8214801549911499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4863533675670624,
      "epoch": 10.56,
      "learning_rate": 1.645272385723231e-05,
      "loss": 0.5618,
      "step": 12490,
      "task_loss": 0.5474005937576294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3708077371120453,
      "epoch": 10.56,
      "learning_rate": 1.6449592986850345e-05,
      "loss": 0.3881,
      "step": 12491,
      "task_loss": 0.04293157532811165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1870422512292862,
      "epoch": 10.56,
      "learning_rate": 1.6446462116468377e-05,
      "loss": 0.4339,
      "step": 12492,
      "task_loss": 1.0652281045913696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47413772344589233,
      "epoch": 10.56,
      "learning_rate": 1.6443331246086412e-05,
      "loss": 0.4284,
      "step": 12493,
      "task_loss": 0.6684250235557556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4920833706855774,
      "epoch": 10.56,
      "learning_rate": 1.6440200375704444e-05,
      "loss": 0.6688,
      "step": 12494,
      "task_loss": 1.265198826789856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7561609745025635,
      "epoch": 10.56,
      "learning_rate": 1.643706950532248e-05,
      "loss": 0.5824,
      "step": 12495,
      "task_loss": 0.815090537071228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.520534098148346,
      "epoch": 10.56,
      "learning_rate": 1.6433938634940515e-05,
      "loss": 0.4661,
      "step": 12496,
      "task_loss": 0.5134177207946777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4095068871974945,
      "epoch": 10.56,
      "learning_rate": 1.6430807764558546e-05,
      "loss": 0.6616,
      "step": 12497,
      "task_loss": 0.6808648705482483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4627792239189148,
      "epoch": 10.56,
      "learning_rate": 1.642767689417658e-05,
      "loss": 0.6115,
      "step": 12498,
      "task_loss": 0.1446375995874405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.473659873008728,
      "epoch": 10.57,
      "learning_rate": 1.6424546023794617e-05,
      "loss": 0.3766,
      "step": 12499,
      "task_loss": 0.3509414792060852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6995757818222046,
      "epoch": 10.57,
      "learning_rate": 1.6421415153412652e-05,
      "loss": 0.7103,
      "step": 12500,
      "task_loss": 0.5207656621932983
    },
    {
      "epoch": 10.57,
      "eval_accuracy": 0.9070495049504951,
      "eval_loss": 0.34786149859428406,
      "eval_runtime": 207.0384,
      "eval_samples_per_second": 121.958,
      "eval_steps_per_second": 0.956,
      "step": 12500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2861328423023224,
      "epoch": 10.57,
      "learning_rate": 1.6418284283030684e-05,
      "loss": 0.3611,
      "step": 12501,
      "task_loss": 0.34124261140823364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5139725804328918,
      "epoch": 10.57,
      "learning_rate": 1.641515341264872e-05,
      "loss": 0.5088,
      "step": 12502,
      "task_loss": 0.7876615524291992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4810686707496643,
      "epoch": 10.57,
      "learning_rate": 1.641202254226675e-05,
      "loss": 0.5569,
      "step": 12503,
      "task_loss": 1.2529563903808594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8265133500099182,
      "epoch": 10.57,
      "learning_rate": 1.6408891671884786e-05,
      "loss": 0.6789,
      "step": 12504,
      "task_loss": 1.3073722124099731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46941909193992615,
      "epoch": 10.57,
      "learning_rate": 1.6405760801502818e-05,
      "loss": 0.5017,
      "step": 12505,
      "task_loss": 0.6680939197540283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2248345613479614,
      "epoch": 10.57,
      "learning_rate": 1.6402629931120853e-05,
      "loss": 0.8395,
      "step": 12506,
      "task_loss": 1.0900497436523438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28609877824783325,
      "epoch": 10.57,
      "learning_rate": 1.6399499060738884e-05,
      "loss": 0.4563,
      "step": 12507,
      "task_loss": 0.3548286557197571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833252489566803,
      "epoch": 10.57,
      "learning_rate": 1.639636819035692e-05,
      "loss": 0.4372,
      "step": 12508,
      "task_loss": 2.3745932579040527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23086440563201904,
      "epoch": 10.57,
      "learning_rate": 1.6393237319974955e-05,
      "loss": 0.3782,
      "step": 12509,
      "task_loss": 0.10303862392902374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5240297317504883,
      "epoch": 10.57,
      "learning_rate": 1.6390106449592987e-05,
      "loss": 0.5703,
      "step": 12510,
      "task_loss": 0.7920283079147339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3606717586517334,
      "epoch": 10.58,
      "learning_rate": 1.6386975579211022e-05,
      "loss": 0.6783,
      "step": 12511,
      "task_loss": 0.3953629434108734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3493741750717163,
      "epoch": 10.58,
      "learning_rate": 1.6383844708829054e-05,
      "loss": 0.4715,
      "step": 12512,
      "task_loss": 0.6332336664199829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37329548597335815,
      "epoch": 10.58,
      "learning_rate": 1.638071383844709e-05,
      "loss": 0.436,
      "step": 12513,
      "task_loss": 0.07807647436857224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.2408645153045654,
      "epoch": 10.58,
      "learning_rate": 1.637758296806512e-05,
      "loss": 0.6501,
      "step": 12514,
      "task_loss": 1.0746381282806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4683522582054138,
      "epoch": 10.58,
      "learning_rate": 1.6374452097683156e-05,
      "loss": 0.479,
      "step": 12515,
      "task_loss": 0.7761314511299133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27030545473098755,
      "epoch": 10.58,
      "learning_rate": 1.637132122730119e-05,
      "loss": 0.3533,
      "step": 12516,
      "task_loss": 0.05047089606523514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3204413652420044,
      "epoch": 10.58,
      "learning_rate": 1.6368190356919226e-05,
      "loss": 0.4218,
      "step": 12517,
      "task_loss": 1.0924910306930542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37287628650665283,
      "epoch": 10.58,
      "learning_rate": 1.6365059486537258e-05,
      "loss": 0.4323,
      "step": 12518,
      "task_loss": 0.7428169250488281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33018919825553894,
      "epoch": 10.58,
      "learning_rate": 1.6361928616155293e-05,
      "loss": 0.4354,
      "step": 12519,
      "task_loss": 0.21316403150558472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6205664277076721,
      "epoch": 10.58,
      "learning_rate": 1.6358797745773328e-05,
      "loss": 0.5032,
      "step": 12520,
      "task_loss": 0.6995615363121033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5895015001296997,
      "epoch": 10.58,
      "learning_rate": 1.635566687539136e-05,
      "loss": 0.4216,
      "step": 12521,
      "task_loss": 0.6666021943092346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2809727191925049,
      "epoch": 10.58,
      "learning_rate": 1.6352536005009395e-05,
      "loss": 0.3883,
      "step": 12522,
      "task_loss": 0.5344029068946838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009722709655762,
      "epoch": 10.59,
      "learning_rate": 1.6349405134627427e-05,
      "loss": 0.4795,
      "step": 12523,
      "task_loss": 0.6029967069625854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3129439353942871,
      "epoch": 10.59,
      "learning_rate": 1.6346274264245462e-05,
      "loss": 0.4953,
      "step": 12524,
      "task_loss": 0.39242228865623474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5202165842056274,
      "epoch": 10.59,
      "learning_rate": 1.6343143393863494e-05,
      "loss": 0.4895,
      "step": 12525,
      "task_loss": 0.7415745854377747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3917474150657654,
      "epoch": 10.59,
      "learning_rate": 1.634001252348153e-05,
      "loss": 0.5412,
      "step": 12526,
      "task_loss": 0.2776564657688141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6139740943908691,
      "epoch": 10.59,
      "learning_rate": 1.633688165309956e-05,
      "loss": 0.5476,
      "step": 12527,
      "task_loss": 0.5857943296432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5889304280281067,
      "epoch": 10.59,
      "learning_rate": 1.6333750782717596e-05,
      "loss": 0.4843,
      "step": 12528,
      "task_loss": 1.204032301902771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49247246980667114,
      "epoch": 10.59,
      "learning_rate": 1.6330619912335628e-05,
      "loss": 0.5672,
      "step": 12529,
      "task_loss": 0.7264295816421509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164080858230591,
      "epoch": 10.59,
      "learning_rate": 1.6327489041953663e-05,
      "loss": 0.3882,
      "step": 12530,
      "task_loss": 0.6496472358703613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6095845699310303,
      "epoch": 10.59,
      "learning_rate": 1.6324358171571698e-05,
      "loss": 0.6249,
      "step": 12531,
      "task_loss": 0.5765606164932251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5468679666519165,
      "epoch": 10.59,
      "learning_rate": 1.6321227301189733e-05,
      "loss": 0.5837,
      "step": 12532,
      "task_loss": 1.0722204446792603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5768659114837646,
      "epoch": 10.59,
      "learning_rate": 1.6318096430807765e-05,
      "loss": 0.5371,
      "step": 12533,
      "task_loss": 1.1232208013534546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2289595603942871,
      "epoch": 10.59,
      "learning_rate": 1.63149655604258e-05,
      "loss": 0.4454,
      "step": 12534,
      "task_loss": 0.050541043281555176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3683522045612335,
      "epoch": 10.6,
      "learning_rate": 1.6311834690043835e-05,
      "loss": 0.6059,
      "step": 12535,
      "task_loss": 0.525209367275238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5492563843727112,
      "epoch": 10.6,
      "learning_rate": 1.6308703819661867e-05,
      "loss": 0.4557,
      "step": 12536,
      "task_loss": 0.48103901743888855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6000148057937622,
      "epoch": 10.6,
      "learning_rate": 1.6305572949279902e-05,
      "loss": 0.5791,
      "step": 12537,
      "task_loss": 1.633821964263916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4703344702720642,
      "epoch": 10.6,
      "learning_rate": 1.6302442078897934e-05,
      "loss": 0.5038,
      "step": 12538,
      "task_loss": 0.4577834904193878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7112976312637329,
      "epoch": 10.6,
      "learning_rate": 1.629931120851597e-05,
      "loss": 0.5568,
      "step": 12539,
      "task_loss": 0.4450581669807434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5963632464408875,
      "epoch": 10.6,
      "learning_rate": 1.6296180338134e-05,
      "loss": 0.4808,
      "step": 12540,
      "task_loss": 1.0287545919418335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32339295744895935,
      "epoch": 10.6,
      "learning_rate": 1.6293049467752036e-05,
      "loss": 0.5293,
      "step": 12541,
      "task_loss": 0.22249051928520203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.347109317779541,
      "epoch": 10.6,
      "learning_rate": 1.6289918597370068e-05,
      "loss": 0.5077,
      "step": 12542,
      "task_loss": 1.0345464944839478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6882046461105347,
      "epoch": 10.6,
      "learning_rate": 1.6286787726988103e-05,
      "loss": 0.5515,
      "step": 12543,
      "task_loss": 1.4804680347442627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8051337003707886,
      "epoch": 10.6,
      "learning_rate": 1.6283656856606135e-05,
      "loss": 0.5332,
      "step": 12544,
      "task_loss": 1.3080577850341797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5574314594268799,
      "epoch": 10.6,
      "learning_rate": 1.628052598622417e-05,
      "loss": 0.5071,
      "step": 12545,
      "task_loss": 0.5508299469947815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4585030972957611,
      "epoch": 10.6,
      "learning_rate": 1.6277395115842205e-05,
      "loss": 0.6157,
      "step": 12546,
      "task_loss": 0.3279881775379181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5677977800369263,
      "epoch": 10.61,
      "learning_rate": 1.6274264245460237e-05,
      "loss": 0.499,
      "step": 12547,
      "task_loss": 0.31834253668785095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31841742992401123,
      "epoch": 10.61,
      "learning_rate": 1.6271133375078272e-05,
      "loss": 0.5336,
      "step": 12548,
      "task_loss": 0.37206417322158813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3097881078720093,
      "epoch": 10.61,
      "learning_rate": 1.6268002504696307e-05,
      "loss": 0.3776,
      "step": 12549,
      "task_loss": 0.5613054037094116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8546615839004517,
      "epoch": 10.61,
      "learning_rate": 1.6264871634314343e-05,
      "loss": 0.6551,
      "step": 12550,
      "task_loss": 1.2674899101257324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5590798258781433,
      "epoch": 10.61,
      "learning_rate": 1.6261740763932374e-05,
      "loss": 0.5613,
      "step": 12551,
      "task_loss": 0.7239428758621216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34411531686782837,
      "epoch": 10.61,
      "learning_rate": 1.625860989355041e-05,
      "loss": 0.3862,
      "step": 12552,
      "task_loss": 0.499724805355072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4876139163970947,
      "epoch": 10.61,
      "learning_rate": 1.625547902316844e-05,
      "loss": 0.4343,
      "step": 12553,
      "task_loss": 0.4872790277004242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7135711908340454,
      "epoch": 10.61,
      "learning_rate": 1.6252348152786476e-05,
      "loss": 0.4646,
      "step": 12554,
      "task_loss": 1.284379005432129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49208563566207886,
      "epoch": 10.61,
      "learning_rate": 1.6249217282404508e-05,
      "loss": 0.5495,
      "step": 12555,
      "task_loss": 0.32902318239212036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395650267601013,
      "epoch": 10.61,
      "learning_rate": 1.6246086412022543e-05,
      "loss": 0.5796,
      "step": 12556,
      "task_loss": 0.8943939208984375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5176894664764404,
      "epoch": 10.61,
      "learning_rate": 1.624295554164058e-05,
      "loss": 0.4812,
      "step": 12557,
      "task_loss": 0.47635164856910706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3501155376434326,
      "epoch": 10.61,
      "learning_rate": 1.623982467125861e-05,
      "loss": 0.4119,
      "step": 12558,
      "task_loss": 0.2912565767765045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35782596468925476,
      "epoch": 10.62,
      "learning_rate": 1.6236693800876646e-05,
      "loss": 0.5457,
      "step": 12559,
      "task_loss": 0.6253226399421692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40256375074386597,
      "epoch": 10.62,
      "learning_rate": 1.6233562930494677e-05,
      "loss": 0.4386,
      "step": 12560,
      "task_loss": 0.572351336479187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3684041202068329,
      "epoch": 10.62,
      "learning_rate": 1.6230432060112712e-05,
      "loss": 0.5387,
      "step": 12561,
      "task_loss": 0.35365554690361023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34442389011383057,
      "epoch": 10.62,
      "learning_rate": 1.6227301189730744e-05,
      "loss": 0.5833,
      "step": 12562,
      "task_loss": 0.3562467396259308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3451375961303711,
      "epoch": 10.62,
      "learning_rate": 1.622417031934878e-05,
      "loss": 0.4236,
      "step": 12563,
      "task_loss": 0.4752061069011688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29523104429244995,
      "epoch": 10.62,
      "learning_rate": 1.622103944896681e-05,
      "loss": 0.4188,
      "step": 12564,
      "task_loss": 0.48665502667427063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6154934763908386,
      "epoch": 10.62,
      "learning_rate": 1.6217908578584846e-05,
      "loss": 0.4799,
      "step": 12565,
      "task_loss": 0.5292164087295532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3814394176006317,
      "epoch": 10.62,
      "learning_rate": 1.621477770820288e-05,
      "loss": 0.4675,
      "step": 12566,
      "task_loss": 0.30852413177490234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5842379331588745,
      "epoch": 10.62,
      "learning_rate": 1.6211646837820917e-05,
      "loss": 0.4801,
      "step": 12567,
      "task_loss": 0.12386069446802139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38717231154441833,
      "epoch": 10.62,
      "learning_rate": 1.620851596743895e-05,
      "loss": 0.3631,
      "step": 12568,
      "task_loss": 0.08734671026468277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6141087412834167,
      "epoch": 10.62,
      "learning_rate": 1.6205385097056984e-05,
      "loss": 0.4802,
      "step": 12569,
      "task_loss": 0.8781656622886658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5381922125816345,
      "epoch": 10.63,
      "learning_rate": 1.620225422667502e-05,
      "loss": 0.5335,
      "step": 12570,
      "task_loss": 0.24941767752170563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4967902898788452,
      "epoch": 10.63,
      "learning_rate": 1.619912335629305e-05,
      "loss": 0.4833,
      "step": 12571,
      "task_loss": 1.5853568315505981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6852172613143921,
      "epoch": 10.63,
      "learning_rate": 1.6195992485911086e-05,
      "loss": 0.6376,
      "step": 12572,
      "task_loss": 0.4055042862892151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34201812744140625,
      "epoch": 10.63,
      "learning_rate": 1.6192861615529118e-05,
      "loss": 0.3898,
      "step": 12573,
      "task_loss": 0.5251060724258423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5751321315765381,
      "epoch": 10.63,
      "learning_rate": 1.6189730745147153e-05,
      "loss": 0.5746,
      "step": 12574,
      "task_loss": 1.4724040031433105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4306270480155945,
      "epoch": 10.63,
      "learning_rate": 1.6186599874765184e-05,
      "loss": 0.6117,
      "step": 12575,
      "task_loss": 0.09865272790193558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4577740430831909,
      "epoch": 10.63,
      "learning_rate": 1.618346900438322e-05,
      "loss": 0.482,
      "step": 12576,
      "task_loss": 0.48857542872428894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4532328248023987,
      "epoch": 10.63,
      "learning_rate": 1.618033813400125e-05,
      "loss": 0.6236,
      "step": 12577,
      "task_loss": 1.4212743043899536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5893839597702026,
      "epoch": 10.63,
      "learning_rate": 1.6177207263619287e-05,
      "loss": 0.4946,
      "step": 12578,
      "task_loss": 0.0665440484881401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3268735706806183,
      "epoch": 10.63,
      "learning_rate": 1.617407639323732e-05,
      "loss": 0.4151,
      "step": 12579,
      "task_loss": 0.7247901558876038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5969240665435791,
      "epoch": 10.63,
      "learning_rate": 1.6170945522855354e-05,
      "loss": 0.4451,
      "step": 12580,
      "task_loss": 0.8419508337974548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27416908740997314,
      "epoch": 10.63,
      "learning_rate": 1.6167814652473385e-05,
      "loss": 0.4062,
      "step": 12581,
      "task_loss": 0.39180251955986023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41473904252052307,
      "epoch": 10.64,
      "learning_rate": 1.616468378209142e-05,
      "loss": 0.3042,
      "step": 12582,
      "task_loss": 0.32340526580810547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.461895227432251,
      "epoch": 10.64,
      "learning_rate": 1.6161552911709456e-05,
      "loss": 0.3852,
      "step": 12583,
      "task_loss": 0.8038643002510071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5679993629455566,
      "epoch": 10.64,
      "learning_rate": 1.615842204132749e-05,
      "loss": 0.7359,
      "step": 12584,
      "task_loss": 2.281252861022949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5397638082504272,
      "epoch": 10.64,
      "learning_rate": 1.6155291170945526e-05,
      "loss": 0.518,
      "step": 12585,
      "task_loss": 0.7590453028678894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36722859740257263,
      "epoch": 10.64,
      "learning_rate": 1.6152160300563558e-05,
      "loss": 0.6128,
      "step": 12586,
      "task_loss": 0.3510221540927887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28357410430908203,
      "epoch": 10.64,
      "learning_rate": 1.6149029430181593e-05,
      "loss": 0.412,
      "step": 12587,
      "task_loss": 0.9911136627197266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7996985912322998,
      "epoch": 10.64,
      "learning_rate": 1.6145898559799625e-05,
      "loss": 0.5826,
      "step": 12588,
      "task_loss": 1.1715441942214966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6446834206581116,
      "epoch": 10.64,
      "learning_rate": 1.614276768941766e-05,
      "loss": 0.5655,
      "step": 12589,
      "task_loss": 0.7605506181716919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4817429482936859,
      "epoch": 10.64,
      "learning_rate": 1.6139636819035692e-05,
      "loss": 0.5632,
      "step": 12590,
      "task_loss": 1.0661756992340088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2835471034049988,
      "epoch": 10.64,
      "learning_rate": 1.6136505948653727e-05,
      "loss": 0.425,
      "step": 12591,
      "task_loss": 0.8421638607978821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5506187677383423,
      "epoch": 10.64,
      "learning_rate": 1.613337507827176e-05,
      "loss": 0.5657,
      "step": 12592,
      "task_loss": 0.4235389828681946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42375609278678894,
      "epoch": 10.64,
      "learning_rate": 1.6130244207889794e-05,
      "loss": 0.5406,
      "step": 12593,
      "task_loss": 1.0906567573547363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9454327821731567,
      "epoch": 10.65,
      "learning_rate": 1.612711333750783e-05,
      "loss": 0.5595,
      "step": 12594,
      "task_loss": 1.1610134840011597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5074527263641357,
      "epoch": 10.65,
      "learning_rate": 1.612398246712586e-05,
      "loss": 0.4339,
      "step": 12595,
      "task_loss": 0.8927974104881287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4488847255706787,
      "epoch": 10.65,
      "learning_rate": 1.6120851596743896e-05,
      "loss": 0.5908,
      "step": 12596,
      "task_loss": 1.194037914276123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31962496042251587,
      "epoch": 10.65,
      "learning_rate": 1.6117720726361928e-05,
      "loss": 0.5822,
      "step": 12597,
      "task_loss": 1.0872044563293457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2551916539669037,
      "epoch": 10.65,
      "learning_rate": 1.6114589855979963e-05,
      "loss": 0.4051,
      "step": 12598,
      "task_loss": 0.3835928738117218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7854132056236267,
      "epoch": 10.65,
      "learning_rate": 1.6111458985597998e-05,
      "loss": 0.5752,
      "step": 12599,
      "task_loss": 0.9586427807807922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6123063564300537,
      "epoch": 10.65,
      "learning_rate": 1.610832811521603e-05,
      "loss": 0.5705,
      "step": 12600,
      "task_loss": 0.4925985336303711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5782277584075928,
      "epoch": 10.65,
      "learning_rate": 1.6105197244834065e-05,
      "loss": 0.5251,
      "step": 12601,
      "task_loss": 0.6388105154037476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3188694417476654,
      "epoch": 10.65,
      "learning_rate": 1.61020663744521e-05,
      "loss": 0.438,
      "step": 12602,
      "task_loss": 0.4961451590061188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31207460165023804,
      "epoch": 10.65,
      "learning_rate": 1.6098935504070132e-05,
      "loss": 0.3329,
      "step": 12603,
      "task_loss": 0.2275175005197525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3878685534000397,
      "epoch": 10.65,
      "learning_rate": 1.6095804633688167e-05,
      "loss": 0.4562,
      "step": 12604,
      "task_loss": 0.1988787204027176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6456184387207031,
      "epoch": 10.65,
      "learning_rate": 1.60926737633062e-05,
      "loss": 0.56,
      "step": 12605,
      "task_loss": 0.8922989964485168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37201541662216187,
      "epoch": 10.66,
      "learning_rate": 1.6089542892924234e-05,
      "loss": 0.4109,
      "step": 12606,
      "task_loss": 0.5108391642570496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5496466159820557,
      "epoch": 10.66,
      "learning_rate": 1.608641202254227e-05,
      "loss": 0.4844,
      "step": 12607,
      "task_loss": 0.8435958027839661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7257152795791626,
      "epoch": 10.66,
      "learning_rate": 1.60832811521603e-05,
      "loss": 0.6268,
      "step": 12608,
      "task_loss": 1.7097502946853638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4024409055709839,
      "epoch": 10.66,
      "learning_rate": 1.6080150281778336e-05,
      "loss": 0.4858,
      "step": 12609,
      "task_loss": 0.5880594849586487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6264081597328186,
      "epoch": 10.66,
      "learning_rate": 1.6077019411396368e-05,
      "loss": 0.5096,
      "step": 12610,
      "task_loss": 0.873862624168396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38072827458381653,
      "epoch": 10.66,
      "learning_rate": 1.6073888541014403e-05,
      "loss": 0.3987,
      "step": 12611,
      "task_loss": 0.6321852803230286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7391407489776611,
      "epoch": 10.66,
      "learning_rate": 1.6070757670632435e-05,
      "loss": 0.5124,
      "step": 12612,
      "task_loss": 1.9026026725769043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5443798899650574,
      "epoch": 10.66,
      "learning_rate": 1.606762680025047e-05,
      "loss": 0.4388,
      "step": 12613,
      "task_loss": 0.6641151309013367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7975199818611145,
      "epoch": 10.66,
      "learning_rate": 1.6064495929868502e-05,
      "loss": 0.5572,
      "step": 12614,
      "task_loss": 1.2658989429473877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4005284309387207,
      "epoch": 10.66,
      "learning_rate": 1.6061365059486537e-05,
      "loss": 0.5544,
      "step": 12615,
      "task_loss": 0.20058459043502808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4770967364311218,
      "epoch": 10.66,
      "learning_rate": 1.6058234189104572e-05,
      "loss": 0.4882,
      "step": 12616,
      "task_loss": 0.3853207528591156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3428480327129364,
      "epoch": 10.66,
      "learning_rate": 1.6055103318722607e-05,
      "loss": 0.5203,
      "step": 12617,
      "task_loss": 0.6829301714897156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4370634853839874,
      "epoch": 10.67,
      "learning_rate": 1.605197244834064e-05,
      "loss": 0.3875,
      "step": 12618,
      "task_loss": 0.3026348352432251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39223241806030273,
      "epoch": 10.67,
      "learning_rate": 1.6048841577958674e-05,
      "loss": 0.6264,
      "step": 12619,
      "task_loss": 0.5128450989723206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5615884065628052,
      "epoch": 10.67,
      "learning_rate": 1.604571070757671e-05,
      "loss": 0.5116,
      "step": 12620,
      "task_loss": 1.1331369876861572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.235480397939682,
      "epoch": 10.67,
      "learning_rate": 1.604257983719474e-05,
      "loss": 0.6773,
      "step": 12621,
      "task_loss": 0.40588831901550293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39801689982414246,
      "epoch": 10.67,
      "learning_rate": 1.6039448966812776e-05,
      "loss": 0.4313,
      "step": 12622,
      "task_loss": 0.6402925848960876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4310901165008545,
      "epoch": 10.67,
      "learning_rate": 1.6036318096430808e-05,
      "loss": 0.5252,
      "step": 12623,
      "task_loss": 0.8352446556091309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4068133234977722,
      "epoch": 10.67,
      "learning_rate": 1.6033187226048843e-05,
      "loss": 0.5411,
      "step": 12624,
      "task_loss": 0.5497060418128967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33963584899902344,
      "epoch": 10.67,
      "learning_rate": 1.6030056355666875e-05,
      "loss": 0.4321,
      "step": 12625,
      "task_loss": 0.10877814888954163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6569900512695312,
      "epoch": 10.67,
      "learning_rate": 1.602692548528491e-05,
      "loss": 0.5171,
      "step": 12626,
      "task_loss": 2.0448968410491943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43728017807006836,
      "epoch": 10.67,
      "learning_rate": 1.6023794614902942e-05,
      "loss": 0.5024,
      "step": 12627,
      "task_loss": 1.0965694189071655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3616366982460022,
      "epoch": 10.67,
      "learning_rate": 1.6020663744520977e-05,
      "loss": 0.5341,
      "step": 12628,
      "task_loss": 0.3615300953388214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6937516927719116,
      "epoch": 10.67,
      "learning_rate": 1.601753287413901e-05,
      "loss": 0.477,
      "step": 12629,
      "task_loss": 0.43811777234077454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30358433723449707,
      "epoch": 10.68,
      "learning_rate": 1.6014402003757044e-05,
      "loss": 0.4283,
      "step": 12630,
      "task_loss": 0.5912361145019531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.481310099363327,
      "epoch": 10.68,
      "learning_rate": 1.601127113337508e-05,
      "loss": 0.5281,
      "step": 12631,
      "task_loss": 0.6369727253913879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35946133732795715,
      "epoch": 10.68,
      "learning_rate": 1.600814026299311e-05,
      "loss": 0.422,
      "step": 12632,
      "task_loss": 0.9086353182792664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4985516667366028,
      "epoch": 10.68,
      "learning_rate": 1.6005009392611146e-05,
      "loss": 0.5219,
      "step": 12633,
      "task_loss": 0.3115430176258087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45731836557388306,
      "epoch": 10.68,
      "learning_rate": 1.600187852222918e-05,
      "loss": 0.4998,
      "step": 12634,
      "task_loss": 0.42969146370887756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5902830958366394,
      "epoch": 10.68,
      "learning_rate": 1.5998747651847217e-05,
      "loss": 0.5129,
      "step": 12635,
      "task_loss": 0.8777862787246704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30888649821281433,
      "epoch": 10.68,
      "learning_rate": 1.599561678146525e-05,
      "loss": 0.5766,
      "step": 12636,
      "task_loss": 0.3693099021911621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6325458884239197,
      "epoch": 10.68,
      "learning_rate": 1.5992485911083284e-05,
      "loss": 0.586,
      "step": 12637,
      "task_loss": 0.7120633721351624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5283185243606567,
      "epoch": 10.68,
      "learning_rate": 1.5989355040701315e-05,
      "loss": 0.4827,
      "step": 12638,
      "task_loss": 0.6927450299263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4871745705604553,
      "epoch": 10.68,
      "learning_rate": 1.598622417031935e-05,
      "loss": 0.5261,
      "step": 12639,
      "task_loss": 0.6944361329078674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3359236419200897,
      "epoch": 10.68,
      "learning_rate": 1.5983093299937382e-05,
      "loss": 0.417,
      "step": 12640,
      "task_loss": 0.3529532849788666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3066575527191162,
      "epoch": 10.69,
      "learning_rate": 1.5979962429555418e-05,
      "loss": 0.3812,
      "step": 12641,
      "task_loss": 0.332918256521225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5837321281433105,
      "epoch": 10.69,
      "learning_rate": 1.597683155917345e-05,
      "loss": 0.5357,
      "step": 12642,
      "task_loss": 0.3250937759876251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43042802810668945,
      "epoch": 10.69,
      "learning_rate": 1.5973700688791485e-05,
      "loss": 0.503,
      "step": 12643,
      "task_loss": 0.34715455770492554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.398481547832489,
      "epoch": 10.69,
      "learning_rate": 1.597056981840952e-05,
      "loss": 0.4371,
      "step": 12644,
      "task_loss": 0.49270549416542053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5936612486839294,
      "epoch": 10.69,
      "learning_rate": 1.596743894802755e-05,
      "loss": 0.5119,
      "step": 12645,
      "task_loss": 0.3591997027397156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5401766896247864,
      "epoch": 10.69,
      "learning_rate": 1.5964308077645587e-05,
      "loss": 0.6036,
      "step": 12646,
      "task_loss": 0.7899668216705322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.423321396112442,
      "epoch": 10.69,
      "learning_rate": 1.596117720726362e-05,
      "loss": 0.5489,
      "step": 12647,
      "task_loss": 0.1586896777153015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5242501497268677,
      "epoch": 10.69,
      "learning_rate": 1.5958046336881654e-05,
      "loss": 0.4562,
      "step": 12648,
      "task_loss": 0.19388923048973083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5718816518783569,
      "epoch": 10.69,
      "learning_rate": 1.5954915466499685e-05,
      "loss": 0.5917,
      "step": 12649,
      "task_loss": 0.999021053314209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2629321217536926,
      "epoch": 10.69,
      "learning_rate": 1.595178459611772e-05,
      "loss": 0.3966,
      "step": 12650,
      "task_loss": 0.16791029274463654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8443222045898438,
      "epoch": 10.69,
      "learning_rate": 1.5948653725735756e-05,
      "loss": 0.5247,
      "step": 12651,
      "task_loss": 0.8943113684654236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2902829349040985,
      "epoch": 10.69,
      "learning_rate": 1.594552285535379e-05,
      "loss": 0.4336,
      "step": 12652,
      "task_loss": 0.13428466022014618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3922235369682312,
      "epoch": 10.7,
      "learning_rate": 1.5942391984971823e-05,
      "loss": 0.4971,
      "step": 12653,
      "task_loss": 0.912013590335846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2770349383354187,
      "epoch": 10.7,
      "learning_rate": 1.5939261114589858e-05,
      "loss": 0.4769,
      "step": 12654,
      "task_loss": 0.36757203936576843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7118825912475586,
      "epoch": 10.7,
      "learning_rate": 1.5936130244207893e-05,
      "loss": 0.5858,
      "step": 12655,
      "task_loss": 0.29926663637161255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6759910583496094,
      "epoch": 10.7,
      "learning_rate": 1.5932999373825925e-05,
      "loss": 0.5617,
      "step": 12656,
      "task_loss": 1.2734037637710571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7953360080718994,
      "epoch": 10.7,
      "learning_rate": 1.592986850344396e-05,
      "loss": 0.7239,
      "step": 12657,
      "task_loss": 0.699284017086029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5727654099464417,
      "epoch": 10.7,
      "learning_rate": 1.5926737633061992e-05,
      "loss": 0.4653,
      "step": 12658,
      "task_loss": 0.17283675074577332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43393030762672424,
      "epoch": 10.7,
      "learning_rate": 1.5923606762680027e-05,
      "loss": 0.4456,
      "step": 12659,
      "task_loss": 0.45999735593795776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.551521360874176,
      "epoch": 10.7,
      "learning_rate": 1.592047589229806e-05,
      "loss": 0.5656,
      "step": 12660,
      "task_loss": 0.09617049992084503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7093237638473511,
      "epoch": 10.7,
      "learning_rate": 1.5917345021916094e-05,
      "loss": 0.7214,
      "step": 12661,
      "task_loss": 0.8017275333404541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2655280828475952,
      "epoch": 10.7,
      "learning_rate": 1.5914214151534126e-05,
      "loss": 0.5342,
      "step": 12662,
      "task_loss": 0.034801580011844635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6086317300796509,
      "epoch": 10.7,
      "learning_rate": 1.591108328115216e-05,
      "loss": 0.5442,
      "step": 12663,
      "task_loss": 1.1232686042785645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4158373475074768,
      "epoch": 10.7,
      "learning_rate": 1.5907952410770193e-05,
      "loss": 0.4986,
      "step": 12664,
      "task_loss": 0.7418020963668823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6554831266403198,
      "epoch": 10.71,
      "learning_rate": 1.5904821540388228e-05,
      "loss": 0.5185,
      "step": 12665,
      "task_loss": 1.3102948665618896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3684961199760437,
      "epoch": 10.71,
      "learning_rate": 1.590169067000626e-05,
      "loss": 0.4628,
      "step": 12666,
      "task_loss": 0.6874048113822937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3481767773628235,
      "epoch": 10.71,
      "learning_rate": 1.5898559799624295e-05,
      "loss": 0.5302,
      "step": 12667,
      "task_loss": 0.8043579459190369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9640920162200928,
      "epoch": 10.71,
      "learning_rate": 1.589542892924233e-05,
      "loss": 0.6812,
      "step": 12668,
      "task_loss": 0.5991837978363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8718572854995728,
      "epoch": 10.71,
      "learning_rate": 1.5892298058860365e-05,
      "loss": 0.5615,
      "step": 12669,
      "task_loss": 0.48388737440109253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5988047122955322,
      "epoch": 10.71,
      "learning_rate": 1.58891671884784e-05,
      "loss": 0.4958,
      "step": 12670,
      "task_loss": 0.8530166149139404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5657098293304443,
      "epoch": 10.71,
      "learning_rate": 1.5886036318096432e-05,
      "loss": 0.4523,
      "step": 12671,
      "task_loss": 0.9587454795837402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8781705498695374,
      "epoch": 10.71,
      "learning_rate": 1.5882905447714467e-05,
      "loss": 0.4925,
      "step": 12672,
      "task_loss": 1.0063350200653076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36614736914634705,
      "epoch": 10.71,
      "learning_rate": 1.58797745773325e-05,
      "loss": 0.421,
      "step": 12673,
      "task_loss": 0.3910221755504608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3624352216720581,
      "epoch": 10.71,
      "learning_rate": 1.5876643706950534e-05,
      "loss": 0.4506,
      "step": 12674,
      "task_loss": 1.1374804973602295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5085663199424744,
      "epoch": 10.71,
      "learning_rate": 1.5873512836568566e-05,
      "loss": 0.4852,
      "step": 12675,
      "task_loss": 0.9606655836105347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5956592559814453,
      "epoch": 10.71,
      "learning_rate": 1.58703819661866e-05,
      "loss": 0.5551,
      "step": 12676,
      "task_loss": 1.387351155281067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4529988467693329,
      "epoch": 10.72,
      "learning_rate": 1.5867251095804633e-05,
      "loss": 0.5139,
      "step": 12677,
      "task_loss": 0.3867698013782501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3248949944972992,
      "epoch": 10.72,
      "learning_rate": 1.5864120225422668e-05,
      "loss": 0.4794,
      "step": 12678,
      "task_loss": 0.3950401842594147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33228158950805664,
      "epoch": 10.72,
      "learning_rate": 1.58609893550407e-05,
      "loss": 0.3558,
      "step": 12679,
      "task_loss": 0.38830074667930603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6756575703620911,
      "epoch": 10.72,
      "learning_rate": 1.5857858484658735e-05,
      "loss": 0.6619,
      "step": 12680,
      "task_loss": 0.48109281063079834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3309782147407532,
      "epoch": 10.72,
      "learning_rate": 1.585472761427677e-05,
      "loss": 0.4312,
      "step": 12681,
      "task_loss": 0.00879033375531435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5328322649002075,
      "epoch": 10.72,
      "learning_rate": 1.5851596743894802e-05,
      "loss": 0.414,
      "step": 12682,
      "task_loss": 1.4887449741363525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24943293631076813,
      "epoch": 10.72,
      "learning_rate": 1.5848465873512837e-05,
      "loss": 0.4599,
      "step": 12683,
      "task_loss": 0.12068380415439606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5989769101142883,
      "epoch": 10.72,
      "learning_rate": 1.5845335003130872e-05,
      "loss": 0.5718,
      "step": 12684,
      "task_loss": 0.4484593868255615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5704302191734314,
      "epoch": 10.72,
      "learning_rate": 1.5842204132748904e-05,
      "loss": 0.4643,
      "step": 12685,
      "task_loss": 1.1043915748596191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187911987304688,
      "epoch": 10.72,
      "learning_rate": 1.583907326236694e-05,
      "loss": 0.4756,
      "step": 12686,
      "task_loss": 0.5813544988632202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5258833765983582,
      "epoch": 10.72,
      "learning_rate": 1.5835942391984974e-05,
      "loss": 0.4438,
      "step": 12687,
      "task_loss": 0.9048635363578796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6250196099281311,
      "epoch": 10.72,
      "learning_rate": 1.5832811521603006e-05,
      "loss": 0.5874,
      "step": 12688,
      "task_loss": 1.6751710176467896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6167784929275513,
      "epoch": 10.73,
      "learning_rate": 1.582968065122104e-05,
      "loss": 0.7143,
      "step": 12689,
      "task_loss": 0.7738767266273499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7178137898445129,
      "epoch": 10.73,
      "learning_rate": 1.5826549780839073e-05,
      "loss": 0.5437,
      "step": 12690,
      "task_loss": 0.7693502306938171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4540122151374817,
      "epoch": 10.73,
      "learning_rate": 1.5823418910457108e-05,
      "loss": 0.5313,
      "step": 12691,
      "task_loss": 0.2393713742494583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4143012762069702,
      "epoch": 10.73,
      "learning_rate": 1.5820288040075143e-05,
      "loss": 0.5472,
      "step": 12692,
      "task_loss": 0.5604233741760254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.52079176902771,
      "epoch": 10.73,
      "learning_rate": 1.5817157169693175e-05,
      "loss": 0.4832,
      "step": 12693,
      "task_loss": 0.22334884107112885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5151841640472412,
      "epoch": 10.73,
      "learning_rate": 1.581402629931121e-05,
      "loss": 0.5528,
      "step": 12694,
      "task_loss": 1.6425691843032837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36868712306022644,
      "epoch": 10.73,
      "learning_rate": 1.5810895428929242e-05,
      "loss": 0.5395,
      "step": 12695,
      "task_loss": 0.3365870714187622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5898135900497437,
      "epoch": 10.73,
      "learning_rate": 1.5807764558547277e-05,
      "loss": 0.4471,
      "step": 12696,
      "task_loss": 0.5825769901275635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3836008608341217,
      "epoch": 10.73,
      "learning_rate": 1.580463368816531e-05,
      "loss": 0.4299,
      "step": 12697,
      "task_loss": 0.2819066047668457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4682512879371643,
      "epoch": 10.73,
      "learning_rate": 1.5801502817783344e-05,
      "loss": 0.5348,
      "step": 12698,
      "task_loss": 0.9686459302902222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7222830057144165,
      "epoch": 10.73,
      "learning_rate": 1.5798371947401376e-05,
      "loss": 0.4844,
      "step": 12699,
      "task_loss": 0.8110709190368652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4638531804084778,
      "epoch": 10.73,
      "learning_rate": 1.579524107701941e-05,
      "loss": 0.5464,
      "step": 12700,
      "task_loss": 0.40125831961631775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7392451763153076,
      "epoch": 10.74,
      "learning_rate": 1.5792110206637446e-05,
      "loss": 0.7688,
      "step": 12701,
      "task_loss": 1.0546914339065552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47463861107826233,
      "epoch": 10.74,
      "learning_rate": 1.578897933625548e-05,
      "loss": 0.4366,
      "step": 12702,
      "task_loss": 0.7405520677566528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.630129337310791,
      "epoch": 10.74,
      "learning_rate": 1.5785848465873513e-05,
      "loss": 0.5523,
      "step": 12703,
      "task_loss": 0.36984744668006897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6521474719047546,
      "epoch": 10.74,
      "learning_rate": 1.578271759549155e-05,
      "loss": 0.5402,
      "step": 12704,
      "task_loss": 0.4454151690006256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4658559560775757,
      "epoch": 10.74,
      "learning_rate": 1.5779586725109584e-05,
      "loss": 0.4632,
      "step": 12705,
      "task_loss": 1.0324056148529053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6627521514892578,
      "epoch": 10.74,
      "learning_rate": 1.5776455854727615e-05,
      "loss": 0.5141,
      "step": 12706,
      "task_loss": 0.24185839295387268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6582807898521423,
      "epoch": 10.74,
      "learning_rate": 1.577332498434565e-05,
      "loss": 0.7475,
      "step": 12707,
      "task_loss": 1.3700097799301147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42133307456970215,
      "epoch": 10.74,
      "learning_rate": 1.5770194113963682e-05,
      "loss": 0.3504,
      "step": 12708,
      "task_loss": 1.219004511833191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31237006187438965,
      "epoch": 10.74,
      "learning_rate": 1.5767063243581718e-05,
      "loss": 0.5009,
      "step": 12709,
      "task_loss": 0.20326709747314453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25210896134376526,
      "epoch": 10.74,
      "learning_rate": 1.576393237319975e-05,
      "loss": 0.4014,
      "step": 12710,
      "task_loss": 0.905098021030426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6249246597290039,
      "epoch": 10.74,
      "learning_rate": 1.5760801502817785e-05,
      "loss": 0.4597,
      "step": 12711,
      "task_loss": 0.11727923154830933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7793350219726562,
      "epoch": 10.75,
      "learning_rate": 1.5757670632435816e-05,
      "loss": 0.5708,
      "step": 12712,
      "task_loss": 1.0090863704681396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27613744139671326,
      "epoch": 10.75,
      "learning_rate": 1.575453976205385e-05,
      "loss": 0.4683,
      "step": 12713,
      "task_loss": 0.1000911220908165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4316602647304535,
      "epoch": 10.75,
      "learning_rate": 1.5751408891671883e-05,
      "loss": 0.4418,
      "step": 12714,
      "task_loss": 0.6343231201171875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4163796901702881,
      "epoch": 10.75,
      "learning_rate": 1.574827802128992e-05,
      "loss": 0.5413,
      "step": 12715,
      "task_loss": 0.24613262712955475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.358731746673584,
      "epoch": 10.75,
      "learning_rate": 1.574514715090795e-05,
      "loss": 0.4643,
      "step": 12716,
      "task_loss": 0.6359772682189941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5646160244941711,
      "epoch": 10.75,
      "learning_rate": 1.5742016280525985e-05,
      "loss": 0.5756,
      "step": 12717,
      "task_loss": 0.9304928779602051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4299827516078949,
      "epoch": 10.75,
      "learning_rate": 1.573888541014402e-05,
      "loss": 0.5355,
      "step": 12718,
      "task_loss": 0.6904782056808472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4733184576034546,
      "epoch": 10.75,
      "learning_rate": 1.5735754539762056e-05,
      "loss": 0.6345,
      "step": 12719,
      "task_loss": 0.5149893164634705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4782940745353699,
      "epoch": 10.75,
      "learning_rate": 1.573262366938009e-05,
      "loss": 0.4603,
      "step": 12720,
      "task_loss": 0.3528718948364258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3529214859008789,
      "epoch": 10.75,
      "learning_rate": 1.5729492798998123e-05,
      "loss": 0.4521,
      "step": 12721,
      "task_loss": 0.26036709547042847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2780185043811798,
      "epoch": 10.75,
      "learning_rate": 1.5726361928616158e-05,
      "loss": 0.4877,
      "step": 12722,
      "task_loss": 0.24430212378501892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5203900933265686,
      "epoch": 10.75,
      "learning_rate": 1.572323105823419e-05,
      "loss": 0.3966,
      "step": 12723,
      "task_loss": 0.5843032002449036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6800537109375,
      "epoch": 10.76,
      "learning_rate": 1.5720100187852225e-05,
      "loss": 0.5802,
      "step": 12724,
      "task_loss": 0.6362813115119934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569829940795898,
      "epoch": 10.76,
      "learning_rate": 1.5716969317470257e-05,
      "loss": 0.4995,
      "step": 12725,
      "task_loss": 0.5593773722648621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38138726353645325,
      "epoch": 10.76,
      "learning_rate": 1.5713838447088292e-05,
      "loss": 0.6159,
      "step": 12726,
      "task_loss": 0.5159056186676025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3828917443752289,
      "epoch": 10.76,
      "learning_rate": 1.5710707576706324e-05,
      "loss": 0.4918,
      "step": 12727,
      "task_loss": 0.14301235973834991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43275684118270874,
      "epoch": 10.76,
      "learning_rate": 1.570757670632436e-05,
      "loss": 0.5853,
      "step": 12728,
      "task_loss": 1.252012014389038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5913571119308472,
      "epoch": 10.76,
      "learning_rate": 1.5704445835942394e-05,
      "loss": 0.4626,
      "step": 12729,
      "task_loss": 0.36528119444847107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45062339305877686,
      "epoch": 10.76,
      "learning_rate": 1.5701314965560426e-05,
      "loss": 0.5788,
      "step": 12730,
      "task_loss": 0.3145167827606201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45125052332878113,
      "epoch": 10.76,
      "learning_rate": 1.569818409517846e-05,
      "loss": 0.4545,
      "step": 12731,
      "task_loss": 0.7161767482757568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3793390393257141,
      "epoch": 10.76,
      "learning_rate": 1.5695053224796493e-05,
      "loss": 0.5016,
      "step": 12732,
      "task_loss": 1.1155364513397217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6610978841781616,
      "epoch": 10.76,
      "learning_rate": 1.5691922354414528e-05,
      "loss": 0.5654,
      "step": 12733,
      "task_loss": 1.3168280124664307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5613226294517517,
      "epoch": 10.76,
      "learning_rate": 1.568879148403256e-05,
      "loss": 0.5067,
      "step": 12734,
      "task_loss": 0.9575945734977722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8081387281417847,
      "epoch": 10.76,
      "learning_rate": 1.5685660613650595e-05,
      "loss": 0.5238,
      "step": 12735,
      "task_loss": 1.3258378505706787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5057939291000366,
      "epoch": 10.77,
      "learning_rate": 1.568252974326863e-05,
      "loss": 0.5578,
      "step": 12736,
      "task_loss": 0.5835580229759216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3336237370967865,
      "epoch": 10.77,
      "learning_rate": 1.5679398872886665e-05,
      "loss": 0.6403,
      "step": 12737,
      "task_loss": 1.1693696975708008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8029102683067322,
      "epoch": 10.77,
      "learning_rate": 1.5676268002504697e-05,
      "loss": 0.6574,
      "step": 12738,
      "task_loss": 0.600391149520874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6123663187026978,
      "epoch": 10.77,
      "learning_rate": 1.5673137132122732e-05,
      "loss": 0.3975,
      "step": 12739,
      "task_loss": 0.73946213722229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4133802056312561,
      "epoch": 10.77,
      "learning_rate": 1.5670006261740764e-05,
      "loss": 0.6091,
      "step": 12740,
      "task_loss": 0.7366372346878052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3945310413837433,
      "epoch": 10.77,
      "learning_rate": 1.56668753913588e-05,
      "loss": 0.5608,
      "step": 12741,
      "task_loss": 0.41016438603401184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8158407807350159,
      "epoch": 10.77,
      "learning_rate": 1.5663744520976834e-05,
      "loss": 0.4646,
      "step": 12742,
      "task_loss": 0.5057142376899719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4057363271713257,
      "epoch": 10.77,
      "learning_rate": 1.5660613650594866e-05,
      "loss": 0.5533,
      "step": 12743,
      "task_loss": 0.6531804203987122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4104726016521454,
      "epoch": 10.77,
      "learning_rate": 1.56574827802129e-05,
      "loss": 0.4725,
      "step": 12744,
      "task_loss": 0.46895191073417664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5845575928688049,
      "epoch": 10.77,
      "learning_rate": 1.5654351909830933e-05,
      "loss": 0.6377,
      "step": 12745,
      "task_loss": 0.8614857196807861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2530202269554138,
      "epoch": 10.77,
      "learning_rate": 1.5651221039448968e-05,
      "loss": 0.4961,
      "step": 12746,
      "task_loss": 0.49152660369873047
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45092225074768066,
      "epoch": 10.77,
      "learning_rate": 1.5648090169067e-05,
      "loss": 0.5049,
      "step": 12747,
      "task_loss": 1.0841782093048096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3878358006477356,
      "epoch": 10.78,
      "learning_rate": 1.5644959298685035e-05,
      "loss": 0.3987,
      "step": 12748,
      "task_loss": 0.12942691147327423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32123643159866333,
      "epoch": 10.78,
      "learning_rate": 1.5641828428303067e-05,
      "loss": 0.426,
      "step": 12749,
      "task_loss": 1.1930243968963623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38964444398880005,
      "epoch": 10.78,
      "learning_rate": 1.5638697557921102e-05,
      "loss": 0.4889,
      "step": 12750,
      "task_loss": 0.5713999271392822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31757333874702454,
      "epoch": 10.78,
      "learning_rate": 1.5635566687539137e-05,
      "loss": 0.498,
      "step": 12751,
      "task_loss": 0.22731442749500275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4187157452106476,
      "epoch": 10.78,
      "learning_rate": 1.563243581715717e-05,
      "loss": 0.4448,
      "step": 12752,
      "task_loss": 0.8707412481307983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.747075080871582,
      "epoch": 10.78,
      "learning_rate": 1.5629304946775204e-05,
      "loss": 0.6281,
      "step": 12753,
      "task_loss": 0.6780080199241638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8715403079986572,
      "epoch": 10.78,
      "learning_rate": 1.562617407639324e-05,
      "loss": 0.6553,
      "step": 12754,
      "task_loss": 0.7075722813606262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105575561523438,
      "epoch": 10.78,
      "learning_rate": 1.5623043206011274e-05,
      "loss": 0.5647,
      "step": 12755,
      "task_loss": 0.8980018496513367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4538103938102722,
      "epoch": 10.78,
      "learning_rate": 1.5619912335629306e-05,
      "loss": 0.6633,
      "step": 12756,
      "task_loss": 0.38282573223114014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40719425678253174,
      "epoch": 10.78,
      "learning_rate": 1.561678146524734e-05,
      "loss": 0.5659,
      "step": 12757,
      "task_loss": 0.3483627438545227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1962966024875641,
      "epoch": 10.78,
      "learning_rate": 1.5613650594865373e-05,
      "loss": 0.454,
      "step": 12758,
      "task_loss": 0.5096330642700195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4721667766571045,
      "epoch": 10.78,
      "learning_rate": 1.561051972448341e-05,
      "loss": 0.4971,
      "step": 12759,
      "task_loss": 0.9457393884658813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7800027132034302,
      "epoch": 10.79,
      "learning_rate": 1.560738885410144e-05,
      "loss": 0.5613,
      "step": 12760,
      "task_loss": 0.6415376663208008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4542236924171448,
      "epoch": 10.79,
      "learning_rate": 1.5604257983719475e-05,
      "loss": 0.4687,
      "step": 12761,
      "task_loss": 0.4741625487804413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42666172981262207,
      "epoch": 10.79,
      "learning_rate": 1.5601127113337507e-05,
      "loss": 0.567,
      "step": 12762,
      "task_loss": 0.14345037937164307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5495996475219727,
      "epoch": 10.79,
      "learning_rate": 1.5597996242955542e-05,
      "loss": 0.5412,
      "step": 12763,
      "task_loss": 0.2736620306968689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3186270594596863,
      "epoch": 10.79,
      "learning_rate": 1.5594865372573574e-05,
      "loss": 0.5121,
      "step": 12764,
      "task_loss": 0.33065155148506165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45484718680381775,
      "epoch": 10.79,
      "learning_rate": 1.559173450219161e-05,
      "loss": 0.5596,
      "step": 12765,
      "task_loss": 1.037168264389038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44111162424087524,
      "epoch": 10.79,
      "learning_rate": 1.5588603631809644e-05,
      "loss": 0.4789,
      "step": 12766,
      "task_loss": 0.5657808184623718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4364088177680969,
      "epoch": 10.79,
      "learning_rate": 1.5585472761427676e-05,
      "loss": 0.4565,
      "step": 12767,
      "task_loss": 0.5176511406898499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4882410168647766,
      "epoch": 10.79,
      "learning_rate": 1.558234189104571e-05,
      "loss": 0.5795,
      "step": 12768,
      "task_loss": 0.6805793046951294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5414342880249023,
      "epoch": 10.79,
      "learning_rate": 1.5579211020663746e-05,
      "loss": 0.4159,
      "step": 12769,
      "task_loss": 0.9137556552886963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31543153524398804,
      "epoch": 10.79,
      "learning_rate": 1.5576080150281778e-05,
      "loss": 0.5238,
      "step": 12770,
      "task_loss": 0.2871803343296051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3948426842689514,
      "epoch": 10.79,
      "learning_rate": 1.5572949279899813e-05,
      "loss": 0.4618,
      "step": 12771,
      "task_loss": 0.2529677152633667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3082101345062256,
      "epoch": 10.8,
      "learning_rate": 1.556981840951785e-05,
      "loss": 0.3085,
      "step": 12772,
      "task_loss": 0.2720949649810791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8863597512245178,
      "epoch": 10.8,
      "learning_rate": 1.556668753913588e-05,
      "loss": 0.5597,
      "step": 12773,
      "task_loss": 0.5564403533935547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4445578455924988,
      "epoch": 10.8,
      "learning_rate": 1.5563556668753916e-05,
      "loss": 0.3594,
      "step": 12774,
      "task_loss": 0.3626253604888916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3852667808532715,
      "epoch": 10.8,
      "learning_rate": 1.5560425798371947e-05,
      "loss": 0.5791,
      "step": 12775,
      "task_loss": 0.33580565452575684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7871660590171814,
      "epoch": 10.8,
      "learning_rate": 1.5557294927989982e-05,
      "loss": 0.5918,
      "step": 12776,
      "task_loss": 1.1155492067337036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41727420687675476,
      "epoch": 10.8,
      "learning_rate": 1.5554164057608014e-05,
      "loss": 0.3614,
      "step": 12777,
      "task_loss": 0.6997470259666443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463415384292603,
      "epoch": 10.8,
      "learning_rate": 1.555103318722605e-05,
      "loss": 0.4608,
      "step": 12778,
      "task_loss": 0.732166051864624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41985005140304565,
      "epoch": 10.8,
      "learning_rate": 1.5547902316844085e-05,
      "loss": 0.5213,
      "step": 12779,
      "task_loss": 0.45321178436279297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5995181798934937,
      "epoch": 10.8,
      "learning_rate": 1.5544771446462116e-05,
      "loss": 0.4945,
      "step": 12780,
      "task_loss": 0.7768793702125549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6910864114761353,
      "epoch": 10.8,
      "learning_rate": 1.554164057608015e-05,
      "loss": 0.5254,
      "step": 12781,
      "task_loss": 1.221524715423584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37395018339157104,
      "epoch": 10.8,
      "learning_rate": 1.5538509705698183e-05,
      "loss": 0.5563,
      "step": 12782,
      "task_loss": 0.9881718158721924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3316475749015808,
      "epoch": 10.81,
      "learning_rate": 1.553537883531622e-05,
      "loss": 0.4544,
      "step": 12783,
      "task_loss": 0.8298320174217224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7883398532867432,
      "epoch": 10.81,
      "learning_rate": 1.553224796493425e-05,
      "loss": 0.5517,
      "step": 12784,
      "task_loss": 0.5512227416038513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6283999085426331,
      "epoch": 10.81,
      "learning_rate": 1.5529117094552285e-05,
      "loss": 0.6955,
      "step": 12785,
      "task_loss": 0.6406662464141846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3931836187839508,
      "epoch": 10.81,
      "learning_rate": 1.552598622417032e-05,
      "loss": 0.54,
      "step": 12786,
      "task_loss": 0.37237393856048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42268893122673035,
      "epoch": 10.81,
      "learning_rate": 1.5522855353788356e-05,
      "loss": 0.4657,
      "step": 12787,
      "task_loss": 0.5501884818077087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5650085210800171,
      "epoch": 10.81,
      "learning_rate": 1.5519724483406388e-05,
      "loss": 0.5012,
      "step": 12788,
      "task_loss": 1.3424909114837646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7824451327323914,
      "epoch": 10.81,
      "learning_rate": 1.5516593613024423e-05,
      "loss": 0.6154,
      "step": 12789,
      "task_loss": 0.4506768584251404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34361129999160767,
      "epoch": 10.81,
      "learning_rate": 1.5513462742642458e-05,
      "loss": 0.4703,
      "step": 12790,
      "task_loss": 0.4675077497959137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8395873308181763,
      "epoch": 10.81,
      "learning_rate": 1.551033187226049e-05,
      "loss": 0.5433,
      "step": 12791,
      "task_loss": 1.440772294998169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3066089451313019,
      "epoch": 10.81,
      "learning_rate": 1.5507201001878525e-05,
      "loss": 0.481,
      "step": 12792,
      "task_loss": 0.7763055562973022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35358119010925293,
      "epoch": 10.81,
      "learning_rate": 1.5504070131496557e-05,
      "loss": 0.4901,
      "step": 12793,
      "task_loss": 0.42739397287368774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4348416328430176,
      "epoch": 10.81,
      "learning_rate": 1.5500939261114592e-05,
      "loss": 0.5243,
      "step": 12794,
      "task_loss": 0.6240849494934082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9420523047447205,
      "epoch": 10.82,
      "learning_rate": 1.5497808390732624e-05,
      "loss": 0.5164,
      "step": 12795,
      "task_loss": 0.35489827394485474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5926236510276794,
      "epoch": 10.82,
      "learning_rate": 1.549467752035066e-05,
      "loss": 0.437,
      "step": 12796,
      "task_loss": 0.6839828491210938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48098886013031006,
      "epoch": 10.82,
      "learning_rate": 1.549154664996869e-05,
      "loss": 0.473,
      "step": 12797,
      "task_loss": 1.62057363986969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6535744667053223,
      "epoch": 10.82,
      "learning_rate": 1.5488415779586726e-05,
      "loss": 0.5993,
      "step": 12798,
      "task_loss": 1.1384533643722534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5739275217056274,
      "epoch": 10.82,
      "learning_rate": 1.5485284909204758e-05,
      "loss": 0.5845,
      "step": 12799,
      "task_loss": 0.7802078723907471
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2681189179420471,
      "epoch": 10.82,
      "learning_rate": 1.5482154038822793e-05,
      "loss": 0.3516,
      "step": 12800,
      "task_loss": 0.022894661873579025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4181182384490967,
      "epoch": 10.82,
      "learning_rate": 1.5479023168440824e-05,
      "loss": 0.5274,
      "step": 12801,
      "task_loss": 0.3369516134262085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.970653235912323,
      "epoch": 10.82,
      "learning_rate": 1.547589229805886e-05,
      "loss": 0.6098,
      "step": 12802,
      "task_loss": 0.8197371363639832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6503778100013733,
      "epoch": 10.82,
      "learning_rate": 1.5472761427676895e-05,
      "loss": 0.4484,
      "step": 12803,
      "task_loss": 0.8802557587623596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.708260178565979,
      "epoch": 10.82,
      "learning_rate": 1.546963055729493e-05,
      "loss": 0.5817,
      "step": 12804,
      "task_loss": 0.2719804346561432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4247015714645386,
      "epoch": 10.82,
      "learning_rate": 1.5466499686912965e-05,
      "loss": 0.5471,
      "step": 12805,
      "task_loss": 0.9752165675163269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38041216135025024,
      "epoch": 10.82,
      "learning_rate": 1.5463368816530997e-05,
      "loss": 0.4401,
      "step": 12806,
      "task_loss": 0.9101687669754028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42993542551994324,
      "epoch": 10.83,
      "learning_rate": 1.5460237946149032e-05,
      "loss": 0.3529,
      "step": 12807,
      "task_loss": 0.34772366285324097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40223246812820435,
      "epoch": 10.83,
      "learning_rate": 1.5457107075767064e-05,
      "loss": 0.5413,
      "step": 12808,
      "task_loss": 0.606217086315155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4346325695514679,
      "epoch": 10.83,
      "learning_rate": 1.54539762053851e-05,
      "loss": 0.3959,
      "step": 12809,
      "task_loss": 1.3492298126220703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.702835738658905,
      "epoch": 10.83,
      "learning_rate": 1.545084533500313e-05,
      "loss": 0.5568,
      "step": 12810,
      "task_loss": 0.7425141930580139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245512127876282,
      "epoch": 10.83,
      "learning_rate": 1.5447714464621166e-05,
      "loss": 0.4911,
      "step": 12811,
      "task_loss": 1.5057623386383057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43983620405197144,
      "epoch": 10.83,
      "learning_rate": 1.5444583594239198e-05,
      "loss": 0.3529,
      "step": 12812,
      "task_loss": 0.3977017104625702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32536551356315613,
      "epoch": 10.83,
      "learning_rate": 1.5441452723857233e-05,
      "loss": 0.551,
      "step": 12813,
      "task_loss": 0.3238297402858734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7930103540420532,
      "epoch": 10.83,
      "learning_rate": 1.5438321853475265e-05,
      "loss": 0.6259,
      "step": 12814,
      "task_loss": 2.6887083053588867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35639041662216187,
      "epoch": 10.83,
      "learning_rate": 1.54351909830933e-05,
      "loss": 0.4225,
      "step": 12815,
      "task_loss": 0.5158243179321289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5048477649688721,
      "epoch": 10.83,
      "learning_rate": 1.5432060112711335e-05,
      "loss": 0.4078,
      "step": 12816,
      "task_loss": 0.2187536656856537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5767139196395874,
      "epoch": 10.83,
      "learning_rate": 1.5428929242329367e-05,
      "loss": 0.5896,
      "step": 12817,
      "task_loss": 0.8545069694519043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38463446497917175,
      "epoch": 10.83,
      "learning_rate": 1.5425798371947402e-05,
      "loss": 0.5545,
      "step": 12818,
      "task_loss": 0.9728146195411682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6697628498077393,
      "epoch": 10.84,
      "learning_rate": 1.5422667501565434e-05,
      "loss": 0.5451,
      "step": 12819,
      "task_loss": 0.7893702387809753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6149227023124695,
      "epoch": 10.84,
      "learning_rate": 1.541953663118347e-05,
      "loss": 0.5135,
      "step": 12820,
      "task_loss": 1.1641143560409546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5076012015342712,
      "epoch": 10.84,
      "learning_rate": 1.5416405760801504e-05,
      "loss": 0.5236,
      "step": 12821,
      "task_loss": 0.49111270904541016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5371319055557251,
      "epoch": 10.84,
      "learning_rate": 1.541327489041954e-05,
      "loss": 0.3724,
      "step": 12822,
      "task_loss": 0.4683212637901306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5334243774414062,
      "epoch": 10.84,
      "learning_rate": 1.541014402003757e-05,
      "loss": 0.5037,
      "step": 12823,
      "task_loss": 0.6849851012229919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27763134241104126,
      "epoch": 10.84,
      "learning_rate": 1.5407013149655606e-05,
      "loss": 0.5478,
      "step": 12824,
      "task_loss": 0.7202421426773071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5218371152877808,
      "epoch": 10.84,
      "learning_rate": 1.5403882279273638e-05,
      "loss": 0.4347,
      "step": 12825,
      "task_loss": 0.43332523107528687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5562266707420349,
      "epoch": 10.84,
      "learning_rate": 1.5400751408891673e-05,
      "loss": 0.5176,
      "step": 12826,
      "task_loss": 0.5799397230148315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.598837673664093,
      "epoch": 10.84,
      "learning_rate": 1.539762053850971e-05,
      "loss": 0.4151,
      "step": 12827,
      "task_loss": 1.0753505229949951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6763463616371155,
      "epoch": 10.84,
      "learning_rate": 1.539448966812774e-05,
      "loss": 0.541,
      "step": 12828,
      "task_loss": 0.7038050889968872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4453711211681366,
      "epoch": 10.84,
      "learning_rate": 1.5391358797745775e-05,
      "loss": 0.5049,
      "step": 12829,
      "task_loss": 0.4902510941028595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4780005216598511,
      "epoch": 10.84,
      "learning_rate": 1.5388227927363807e-05,
      "loss": 0.5381,
      "step": 12830,
      "task_loss": 0.20514324307441711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45659899711608887,
      "epoch": 10.85,
      "learning_rate": 1.5385097056981842e-05,
      "loss": 0.5349,
      "step": 12831,
      "task_loss": 0.7564250826835632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3050745725631714,
      "epoch": 10.85,
      "learning_rate": 1.5381966186599874e-05,
      "loss": 0.373,
      "step": 12832,
      "task_loss": 0.3445606529712677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43756359815597534,
      "epoch": 10.85,
      "learning_rate": 1.537883531621791e-05,
      "loss": 0.4138,
      "step": 12833,
      "task_loss": 0.016523420810699463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1843986064195633,
      "epoch": 10.85,
      "learning_rate": 1.537570444583594e-05,
      "loss": 0.4216,
      "step": 12834,
      "task_loss": 0.30423253774642944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32547152042388916,
      "epoch": 10.85,
      "learning_rate": 1.5372573575453976e-05,
      "loss": 0.4053,
      "step": 12835,
      "task_loss": 0.2504901885986328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48398250341415405,
      "epoch": 10.85,
      "learning_rate": 1.536944270507201e-05,
      "loss": 0.4528,
      "step": 12836,
      "task_loss": 1.6998077630996704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4274176061153412,
      "epoch": 10.85,
      "learning_rate": 1.5366311834690043e-05,
      "loss": 0.5799,
      "step": 12837,
      "task_loss": 0.39763444662094116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7369102239608765,
      "epoch": 10.85,
      "learning_rate": 1.5363180964308078e-05,
      "loss": 0.5619,
      "step": 12838,
      "task_loss": 1.290900468826294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5954046249389648,
      "epoch": 10.85,
      "learning_rate": 1.5360050093926113e-05,
      "loss": 0.6322,
      "step": 12839,
      "task_loss": 1.0652023553848267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3958621621131897,
      "epoch": 10.85,
      "learning_rate": 1.535691922354415e-05,
      "loss": 0.4309,
      "step": 12840,
      "task_loss": 0.18614304065704346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4223995804786682,
      "epoch": 10.85,
      "learning_rate": 1.535378835316218e-05,
      "loss": 0.4356,
      "step": 12841,
      "task_loss": 0.28902295231819153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3339812755584717,
      "epoch": 10.85,
      "learning_rate": 1.5350657482780216e-05,
      "loss": 0.6127,
      "step": 12842,
      "task_loss": 0.13121390342712402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30812087655067444,
      "epoch": 10.86,
      "learning_rate": 1.5347526612398247e-05,
      "loss": 0.3969,
      "step": 12843,
      "task_loss": 1.0218031406402588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7180724143981934,
      "epoch": 10.86,
      "learning_rate": 1.5344395742016283e-05,
      "loss": 0.6542,
      "step": 12844,
      "task_loss": 0.716809868812561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4471002519130707,
      "epoch": 10.86,
      "learning_rate": 1.5341264871634314e-05,
      "loss": 0.4314,
      "step": 12845,
      "task_loss": 0.3396604061126709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41742151975631714,
      "epoch": 10.86,
      "learning_rate": 1.533813400125235e-05,
      "loss": 0.3819,
      "step": 12846,
      "task_loss": 0.5508880615234375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32282787561416626,
      "epoch": 10.86,
      "learning_rate": 1.533500313087038e-05,
      "loss": 0.5359,
      "step": 12847,
      "task_loss": 0.26426801085472107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7903274297714233,
      "epoch": 10.86,
      "learning_rate": 1.5331872260488416e-05,
      "loss": 0.6819,
      "step": 12848,
      "task_loss": 0.34806784987449646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3534128963947296,
      "epoch": 10.86,
      "learning_rate": 1.5328741390106448e-05,
      "loss": 0.592,
      "step": 12849,
      "task_loss": 0.5711828470230103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38979971408843994,
      "epoch": 10.86,
      "learning_rate": 1.5325610519724483e-05,
      "loss": 0.4561,
      "step": 12850,
      "task_loss": 1.3977922201156616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5685175657272339,
      "epoch": 10.86,
      "learning_rate": 1.532247964934252e-05,
      "loss": 0.4819,
      "step": 12851,
      "task_loss": 0.5231055617332458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5189343094825745,
      "epoch": 10.86,
      "learning_rate": 1.531934877896055e-05,
      "loss": 0.5743,
      "step": 12852,
      "task_loss": 2.011725425720215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5378477573394775,
      "epoch": 10.86,
      "learning_rate": 1.5316217908578585e-05,
      "loss": 0.4875,
      "step": 12853,
      "task_loss": 0.48432478308677673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6526554822921753,
      "epoch": 10.87,
      "learning_rate": 1.531308703819662e-05,
      "loss": 0.5987,
      "step": 12854,
      "task_loss": 1.3323031663894653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0548696517944336,
      "epoch": 10.87,
      "learning_rate": 1.5309956167814652e-05,
      "loss": 0.7259,
      "step": 12855,
      "task_loss": 1.0238010883331299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5036675930023193,
      "epoch": 10.87,
      "learning_rate": 1.5306825297432688e-05,
      "loss": 0.4171,
      "step": 12856,
      "task_loss": 0.42827117443084717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6843302249908447,
      "epoch": 10.87,
      "learning_rate": 1.5303694427050723e-05,
      "loss": 0.4811,
      "step": 12857,
      "task_loss": 0.33324164152145386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.186903715133667,
      "epoch": 10.87,
      "learning_rate": 1.5300563556668755e-05,
      "loss": 0.6678,
      "step": 12858,
      "task_loss": 1.3386549949645996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8639566898345947,
      "epoch": 10.87,
      "learning_rate": 1.529743268628679e-05,
      "loss": 0.5299,
      "step": 12859,
      "task_loss": 1.3680843114852905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28941792249679565,
      "epoch": 10.87,
      "learning_rate": 1.529430181590482e-05,
      "loss": 0.4311,
      "step": 12860,
      "task_loss": 0.25852569937705994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4175015985965729,
      "epoch": 10.87,
      "learning_rate": 1.5291170945522857e-05,
      "loss": 0.4725,
      "step": 12861,
      "task_loss": 0.48214325308799744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49453264474868774,
      "epoch": 10.87,
      "learning_rate": 1.528804007514089e-05,
      "loss": 0.4579,
      "step": 12862,
      "task_loss": 0.37277644872665405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.534419059753418,
      "epoch": 10.87,
      "learning_rate": 1.5284909204758924e-05,
      "loss": 0.5548,
      "step": 12863,
      "task_loss": 0.19659553468227386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4552343487739563,
      "epoch": 10.87,
      "learning_rate": 1.528177833437696e-05,
      "loss": 0.4451,
      "step": 12864,
      "task_loss": 0.7157099843025208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25352349877357483,
      "epoch": 10.87,
      "learning_rate": 1.527864746399499e-05,
      "loss": 0.4413,
      "step": 12865,
      "task_loss": 0.11901690065860748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34985291957855225,
      "epoch": 10.88,
      "learning_rate": 1.5275516593613026e-05,
      "loss": 0.503,
      "step": 12866,
      "task_loss": 0.7866591811180115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30115342140197754,
      "epoch": 10.88,
      "learning_rate": 1.5272385723231058e-05,
      "loss": 0.45,
      "step": 12867,
      "task_loss": 0.46104201674461365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7551948428153992,
      "epoch": 10.88,
      "learning_rate": 1.5269254852849093e-05,
      "loss": 0.6107,
      "step": 12868,
      "task_loss": 1.5394608974456787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.679541289806366,
      "epoch": 10.88,
      "learning_rate": 1.5266123982467124e-05,
      "loss": 0.425,
      "step": 12869,
      "task_loss": 0.495027095079422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7825802564620972,
      "epoch": 10.88,
      "learning_rate": 1.526299311208516e-05,
      "loss": 0.5735,
      "step": 12870,
      "task_loss": 0.860990047454834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7883006930351257,
      "epoch": 10.88,
      "learning_rate": 1.5259862241703195e-05,
      "loss": 0.4737,
      "step": 12871,
      "task_loss": 0.712565541267395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4142652750015259,
      "epoch": 10.88,
      "learning_rate": 1.5256731371321228e-05,
      "loss": 0.4959,
      "step": 12872,
      "task_loss": 0.0909951701760292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9128175973892212,
      "epoch": 10.88,
      "learning_rate": 1.525360050093926e-05,
      "loss": 0.5694,
      "step": 12873,
      "task_loss": 1.0372146368026733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2931479215621948,
      "epoch": 10.88,
      "learning_rate": 1.5250469630557295e-05,
      "loss": 0.4766,
      "step": 12874,
      "task_loss": 0.4450807273387909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37314385175704956,
      "epoch": 10.88,
      "learning_rate": 1.5247338760175329e-05,
      "loss": 0.387,
      "step": 12875,
      "task_loss": 0.22064079344272614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4085252285003662,
      "epoch": 10.88,
      "learning_rate": 1.5244207889793364e-05,
      "loss": 0.4467,
      "step": 12876,
      "task_loss": 1.4386588335037231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37106966972351074,
      "epoch": 10.88,
      "learning_rate": 1.5241077019411399e-05,
      "loss": 0.5642,
      "step": 12877,
      "task_loss": 0.30367597937583923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9864603281021118,
      "epoch": 10.89,
      "learning_rate": 1.5237946149029431e-05,
      "loss": 0.781,
      "step": 12878,
      "task_loss": 0.535528838634491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42650967836380005,
      "epoch": 10.89,
      "learning_rate": 1.5234815278647466e-05,
      "loss": 0.3789,
      "step": 12879,
      "task_loss": 0.32472240924835205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21971622109413147,
      "epoch": 10.89,
      "learning_rate": 1.5231684408265498e-05,
      "loss": 0.4206,
      "step": 12880,
      "task_loss": 0.5167831778526306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6583681106567383,
      "epoch": 10.89,
      "learning_rate": 1.5228553537883533e-05,
      "loss": 0.5391,
      "step": 12881,
      "task_loss": 0.5404089689254761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.074265956878662,
      "epoch": 10.89,
      "learning_rate": 1.5225422667501565e-05,
      "loss": 0.7077,
      "step": 12882,
      "task_loss": 1.3475638628005981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7244732975959778,
      "epoch": 10.89,
      "learning_rate": 1.52222917971196e-05,
      "loss": 0.5444,
      "step": 12883,
      "task_loss": 0.9020153284072876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4854426980018616,
      "epoch": 10.89,
      "learning_rate": 1.5219160926737633e-05,
      "loss": 0.5083,
      "step": 12884,
      "task_loss": 0.7650241851806641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5870682001113892,
      "epoch": 10.89,
      "learning_rate": 1.5216030056355669e-05,
      "loss": 0.5414,
      "step": 12885,
      "task_loss": 0.8088772296905518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4771483838558197,
      "epoch": 10.89,
      "learning_rate": 1.52128991859737e-05,
      "loss": 0.4688,
      "step": 12886,
      "task_loss": 0.285031259059906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42295581102371216,
      "epoch": 10.89,
      "learning_rate": 1.5209768315591736e-05,
      "loss": 0.6241,
      "step": 12887,
      "task_loss": 0.5746353268623352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3870317339897156,
      "epoch": 10.89,
      "learning_rate": 1.520663744520977e-05,
      "loss": 0.466,
      "step": 12888,
      "task_loss": 0.895117461681366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3416445851325989,
      "epoch": 10.89,
      "learning_rate": 1.5203506574827802e-05,
      "loss": 0.4454,
      "step": 12889,
      "task_loss": 0.3970315158367157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6371868848800659,
      "epoch": 10.9,
      "learning_rate": 1.5200375704445838e-05,
      "loss": 0.5367,
      "step": 12890,
      "task_loss": 1.3123793601989746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5199769735336304,
      "epoch": 10.9,
      "learning_rate": 1.519724483406387e-05,
      "loss": 0.5248,
      "step": 12891,
      "task_loss": 0.6719616651535034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2918190062046051,
      "epoch": 10.9,
      "learning_rate": 1.5194113963681905e-05,
      "loss": 0.4181,
      "step": 12892,
      "task_loss": 0.2829280197620392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46294957399368286,
      "epoch": 10.9,
      "learning_rate": 1.5190983093299938e-05,
      "loss": 0.4763,
      "step": 12893,
      "task_loss": 0.27679872512817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3732497990131378,
      "epoch": 10.9,
      "learning_rate": 1.5187852222917973e-05,
      "loss": 0.5636,
      "step": 12894,
      "task_loss": 1.1364901065826416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27819621562957764,
      "epoch": 10.9,
      "learning_rate": 1.5184721352536005e-05,
      "loss": 0.3775,
      "step": 12895,
      "task_loss": 0.22748099267482758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33807435631752014,
      "epoch": 10.9,
      "learning_rate": 1.518159048215404e-05,
      "loss": 0.4776,
      "step": 12896,
      "task_loss": 0.9609302878379822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3004332184791565,
      "epoch": 10.9,
      "learning_rate": 1.5178459611772072e-05,
      "loss": 0.4593,
      "step": 12897,
      "task_loss": 0.1714378148317337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4040224552154541,
      "epoch": 10.9,
      "learning_rate": 1.5175328741390107e-05,
      "loss": 0.5468,
      "step": 12898,
      "task_loss": 0.9719327688217163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40206384658813477,
      "epoch": 10.9,
      "learning_rate": 1.5172197871008139e-05,
      "loss": 0.4721,
      "step": 12899,
      "task_loss": 0.1340421885251999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8759273886680603,
      "epoch": 10.9,
      "learning_rate": 1.5169067000626174e-05,
      "loss": 0.6209,
      "step": 12900,
      "task_loss": 0.2504759430885315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5858975648880005,
      "epoch": 10.9,
      "learning_rate": 1.516593613024421e-05,
      "loss": 0.5697,
      "step": 12901,
      "task_loss": 0.9438489675521851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3881514370441437,
      "epoch": 10.91,
      "learning_rate": 1.5162805259862243e-05,
      "loss": 0.4293,
      "step": 12902,
      "task_loss": 0.8958790898323059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6489452123641968,
      "epoch": 10.91,
      "learning_rate": 1.5159674389480278e-05,
      "loss": 0.4016,
      "step": 12903,
      "task_loss": 0.7063891291618347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30103984475135803,
      "epoch": 10.91,
      "learning_rate": 1.515654351909831e-05,
      "loss": 0.4226,
      "step": 12904,
      "task_loss": 0.569516658782959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34334826469421387,
      "epoch": 10.91,
      "learning_rate": 1.5153412648716345e-05,
      "loss": 0.4917,
      "step": 12905,
      "task_loss": 0.32131877541542053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7050896883010864,
      "epoch": 10.91,
      "learning_rate": 1.5150281778334377e-05,
      "loss": 0.5697,
      "step": 12906,
      "task_loss": 0.1115395650267601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7843804359436035,
      "epoch": 10.91,
      "learning_rate": 1.5147150907952412e-05,
      "loss": 0.5766,
      "step": 12907,
      "task_loss": 1.250160813331604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6754249930381775,
      "epoch": 10.91,
      "learning_rate": 1.5144020037570444e-05,
      "loss": 0.4307,
      "step": 12908,
      "task_loss": 0.5749412178993225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3517855107784271,
      "epoch": 10.91,
      "learning_rate": 1.5140889167188479e-05,
      "loss": 0.4176,
      "step": 12909,
      "task_loss": 0.5149737596511841
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48996782302856445,
      "epoch": 10.91,
      "learning_rate": 1.5137758296806512e-05,
      "loss": 0.4115,
      "step": 12910,
      "task_loss": 0.5563344359397888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.754405677318573,
      "epoch": 10.91,
      "learning_rate": 1.5134627426424547e-05,
      "loss": 0.5074,
      "step": 12911,
      "task_loss": 0.7390317916870117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5851496458053589,
      "epoch": 10.91,
      "learning_rate": 1.513149655604258e-05,
      "loss": 0.4674,
      "step": 12912,
      "task_loss": 0.19400453567504883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22689059376716614,
      "epoch": 10.91,
      "learning_rate": 1.5128365685660614e-05,
      "loss": 0.4271,
      "step": 12913,
      "task_loss": 0.3806815445423126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030706524848938,
      "epoch": 10.92,
      "learning_rate": 1.512523481527865e-05,
      "loss": 0.4713,
      "step": 12914,
      "task_loss": 0.4394088089466095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4294728636741638,
      "epoch": 10.92,
      "learning_rate": 1.5122103944896681e-05,
      "loss": 0.4378,
      "step": 12915,
      "task_loss": 0.5344105362892151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47755247354507446,
      "epoch": 10.92,
      "learning_rate": 1.5118973074514716e-05,
      "loss": 0.6769,
      "step": 12916,
      "task_loss": 0.6348171234130859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45726001262664795,
      "epoch": 10.92,
      "learning_rate": 1.511584220413275e-05,
      "loss": 0.7682,
      "step": 12917,
      "task_loss": 0.5556889176368713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6019982099533081,
      "epoch": 10.92,
      "learning_rate": 1.5112711333750783e-05,
      "loss": 0.6682,
      "step": 12918,
      "task_loss": 1.7862690687179565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4576857388019562,
      "epoch": 10.92,
      "learning_rate": 1.5109580463368817e-05,
      "loss": 0.403,
      "step": 12919,
      "task_loss": 0.6708860993385315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6598764657974243,
      "epoch": 10.92,
      "learning_rate": 1.5106449592986852e-05,
      "loss": 0.5615,
      "step": 12920,
      "task_loss": 0.7253443002700806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5390857458114624,
      "epoch": 10.92,
      "learning_rate": 1.5103318722604884e-05,
      "loss": 0.4703,
      "step": 12921,
      "task_loss": 0.9200561046600342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8681755065917969,
      "epoch": 10.92,
      "learning_rate": 1.5100187852222919e-05,
      "loss": 0.4993,
      "step": 12922,
      "task_loss": 0.9365078806877136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47182267904281616,
      "epoch": 10.92,
      "learning_rate": 1.509705698184095e-05,
      "loss": 0.3869,
      "step": 12923,
      "task_loss": 0.4421626925468445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5713654160499573,
      "epoch": 10.92,
      "learning_rate": 1.5093926111458986e-05,
      "loss": 0.5862,
      "step": 12924,
      "task_loss": 0.514303982257843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30246150493621826,
      "epoch": 10.93,
      "learning_rate": 1.5090795241077021e-05,
      "loss": 0.3685,
      "step": 12925,
      "task_loss": 0.3434082567691803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21043947339057922,
      "epoch": 10.93,
      "learning_rate": 1.5087664370695055e-05,
      "loss": 0.4187,
      "step": 12926,
      "task_loss": 0.19982104003429413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3212679922580719,
      "epoch": 10.93,
      "learning_rate": 1.5084533500313088e-05,
      "loss": 0.5154,
      "step": 12927,
      "task_loss": 0.532741904258728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4298354387283325,
      "epoch": 10.93,
      "learning_rate": 1.5081402629931122e-05,
      "loss": 0.4762,
      "step": 12928,
      "task_loss": 0.6758939027786255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44252005219459534,
      "epoch": 10.93,
      "learning_rate": 1.5078271759549157e-05,
      "loss": 0.4517,
      "step": 12929,
      "task_loss": 0.7170485258102417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22628261148929596,
      "epoch": 10.93,
      "learning_rate": 1.5075140889167189e-05,
      "loss": 0.514,
      "step": 12930,
      "task_loss": 0.1961561143398285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47747528553009033,
      "epoch": 10.93,
      "learning_rate": 1.5072010018785224e-05,
      "loss": 0.4759,
      "step": 12931,
      "task_loss": 0.9369490146636963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35609957575798035,
      "epoch": 10.93,
      "learning_rate": 1.5068879148403255e-05,
      "loss": 0.4508,
      "step": 12932,
      "task_loss": 0.9029961228370667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187788009643555,
      "epoch": 10.93,
      "learning_rate": 1.506574827802129e-05,
      "loss": 0.4138,
      "step": 12933,
      "task_loss": 0.3654021620750427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22957441210746765,
      "epoch": 10.93,
      "learning_rate": 1.5062617407639324e-05,
      "loss": 0.4985,
      "step": 12934,
      "task_loss": 0.3925546407699585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3773728609085083,
      "epoch": 10.93,
      "learning_rate": 1.505948653725736e-05,
      "loss": 0.4279,
      "step": 12935,
      "task_loss": 0.39819833636283875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2864890694618225,
      "epoch": 10.93,
      "learning_rate": 1.5056355666875391e-05,
      "loss": 0.3804,
      "step": 12936,
      "task_loss": 0.34117165207862854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.603461503982544,
      "epoch": 10.94,
      "learning_rate": 1.5053224796493426e-05,
      "loss": 0.5472,
      "step": 12937,
      "task_loss": 1.3411498069763184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40643274784088135,
      "epoch": 10.94,
      "learning_rate": 1.5050093926111461e-05,
      "loss": 0.5316,
      "step": 12938,
      "task_loss": 0.5569625496864319
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2630404829978943,
      "epoch": 10.94,
      "learning_rate": 1.5046963055729493e-05,
      "loss": 0.5795,
      "step": 12939,
      "task_loss": 0.38377511501312256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.504969596862793,
      "epoch": 10.94,
      "learning_rate": 1.5043832185347528e-05,
      "loss": 0.4456,
      "step": 12940,
      "task_loss": 0.6330620646476746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2759245038032532,
      "epoch": 10.94,
      "learning_rate": 1.504070131496556e-05,
      "loss": 0.4073,
      "step": 12941,
      "task_loss": 0.3068579435348511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26225167512893677,
      "epoch": 10.94,
      "learning_rate": 1.5037570444583595e-05,
      "loss": 0.4219,
      "step": 12942,
      "task_loss": 0.6231129169464111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6140240430831909,
      "epoch": 10.94,
      "learning_rate": 1.5034439574201629e-05,
      "loss": 0.5365,
      "step": 12943,
      "task_loss": 0.6517871618270874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5275040864944458,
      "epoch": 10.94,
      "learning_rate": 1.5031308703819664e-05,
      "loss": 0.594,
      "step": 12944,
      "task_loss": 0.7108621597290039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34361445903778076,
      "epoch": 10.94,
      "learning_rate": 1.5028177833437696e-05,
      "loss": 0.3875,
      "step": 12945,
      "task_loss": 0.4189951419830322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503503084182739,
      "epoch": 10.94,
      "learning_rate": 1.5025046963055731e-05,
      "loss": 0.4993,
      "step": 12946,
      "task_loss": 0.624238908290863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49070343375205994,
      "epoch": 10.94,
      "learning_rate": 1.5021916092673763e-05,
      "loss": 0.5215,
      "step": 12947,
      "task_loss": 0.18108785152435303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43333983421325684,
      "epoch": 10.94,
      "learning_rate": 1.5018785222291798e-05,
      "loss": 0.5688,
      "step": 12948,
      "task_loss": 0.565432071685791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47431913018226624,
      "epoch": 10.95,
      "learning_rate": 1.501565435190983e-05,
      "loss": 0.5121,
      "step": 12949,
      "task_loss": 1.1016517877578735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35432493686676025,
      "epoch": 10.95,
      "learning_rate": 1.5012523481527865e-05,
      "loss": 0.469,
      "step": 12950,
      "task_loss": 0.6447552442550659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6870264410972595,
      "epoch": 10.95,
      "learning_rate": 1.50093926111459e-05,
      "loss": 0.575,
      "step": 12951,
      "task_loss": 0.5808908939361572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5725613832473755,
      "epoch": 10.95,
      "learning_rate": 1.5006261740763933e-05,
      "loss": 0.5578,
      "step": 12952,
      "task_loss": 0.054525747895240784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5877391695976257,
      "epoch": 10.95,
      "learning_rate": 1.5003130870381969e-05,
      "loss": 0.5259,
      "step": 12953,
      "task_loss": 0.6204513907432556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37136924266815186,
      "epoch": 10.95,
      "learning_rate": 1.5e-05,
      "loss": 0.4641,
      "step": 12954,
      "task_loss": 0.6168534159660339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4418243169784546,
      "epoch": 10.95,
      "learning_rate": 1.4996869129618036e-05,
      "loss": 0.3966,
      "step": 12955,
      "task_loss": 0.39550620317459106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6478408575057983,
      "epoch": 10.95,
      "learning_rate": 1.4993738259236067e-05,
      "loss": 0.4594,
      "step": 12956,
      "task_loss": 0.5114001035690308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4959828853607178,
      "epoch": 10.95,
      "learning_rate": 1.4990607388854102e-05,
      "loss": 0.4684,
      "step": 12957,
      "task_loss": 0.22148513793945312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31866520643234253,
      "epoch": 10.95,
      "learning_rate": 1.4987476518472134e-05,
      "loss": 0.3934,
      "step": 12958,
      "task_loss": 0.5677955150604248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2551923990249634,
      "epoch": 10.95,
      "learning_rate": 1.498434564809017e-05,
      "loss": 0.3883,
      "step": 12959,
      "task_loss": 0.4117354452610016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4295051395893097,
      "epoch": 10.95,
      "learning_rate": 1.4981214777708203e-05,
      "loss": 0.5749,
      "step": 12960,
      "task_loss": 0.32496798038482666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5458429455757141,
      "epoch": 10.96,
      "learning_rate": 1.4978083907326238e-05,
      "loss": 0.5942,
      "step": 12961,
      "task_loss": 0.3899574279785156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6129829287528992,
      "epoch": 10.96,
      "learning_rate": 1.4974953036944273e-05,
      "loss": 0.4056,
      "step": 12962,
      "task_loss": 0.331462562084198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24586474895477295,
      "epoch": 10.96,
      "learning_rate": 1.4971822166562305e-05,
      "loss": 0.4831,
      "step": 12963,
      "task_loss": 0.2956916391849518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967643857002258,
      "epoch": 10.96,
      "learning_rate": 1.496869129618034e-05,
      "loss": 0.6885,
      "step": 12964,
      "task_loss": 2.1182498931884766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4915872812271118,
      "epoch": 10.96,
      "learning_rate": 1.4965560425798372e-05,
      "loss": 0.6213,
      "step": 12965,
      "task_loss": 1.2763715982437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7727789282798767,
      "epoch": 10.96,
      "learning_rate": 1.4962429555416407e-05,
      "loss": 0.6332,
      "step": 12966,
      "task_loss": 0.998192310333252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4409647583961487,
      "epoch": 10.96,
      "learning_rate": 1.4959298685034439e-05,
      "loss": 0.5704,
      "step": 12967,
      "task_loss": 1.3255927562713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4961637854576111,
      "epoch": 10.96,
      "learning_rate": 1.4956167814652474e-05,
      "loss": 0.55,
      "step": 12968,
      "task_loss": 0.35189545154571533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4977482557296753,
      "epoch": 10.96,
      "learning_rate": 1.4953036944270508e-05,
      "loss": 0.3398,
      "step": 12969,
      "task_loss": 0.1881825476884842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4209232032299042,
      "epoch": 10.96,
      "learning_rate": 1.4949906073888543e-05,
      "loss": 0.4865,
      "step": 12970,
      "task_loss": 0.3455365002155304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6962898969650269,
      "epoch": 10.96,
      "learning_rate": 1.4946775203506575e-05,
      "loss": 0.6235,
      "step": 12971,
      "task_loss": 0.4658393859863281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3236977458000183,
      "epoch": 10.96,
      "learning_rate": 1.494364433312461e-05,
      "loss": 0.3508,
      "step": 12972,
      "task_loss": 0.8187462687492371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4864118695259094,
      "epoch": 10.97,
      "learning_rate": 1.4940513462742641e-05,
      "loss": 0.4204,
      "step": 12973,
      "task_loss": 0.7776699066162109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25884509086608887,
      "epoch": 10.97,
      "learning_rate": 1.4937382592360677e-05,
      "loss": 0.4884,
      "step": 12974,
      "task_loss": 0.5779843330383301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39435258507728577,
      "epoch": 10.97,
      "learning_rate": 1.4934251721978712e-05,
      "loss": 0.4251,
      "step": 12975,
      "task_loss": 0.13273724913597107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4285828471183777,
      "epoch": 10.97,
      "learning_rate": 1.4931120851596744e-05,
      "loss": 0.4938,
      "step": 12976,
      "task_loss": 0.17855019867420197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3454011082649231,
      "epoch": 10.97,
      "learning_rate": 1.4927989981214779e-05,
      "loss": 0.4926,
      "step": 12977,
      "task_loss": 0.8749127388000488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4585868716239929,
      "epoch": 10.97,
      "learning_rate": 1.4924859110832812e-05,
      "loss": 0.5856,
      "step": 12978,
      "task_loss": 0.31292784214019775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33053457736968994,
      "epoch": 10.97,
      "learning_rate": 1.4921728240450847e-05,
      "loss": 0.4374,
      "step": 12979,
      "task_loss": 0.4388846158981323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4259783923625946,
      "epoch": 10.97,
      "learning_rate": 1.491859737006888e-05,
      "loss": 0.4307,
      "step": 12980,
      "task_loss": 0.22678515315055847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43607020378112793,
      "epoch": 10.97,
      "learning_rate": 1.4915466499686914e-05,
      "loss": 0.4116,
      "step": 12981,
      "task_loss": 0.17978264391422272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44224196672439575,
      "epoch": 10.97,
      "learning_rate": 1.4912335629304946e-05,
      "loss": 0.6471,
      "step": 12982,
      "task_loss": 1.2296595573425293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4007852077484131,
      "epoch": 10.97,
      "learning_rate": 1.4909204758922981e-05,
      "loss": 0.4601,
      "step": 12983,
      "task_loss": 0.38692113757133484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47526317834854126,
      "epoch": 10.97,
      "learning_rate": 1.4906073888541013e-05,
      "loss": 0.4271,
      "step": 12984,
      "task_loss": 0.4098243713378906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15860290825366974,
      "epoch": 10.98,
      "learning_rate": 1.4902943018159048e-05,
      "loss": 0.5196,
      "step": 12985,
      "task_loss": 0.37783220410346985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3550984859466553,
      "epoch": 10.98,
      "learning_rate": 1.4899812147777083e-05,
      "loss": 0.5534,
      "step": 12986,
      "task_loss": 0.28729403018951416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30894744396209717,
      "epoch": 10.98,
      "learning_rate": 1.4896681277395117e-05,
      "loss": 0.6278,
      "step": 12987,
      "task_loss": 0.6254445910453796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5039688348770142,
      "epoch": 10.98,
      "learning_rate": 1.4893550407013152e-05,
      "loss": 0.4678,
      "step": 12988,
      "task_loss": 0.24265983700752258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44661813974380493,
      "epoch": 10.98,
      "learning_rate": 1.4890419536631184e-05,
      "loss": 0.4424,
      "step": 12989,
      "task_loss": 0.5152918100357056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4599907398223877,
      "epoch": 10.98,
      "learning_rate": 1.4887288666249219e-05,
      "loss": 0.4489,
      "step": 12990,
      "task_loss": 1.3579392433166504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5717059373855591,
      "epoch": 10.98,
      "learning_rate": 1.488415779586725e-05,
      "loss": 0.6188,
      "step": 12991,
      "task_loss": 0.39119723439216614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5931569337844849,
      "epoch": 10.98,
      "learning_rate": 1.4881026925485286e-05,
      "loss": 0.6539,
      "step": 12992,
      "task_loss": 1.3707789182662964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5461002588272095,
      "epoch": 10.98,
      "learning_rate": 1.487789605510332e-05,
      "loss": 0.505,
      "step": 12993,
      "task_loss": 1.2249609231948853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28133970499038696,
      "epoch": 10.98,
      "learning_rate": 1.4874765184721353e-05,
      "loss": 0.4805,
      "step": 12994,
      "task_loss": 0.0321483314037323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4012354612350464,
      "epoch": 10.98,
      "learning_rate": 1.4871634314339386e-05,
      "loss": 0.5395,
      "step": 12995,
      "task_loss": 0.3727371096611023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5444573163986206,
      "epoch": 10.99,
      "learning_rate": 1.4868503443957422e-05,
      "loss": 0.5705,
      "step": 12996,
      "task_loss": 1.093075156211853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5393609404563904,
      "epoch": 10.99,
      "learning_rate": 1.4865372573575453e-05,
      "loss": 0.4568,
      "step": 12997,
      "task_loss": 0.9585828185081482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5156993865966797,
      "epoch": 10.99,
      "learning_rate": 1.4862241703193489e-05,
      "loss": 0.5406,
      "step": 12998,
      "task_loss": 0.599909782409668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3674007058143616,
      "epoch": 10.99,
      "learning_rate": 1.4859110832811524e-05,
      "loss": 0.308,
      "step": 12999,
      "task_loss": 0.41116100549697876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8426975011825562,
      "epoch": 10.99,
      "learning_rate": 1.4855979962429555e-05,
      "loss": 0.6251,
      "step": 13000,
      "task_loss": 0.5863122344017029
    },
    {
      "epoch": 10.99,
      "eval_accuracy": 0.9072871287128713,
      "eval_loss": 0.34724152088165283,
      "eval_runtime": 208.7818,
      "eval_samples_per_second": 120.94,
      "eval_steps_per_second": 0.948,
      "step": 13000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23919108510017395,
      "epoch": 10.99,
      "learning_rate": 1.485284909204759e-05,
      "loss": 0.4913,
      "step": 13001,
      "task_loss": 0.25469347834587097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34446635842323303,
      "epoch": 10.99,
      "learning_rate": 1.4849718221665624e-05,
      "loss": 0.6204,
      "step": 13002,
      "task_loss": 0.6175515651702881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48932725191116333,
      "epoch": 10.99,
      "learning_rate": 1.4846587351283658e-05,
      "loss": 0.5252,
      "step": 13003,
      "task_loss": 0.4203982353210449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7349878549575806,
      "epoch": 10.99,
      "learning_rate": 1.4843456480901691e-05,
      "loss": 0.592,
      "step": 13004,
      "task_loss": 0.6738802194595337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967287421226501,
      "epoch": 10.99,
      "learning_rate": 1.4840325610519726e-05,
      "loss": 0.492,
      "step": 13005,
      "task_loss": 1.011212706565857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3294861316680908,
      "epoch": 10.99,
      "learning_rate": 1.4837194740137758e-05,
      "loss": 0.4459,
      "step": 13006,
      "task_loss": 0.3251146674156189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45883846282958984,
      "epoch": 10.99,
      "learning_rate": 1.4834063869755793e-05,
      "loss": 0.4658,
      "step": 13007,
      "task_loss": 1.3146440982818604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7881167531013489,
      "epoch": 11.0,
      "learning_rate": 1.4830932999373825e-05,
      "loss": 0.528,
      "step": 13008,
      "task_loss": 0.6337814331054688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6913658380508423,
      "epoch": 11.0,
      "learning_rate": 1.482780212899186e-05,
      "loss": 0.588,
      "step": 13009,
      "task_loss": 1.8216040134429932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34649282693862915,
      "epoch": 11.0,
      "learning_rate": 1.4824671258609894e-05,
      "loss": 0.3633,
      "step": 13010,
      "task_loss": 0.5761299729347229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3623782992362976,
      "epoch": 11.0,
      "learning_rate": 1.4821540388227929e-05,
      "loss": 0.371,
      "step": 13011,
      "task_loss": 0.4070045053958893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43814903497695923,
      "epoch": 11.0,
      "learning_rate": 1.4818409517845962e-05,
      "loss": 0.5575,
      "step": 13012,
      "task_loss": 0.6980209946632385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.709821343421936,
      "epoch": 11.0,
      "learning_rate": 1.4815278647463996e-05,
      "loss": 0.4796,
      "step": 13013,
      "task_loss": 0.6388180255889893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27548983693122864,
      "epoch": 11.0,
      "learning_rate": 1.4812147777082031e-05,
      "loss": 0.8637,
      "step": 13014,
      "task_loss": 0.4260912537574768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37804198265075684,
      "epoch": 11.0,
      "learning_rate": 1.4809016906700063e-05,
      "loss": 0.5178,
      "step": 13015,
      "task_loss": 0.5690457224845886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3094586730003357,
      "epoch": 11.0,
      "learning_rate": 1.4805886036318098e-05,
      "loss": 0.419,
      "step": 13016,
      "task_loss": 0.6090420484542847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4734489321708679,
      "epoch": 11.0,
      "learning_rate": 1.480275516593613e-05,
      "loss": 0.4644,
      "step": 13017,
      "task_loss": 1.1837763786315918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8371721506118774,
      "epoch": 11.0,
      "learning_rate": 1.4799624295554165e-05,
      "loss": 0.7837,
      "step": 13018,
      "task_loss": 0.5424495339393616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.374021053314209,
      "epoch": 11.01,
      "learning_rate": 1.4796493425172198e-05,
      "loss": 0.3789,
      "step": 13019,
      "task_loss": 0.6061616539955139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40307849645614624,
      "epoch": 11.01,
      "learning_rate": 1.4793362554790233e-05,
      "loss": 0.499,
      "step": 13020,
      "task_loss": 0.43495601415634155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6927989721298218,
      "epoch": 11.01,
      "learning_rate": 1.4790231684408265e-05,
      "loss": 0.5074,
      "step": 13021,
      "task_loss": 0.8216361999511719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8790075182914734,
      "epoch": 11.01,
      "learning_rate": 1.47871008140263e-05,
      "loss": 0.7288,
      "step": 13022,
      "task_loss": 1.3761847019195557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5803523063659668,
      "epoch": 11.01,
      "learning_rate": 1.4783969943644336e-05,
      "loss": 0.6278,
      "step": 13023,
      "task_loss": 1.0695167779922485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2807234823703766,
      "epoch": 11.01,
      "learning_rate": 1.4780839073262367e-05,
      "loss": 0.4032,
      "step": 13024,
      "task_loss": 0.059708163142204285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6042443513870239,
      "epoch": 11.01,
      "learning_rate": 1.4777708202880403e-05,
      "loss": 0.5484,
      "step": 13025,
      "task_loss": 1.310827374458313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4612792134284973,
      "epoch": 11.01,
      "learning_rate": 1.4774577332498434e-05,
      "loss": 0.4642,
      "step": 13026,
      "task_loss": 0.2862667143344879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5681426525115967,
      "epoch": 11.01,
      "learning_rate": 1.477144646211647e-05,
      "loss": 0.5888,
      "step": 13027,
      "task_loss": 0.9930564165115356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3325341045856476,
      "epoch": 11.01,
      "learning_rate": 1.4768315591734503e-05,
      "loss": 0.4473,
      "step": 13028,
      "task_loss": 0.09000822901725769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20552915334701538,
      "epoch": 11.01,
      "learning_rate": 1.4765184721352538e-05,
      "loss": 0.4105,
      "step": 13029,
      "task_loss": 0.1405990719795227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5556410551071167,
      "epoch": 11.01,
      "learning_rate": 1.476205385097057e-05,
      "loss": 0.5158,
      "step": 13030,
      "task_loss": 0.2246694415807724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4171523153781891,
      "epoch": 11.02,
      "learning_rate": 1.4758922980588605e-05,
      "loss": 0.4919,
      "step": 13031,
      "task_loss": 0.453622043132782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9768198728561401,
      "epoch": 11.02,
      "learning_rate": 1.4755792110206637e-05,
      "loss": 0.5656,
      "step": 13032,
      "task_loss": 0.9923115372657776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5550410747528076,
      "epoch": 11.02,
      "learning_rate": 1.4752661239824672e-05,
      "loss": 0.4298,
      "step": 13033,
      "task_loss": 1.274035930633545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4834396243095398,
      "epoch": 11.02,
      "learning_rate": 1.4749530369442704e-05,
      "loss": 0.6078,
      "step": 13034,
      "task_loss": 0.46644145250320435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48726943135261536,
      "epoch": 11.02,
      "learning_rate": 1.4746399499060739e-05,
      "loss": 0.4571,
      "step": 13035,
      "task_loss": 0.9161332249641418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6496454477310181,
      "epoch": 11.02,
      "learning_rate": 1.4743268628678774e-05,
      "loss": 0.6239,
      "step": 13036,
      "task_loss": 0.7586998343467712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5942457914352417,
      "epoch": 11.02,
      "learning_rate": 1.4740137758296808e-05,
      "loss": 0.4568,
      "step": 13037,
      "task_loss": 0.8755385875701904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3230292797088623,
      "epoch": 11.02,
      "learning_rate": 1.4737006887914843e-05,
      "loss": 0.4027,
      "step": 13038,
      "task_loss": 0.8470308780670166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32889121770858765,
      "epoch": 11.02,
      "learning_rate": 1.4733876017532875e-05,
      "loss": 0.3667,
      "step": 13039,
      "task_loss": 0.24688993394374847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.553609311580658,
      "epoch": 11.02,
      "learning_rate": 1.473074514715091e-05,
      "loss": 0.5254,
      "step": 13040,
      "task_loss": 0.40914538502693176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3094998598098755,
      "epoch": 11.02,
      "learning_rate": 1.4727614276768942e-05,
      "loss": 0.5061,
      "step": 13041,
      "task_loss": 0.3710198700428009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37613046169281006,
      "epoch": 11.02,
      "learning_rate": 1.4724483406386977e-05,
      "loss": 0.4215,
      "step": 13042,
      "task_loss": 0.550649881362915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34503450989723206,
      "epoch": 11.03,
      "learning_rate": 1.4721352536005008e-05,
      "loss": 0.4736,
      "step": 13043,
      "task_loss": 0.3880934715270996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6477611660957336,
      "epoch": 11.03,
      "learning_rate": 1.4718221665623044e-05,
      "loss": 0.4702,
      "step": 13044,
      "task_loss": 0.4261380732059479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.380681574344635,
      "epoch": 11.03,
      "learning_rate": 1.4715090795241077e-05,
      "loss": 0.4832,
      "step": 13045,
      "task_loss": 0.4904899001121521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6270726919174194,
      "epoch": 11.03,
      "learning_rate": 1.4711959924859112e-05,
      "loss": 0.6243,
      "step": 13046,
      "task_loss": 0.5206149220466614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5371562242507935,
      "epoch": 11.03,
      "learning_rate": 1.4708829054477144e-05,
      "loss": 0.5223,
      "step": 13047,
      "task_loss": 0.07386890798807144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26792752742767334,
      "epoch": 11.03,
      "learning_rate": 1.470569818409518e-05,
      "loss": 0.455,
      "step": 13048,
      "task_loss": 0.11710811406373978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3144639730453491,
      "epoch": 11.03,
      "learning_rate": 1.4702567313713214e-05,
      "loss": 0.4735,
      "step": 13049,
      "task_loss": 0.5641815066337585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37841689586639404,
      "epoch": 11.03,
      "learning_rate": 1.4699436443331246e-05,
      "loss": 0.4538,
      "step": 13050,
      "task_loss": 0.8870931267738342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46718740463256836,
      "epoch": 11.03,
      "learning_rate": 1.4696305572949281e-05,
      "loss": 0.5679,
      "step": 13051,
      "task_loss": 0.32034680247306824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.675365149974823,
      "epoch": 11.03,
      "learning_rate": 1.4693174702567313e-05,
      "loss": 0.4549,
      "step": 13052,
      "task_loss": 0.1369076818227768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27478235960006714,
      "epoch": 11.03,
      "learning_rate": 1.4690043832185348e-05,
      "loss": 0.4835,
      "step": 13053,
      "task_loss": 0.36385348439216614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47826409339904785,
      "epoch": 11.03,
      "learning_rate": 1.4686912961803382e-05,
      "loss": 0.538,
      "step": 13054,
      "task_loss": 0.9481008648872375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6090825200080872,
      "epoch": 11.04,
      "learning_rate": 1.4683782091421417e-05,
      "loss": 0.4774,
      "step": 13055,
      "task_loss": 0.08098180592060089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4145662784576416,
      "epoch": 11.04,
      "learning_rate": 1.4680651221039449e-05,
      "loss": 0.4894,
      "step": 13056,
      "task_loss": 0.9175491333007812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43668776750564575,
      "epoch": 11.04,
      "learning_rate": 1.4677520350657484e-05,
      "loss": 0.4967,
      "step": 13057,
      "task_loss": 0.5389097332954407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.14516428112983704,
      "epoch": 11.04,
      "learning_rate": 1.4674389480275516e-05,
      "loss": 0.3823,
      "step": 13058,
      "task_loss": 0.5384541749954224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46949875354766846,
      "epoch": 11.04,
      "learning_rate": 1.4671258609893551e-05,
      "loss": 0.5532,
      "step": 13059,
      "task_loss": 0.429742693901062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2740248739719391,
      "epoch": 11.04,
      "learning_rate": 1.4668127739511586e-05,
      "loss": 0.5067,
      "step": 13060,
      "task_loss": 0.2545311748981476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4605979323387146,
      "epoch": 11.04,
      "learning_rate": 1.4664996869129618e-05,
      "loss": 0.4741,
      "step": 13061,
      "task_loss": 0.7304402589797974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36735352873802185,
      "epoch": 11.04,
      "learning_rate": 1.4661865998747653e-05,
      "loss": 0.5146,
      "step": 13062,
      "task_loss": 0.3009168803691864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6556042432785034,
      "epoch": 11.04,
      "learning_rate": 1.4658735128365686e-05,
      "loss": 0.4564,
      "step": 13063,
      "task_loss": 0.281253844499588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40933674573898315,
      "epoch": 11.04,
      "learning_rate": 1.4655604257983722e-05,
      "loss": 0.5361,
      "step": 13064,
      "task_loss": 0.5920759439468384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2715068459510803,
      "epoch": 11.04,
      "learning_rate": 1.4652473387601753e-05,
      "loss": 0.4603,
      "step": 13065,
      "task_loss": 0.4270116984844208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2581900358200073,
      "epoch": 11.04,
      "learning_rate": 1.4649342517219789e-05,
      "loss": 0.4335,
      "step": 13066,
      "task_loss": 0.33291009068489075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30019044876098633,
      "epoch": 11.05,
      "learning_rate": 1.464621164683782e-05,
      "loss": 0.4069,
      "step": 13067,
      "task_loss": 0.12497202306985855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33908239006996155,
      "epoch": 11.05,
      "learning_rate": 1.4643080776455856e-05,
      "loss": 0.3465,
      "step": 13068,
      "task_loss": 0.034111641347408295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.443665087223053,
      "epoch": 11.05,
      "learning_rate": 1.4639949906073889e-05,
      "loss": 0.6,
      "step": 13069,
      "task_loss": 0.6236209869384766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5121778249740601,
      "epoch": 11.05,
      "learning_rate": 1.4636819035691922e-05,
      "loss": 0.3727,
      "step": 13070,
      "task_loss": 0.12494290620088577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3509316146373749,
      "epoch": 11.05,
      "learning_rate": 1.4633688165309956e-05,
      "loss": 0.4025,
      "step": 13071,
      "task_loss": 0.25240346789360046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5096230506896973,
      "epoch": 11.05,
      "learning_rate": 1.4630557294927991e-05,
      "loss": 0.5374,
      "step": 13072,
      "task_loss": 0.4059157967567444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5372920036315918,
      "epoch": 11.05,
      "learning_rate": 1.4627426424546026e-05,
      "loss": 0.5555,
      "step": 13073,
      "task_loss": 1.1186754703521729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40931856632232666,
      "epoch": 11.05,
      "learning_rate": 1.4624295554164058e-05,
      "loss": 0.3997,
      "step": 13074,
      "task_loss": 0.16304762661457062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33590632677078247,
      "epoch": 11.05,
      "learning_rate": 1.4621164683782093e-05,
      "loss": 0.4391,
      "step": 13075,
      "task_loss": 0.24554000794887543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33866339921951294,
      "epoch": 11.05,
      "learning_rate": 1.4618033813400125e-05,
      "loss": 0.4395,
      "step": 13076,
      "task_loss": 0.1453637182712555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2938881814479828,
      "epoch": 11.05,
      "learning_rate": 1.461490294301816e-05,
      "loss": 0.5101,
      "step": 13077,
      "task_loss": 1.006699562072754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40744754672050476,
      "epoch": 11.05,
      "learning_rate": 1.4611772072636194e-05,
      "loss": 0.5144,
      "step": 13078,
      "task_loss": 0.6520411968231201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30532020330429077,
      "epoch": 11.06,
      "learning_rate": 1.4608641202254227e-05,
      "loss": 0.5207,
      "step": 13079,
      "task_loss": 0.17396670579910278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5393151044845581,
      "epoch": 11.06,
      "learning_rate": 1.460551033187226e-05,
      "loss": 0.5334,
      "step": 13080,
      "task_loss": 0.7658246755599976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3279956877231598,
      "epoch": 11.06,
      "learning_rate": 1.4602379461490296e-05,
      "loss": 0.498,
      "step": 13081,
      "task_loss": 0.43916431069374084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5923595428466797,
      "epoch": 11.06,
      "learning_rate": 1.4599248591108328e-05,
      "loss": 0.5535,
      "step": 13082,
      "task_loss": 0.776157557964325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9341280460357666,
      "epoch": 11.06,
      "learning_rate": 1.4596117720726363e-05,
      "loss": 0.5969,
      "step": 13083,
      "task_loss": 0.9745886921882629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8020813465118408,
      "epoch": 11.06,
      "learning_rate": 1.4592986850344395e-05,
      "loss": 0.6046,
      "step": 13084,
      "task_loss": 1.5725806951522827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6425871253013611,
      "epoch": 11.06,
      "learning_rate": 1.458985597996243e-05,
      "loss": 0.5134,
      "step": 13085,
      "task_loss": 0.9547855854034424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4116685390472412,
      "epoch": 11.06,
      "learning_rate": 1.4586725109580465e-05,
      "loss": 0.444,
      "step": 13086,
      "task_loss": 0.37350016832351685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3192428648471832,
      "epoch": 11.06,
      "learning_rate": 1.4583594239198498e-05,
      "loss": 0.3526,
      "step": 13087,
      "task_loss": 0.23310734331607819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5088917016983032,
      "epoch": 11.06,
      "learning_rate": 1.4580463368816532e-05,
      "loss": 0.4851,
      "step": 13088,
      "task_loss": 0.5020776391029358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6137377619743347,
      "epoch": 11.06,
      "learning_rate": 1.4577332498434565e-05,
      "loss": 0.5166,
      "step": 13089,
      "task_loss": 0.8358263373374939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2568938136100769,
      "epoch": 11.07,
      "learning_rate": 1.45742016280526e-05,
      "loss": 0.5607,
      "step": 13090,
      "task_loss": 0.4387325942516327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46591275930404663,
      "epoch": 11.07,
      "learning_rate": 1.4571070757670632e-05,
      "loss": 0.4979,
      "step": 13091,
      "task_loss": 1.1312452554702759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6518567800521851,
      "epoch": 11.07,
      "learning_rate": 1.4567939887288667e-05,
      "loss": 0.4982,
      "step": 13092,
      "task_loss": 0.515493631362915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061675906181335,
      "epoch": 11.07,
      "learning_rate": 1.45648090169067e-05,
      "loss": 0.5739,
      "step": 13093,
      "task_loss": 1.3903473615646362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.459321528673172,
      "epoch": 11.07,
      "learning_rate": 1.4561678146524734e-05,
      "loss": 0.516,
      "step": 13094,
      "task_loss": 0.6768597960472107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38846221566200256,
      "epoch": 11.07,
      "learning_rate": 1.4558547276142768e-05,
      "loss": 0.6549,
      "step": 13095,
      "task_loss": 0.8264008164405823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6356916427612305,
      "epoch": 11.07,
      "learning_rate": 1.4555416405760803e-05,
      "loss": 0.5127,
      "step": 13096,
      "task_loss": 1.188524842262268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27215903997421265,
      "epoch": 11.07,
      "learning_rate": 1.4552285535378836e-05,
      "loss": 0.4572,
      "step": 13097,
      "task_loss": 1.6521813869476318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3036625385284424,
      "epoch": 11.07,
      "learning_rate": 1.454915466499687e-05,
      "loss": 0.4905,
      "step": 13098,
      "task_loss": 0.8045509457588196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2629750370979309,
      "epoch": 11.07,
      "learning_rate": 1.4546023794614905e-05,
      "loss": 0.4463,
      "step": 13099,
      "task_loss": 0.11819253116846085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3638831377029419,
      "epoch": 11.07,
      "learning_rate": 1.4542892924232937e-05,
      "loss": 0.5423,
      "step": 13100,
      "task_loss": 0.5149403810501099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5072722434997559,
      "epoch": 11.07,
      "learning_rate": 1.4539762053850972e-05,
      "loss": 0.4775,
      "step": 13101,
      "task_loss": 0.5872755646705627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5935639142990112,
      "epoch": 11.08,
      "learning_rate": 1.4536631183469004e-05,
      "loss": 0.4242,
      "step": 13102,
      "task_loss": 0.333985835313797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7243087291717529,
      "epoch": 11.08,
      "learning_rate": 1.4533500313087039e-05,
      "loss": 0.509,
      "step": 13103,
      "task_loss": 0.7240154147148132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8439787030220032,
      "epoch": 11.08,
      "learning_rate": 1.4530369442705072e-05,
      "loss": 0.6707,
      "step": 13104,
      "task_loss": 0.5600200295448303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41004839539527893,
      "epoch": 11.08,
      "learning_rate": 1.4527238572323108e-05,
      "loss": 0.4946,
      "step": 13105,
      "task_loss": 1.2563351392745972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26586633920669556,
      "epoch": 11.08,
      "learning_rate": 1.452410770194114e-05,
      "loss": 0.372,
      "step": 13106,
      "task_loss": 0.10178890079259872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44184553623199463,
      "epoch": 11.08,
      "learning_rate": 1.4520976831559175e-05,
      "loss": 0.3657,
      "step": 13107,
      "task_loss": 0.4144172966480255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43662118911743164,
      "epoch": 11.08,
      "learning_rate": 1.4517845961177206e-05,
      "loss": 0.4846,
      "step": 13108,
      "task_loss": 0.8669463396072388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3287960886955261,
      "epoch": 11.08,
      "learning_rate": 1.4514715090795242e-05,
      "loss": 0.4059,
      "step": 13109,
      "task_loss": 0.6806660890579224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3585226535797119,
      "epoch": 11.08,
      "learning_rate": 1.4511584220413277e-05,
      "loss": 0.5311,
      "step": 13110,
      "task_loss": 0.5416846871376038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4868028461933136,
      "epoch": 11.08,
      "learning_rate": 1.4508453350031309e-05,
      "loss": 0.5919,
      "step": 13111,
      "task_loss": 0.20589281618595123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6657900214195251,
      "epoch": 11.08,
      "learning_rate": 1.4505322479649344e-05,
      "loss": 0.4991,
      "step": 13112,
      "task_loss": 0.6526437997817993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6722291707992554,
      "epoch": 11.08,
      "learning_rate": 1.4502191609267377e-05,
      "loss": 0.4327,
      "step": 13113,
      "task_loss": 0.5224518775939941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.565173864364624,
      "epoch": 11.09,
      "learning_rate": 1.4499060738885412e-05,
      "loss": 0.5147,
      "step": 13114,
      "task_loss": 0.3616068363189697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4649798572063446,
      "epoch": 11.09,
      "learning_rate": 1.4495929868503444e-05,
      "loss": 0.5192,
      "step": 13115,
      "task_loss": 1.0644752979278564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5138081312179565,
      "epoch": 11.09,
      "learning_rate": 1.449279899812148e-05,
      "loss": 0.4835,
      "step": 13116,
      "task_loss": 0.9669243693351746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7655719518661499,
      "epoch": 11.09,
      "learning_rate": 1.4489668127739511e-05,
      "loss": 0.5272,
      "step": 13117,
      "task_loss": 0.5530925393104553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34662705659866333,
      "epoch": 11.09,
      "learning_rate": 1.4486537257357546e-05,
      "loss": 0.6359,
      "step": 13118,
      "task_loss": 0.7508710026741028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.520668625831604,
      "epoch": 11.09,
      "learning_rate": 1.4483406386975578e-05,
      "loss": 0.5159,
      "step": 13119,
      "task_loss": 1.1597384214401245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5002853870391846,
      "epoch": 11.09,
      "learning_rate": 1.4480275516593613e-05,
      "loss": 0.398,
      "step": 13120,
      "task_loss": 0.13805168867111206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38929468393325806,
      "epoch": 11.09,
      "learning_rate": 1.4477144646211648e-05,
      "loss": 0.5841,
      "step": 13121,
      "task_loss": 1.1159552335739136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5328454971313477,
      "epoch": 11.09,
      "learning_rate": 1.4474013775829682e-05,
      "loss": 0.5102,
      "step": 13122,
      "task_loss": 1.0846034288406372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.645319402217865,
      "epoch": 11.09,
      "learning_rate": 1.4470882905447717e-05,
      "loss": 0.3994,
      "step": 13123,
      "task_loss": 0.7471615076065063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.578123152256012,
      "epoch": 11.09,
      "learning_rate": 1.4467752035065749e-05,
      "loss": 0.4353,
      "step": 13124,
      "task_loss": 0.7879818081855774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40190935134887695,
      "epoch": 11.09,
      "learning_rate": 1.4464621164683784e-05,
      "loss": 0.429,
      "step": 13125,
      "task_loss": 0.28055495023727417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45387428998947144,
      "epoch": 11.1,
      "learning_rate": 1.4461490294301816e-05,
      "loss": 0.4576,
      "step": 13126,
      "task_loss": 0.5251865983009338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4863726794719696,
      "epoch": 11.1,
      "learning_rate": 1.4458359423919851e-05,
      "loss": 0.7318,
      "step": 13127,
      "task_loss": 1.4485580921173096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3584274351596832,
      "epoch": 11.1,
      "learning_rate": 1.4455228553537883e-05,
      "loss": 0.542,
      "step": 13128,
      "task_loss": 0.20114322006702423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2880040109157562,
      "epoch": 11.1,
      "learning_rate": 1.4452097683155918e-05,
      "loss": 0.4942,
      "step": 13129,
      "task_loss": 0.9713569283485413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3380356431007385,
      "epoch": 11.1,
      "learning_rate": 1.4448966812773951e-05,
      "loss": 0.5209,
      "step": 13130,
      "task_loss": 0.5317831635475159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4938916563987732,
      "epoch": 11.1,
      "learning_rate": 1.4445835942391986e-05,
      "loss": 0.3531,
      "step": 13131,
      "task_loss": 0.24766191840171814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4069693088531494,
      "epoch": 11.1,
      "learning_rate": 1.4442705072010018e-05,
      "loss": 0.4859,
      "step": 13132,
      "task_loss": 0.039769530296325684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38436320424079895,
      "epoch": 11.1,
      "learning_rate": 1.4439574201628053e-05,
      "loss": 0.4086,
      "step": 13133,
      "task_loss": 0.18400083482265472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29641613364219666,
      "epoch": 11.1,
      "learning_rate": 1.4436443331246089e-05,
      "loss": 0.4183,
      "step": 13134,
      "task_loss": 1.2936887741088867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4508240222930908,
      "epoch": 11.1,
      "learning_rate": 1.443331246086412e-05,
      "loss": 0.5807,
      "step": 13135,
      "task_loss": 0.6858047246932983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6286863088607788,
      "epoch": 11.1,
      "learning_rate": 1.4430181590482156e-05,
      "loss": 0.6119,
      "step": 13136,
      "task_loss": 0.914941668510437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569921731948853,
      "epoch": 11.1,
      "learning_rate": 1.4427050720100187e-05,
      "loss": 0.4823,
      "step": 13137,
      "task_loss": 1.0559589862823486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6006746292114258,
      "epoch": 11.11,
      "learning_rate": 1.4423919849718223e-05,
      "loss": 0.5839,
      "step": 13138,
      "task_loss": 0.7467256188392639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2709413170814514,
      "epoch": 11.11,
      "learning_rate": 1.4420788979336256e-05,
      "loss": 0.465,
      "step": 13139,
      "task_loss": 0.5315667986869812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5258362889289856,
      "epoch": 11.11,
      "learning_rate": 1.4417658108954291e-05,
      "loss": 0.5506,
      "step": 13140,
      "task_loss": 0.5237521529197693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35446035861968994,
      "epoch": 11.11,
      "learning_rate": 1.4414527238572323e-05,
      "loss": 0.5931,
      "step": 13141,
      "task_loss": 1.33598792552948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3887791931629181,
      "epoch": 11.11,
      "learning_rate": 1.4411396368190358e-05,
      "loss": 0.5213,
      "step": 13142,
      "task_loss": 0.18797440826892853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27110421657562256,
      "epoch": 11.11,
      "learning_rate": 1.440826549780839e-05,
      "loss": 0.4081,
      "step": 13143,
      "task_loss": 0.5429233312606812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40161311626434326,
      "epoch": 11.11,
      "learning_rate": 1.4405134627426425e-05,
      "loss": 0.4622,
      "step": 13144,
      "task_loss": 0.27172499895095825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29671236872673035,
      "epoch": 11.11,
      "learning_rate": 1.4402003757044459e-05,
      "loss": 0.3923,
      "step": 13145,
      "task_loss": 0.4694913327693939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5721628665924072,
      "epoch": 11.11,
      "learning_rate": 1.4398872886662492e-05,
      "loss": 0.5097,
      "step": 13146,
      "task_loss": 0.9745218753814697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6207249164581299,
      "epoch": 11.11,
      "learning_rate": 1.4395742016280527e-05,
      "loss": 0.5304,
      "step": 13147,
      "task_loss": 1.3214672803878784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5831857919692993,
      "epoch": 11.11,
      "learning_rate": 1.439261114589856e-05,
      "loss": 0.5176,
      "step": 13148,
      "task_loss": 1.0753369331359863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4719722270965576,
      "epoch": 11.11,
      "learning_rate": 1.4389480275516596e-05,
      "loss": 0.3926,
      "step": 13149,
      "task_loss": 0.5998983383178711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2952868938446045,
      "epoch": 11.12,
      "learning_rate": 1.4386349405134628e-05,
      "loss": 0.3159,
      "step": 13150,
      "task_loss": 0.5453146696090698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.770187497138977,
      "epoch": 11.12,
      "learning_rate": 1.4383218534752663e-05,
      "loss": 0.5872,
      "step": 13151,
      "task_loss": 0.8995476365089417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4915262460708618,
      "epoch": 11.12,
      "learning_rate": 1.4380087664370695e-05,
      "loss": 0.4565,
      "step": 13152,
      "task_loss": 0.19908545911312103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7197775840759277,
      "epoch": 11.12,
      "learning_rate": 1.437695679398873e-05,
      "loss": 0.5296,
      "step": 13153,
      "task_loss": 1.9401793479919434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7649619579315186,
      "epoch": 11.12,
      "learning_rate": 1.4373825923606763e-05,
      "loss": 0.633,
      "step": 13154,
      "task_loss": 0.6499426364898682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3979906737804413,
      "epoch": 11.12,
      "learning_rate": 1.4370695053224797e-05,
      "loss": 0.54,
      "step": 13155,
      "task_loss": 0.5579807758331299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3885861039161682,
      "epoch": 11.12,
      "learning_rate": 1.436756418284283e-05,
      "loss": 0.4301,
      "step": 13156,
      "task_loss": 0.2763407230377197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36842235922813416,
      "epoch": 11.12,
      "learning_rate": 1.4364433312460865e-05,
      "loss": 0.5671,
      "step": 13157,
      "task_loss": 0.23565638065338135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6021231412887573,
      "epoch": 11.12,
      "learning_rate": 1.43613024420789e-05,
      "loss": 0.5558,
      "step": 13158,
      "task_loss": 0.733422040939331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5044393539428711,
      "epoch": 11.12,
      "learning_rate": 1.4358171571696932e-05,
      "loss": 0.5466,
      "step": 13159,
      "task_loss": 1.65714693069458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.444097638130188,
      "epoch": 11.12,
      "learning_rate": 1.4355040701314967e-05,
      "loss": 0.4414,
      "step": 13160,
      "task_loss": 0.08199509233236313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32984820008277893,
      "epoch": 11.13,
      "learning_rate": 1.4351909830933e-05,
      "loss": 0.409,
      "step": 13161,
      "task_loss": 0.6242150068283081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6031490564346313,
      "epoch": 11.13,
      "learning_rate": 1.4348778960551034e-05,
      "loss": 0.5983,
      "step": 13162,
      "task_loss": 0.8867161870002747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4407880902290344,
      "epoch": 11.13,
      "learning_rate": 1.4345648090169068e-05,
      "loss": 0.3641,
      "step": 13163,
      "task_loss": 0.8426035642623901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4901919364929199,
      "epoch": 11.13,
      "learning_rate": 1.4342517219787101e-05,
      "loss": 0.4977,
      "step": 13164,
      "task_loss": 0.33343127369880676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.577907919883728,
      "epoch": 11.13,
      "learning_rate": 1.4339386349405135e-05,
      "loss": 0.4889,
      "step": 13165,
      "task_loss": 1.0197012424468994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9596951007843018,
      "epoch": 11.13,
      "learning_rate": 1.433625547902317e-05,
      "loss": 0.5917,
      "step": 13166,
      "task_loss": 0.845793604850769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4152587354183197,
      "epoch": 11.13,
      "learning_rate": 1.4333124608641202e-05,
      "loss": 0.5845,
      "step": 13167,
      "task_loss": 0.9543878436088562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3973087668418884,
      "epoch": 11.13,
      "learning_rate": 1.4329993738259237e-05,
      "loss": 0.513,
      "step": 13168,
      "task_loss": 0.7785236239433289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3125378489494324,
      "epoch": 11.13,
      "learning_rate": 1.4326862867877269e-05,
      "loss": 0.4471,
      "step": 13169,
      "task_loss": 0.5805445313453674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5977421402931213,
      "epoch": 11.13,
      "learning_rate": 1.4323731997495304e-05,
      "loss": 0.5588,
      "step": 13170,
      "task_loss": 0.4986657202243805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5492769479751587,
      "epoch": 11.13,
      "learning_rate": 1.4320601127113339e-05,
      "loss": 0.4401,
      "step": 13171,
      "task_loss": 0.2458019107580185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2321518361568451,
      "epoch": 11.13,
      "learning_rate": 1.4317470256731373e-05,
      "loss": 0.5861,
      "step": 13172,
      "task_loss": 0.44427430629730225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7436115145683289,
      "epoch": 11.14,
      "learning_rate": 1.4314339386349408e-05,
      "loss": 0.5869,
      "step": 13173,
      "task_loss": 0.9824748635292053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.438058465719223,
      "epoch": 11.14,
      "learning_rate": 1.431120851596744e-05,
      "loss": 0.4992,
      "step": 13174,
      "task_loss": 0.3955536484718323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29221001267433167,
      "epoch": 11.14,
      "learning_rate": 1.4308077645585475e-05,
      "loss": 0.465,
      "step": 13175,
      "task_loss": 0.4074991047382355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7542937994003296,
      "epoch": 11.14,
      "learning_rate": 1.4304946775203506e-05,
      "loss": 0.5794,
      "step": 13176,
      "task_loss": 2.6634442806243896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8386727571487427,
      "epoch": 11.14,
      "learning_rate": 1.4301815904821542e-05,
      "loss": 0.4867,
      "step": 13177,
      "task_loss": 0.9797796010971069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45879340171813965,
      "epoch": 11.14,
      "learning_rate": 1.4298685034439573e-05,
      "loss": 0.4841,
      "step": 13178,
      "task_loss": 0.4060736894607544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2710523009300232,
      "epoch": 11.14,
      "learning_rate": 1.4295554164057609e-05,
      "loss": 0.4513,
      "step": 13179,
      "task_loss": 0.7370314002037048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6449586749076843,
      "epoch": 11.14,
      "learning_rate": 1.4292423293675642e-05,
      "loss": 0.4785,
      "step": 13180,
      "task_loss": 1.022552251815796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3287096917629242,
      "epoch": 11.14,
      "learning_rate": 1.4289292423293677e-05,
      "loss": 0.5893,
      "step": 13181,
      "task_loss": 0.40475884079933167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33463582396507263,
      "epoch": 11.14,
      "learning_rate": 1.4286161552911709e-05,
      "loss": 0.4925,
      "step": 13182,
      "task_loss": 0.403172105550766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35579749941825867,
      "epoch": 11.14,
      "learning_rate": 1.4283030682529744e-05,
      "loss": 0.5838,
      "step": 13183,
      "task_loss": 0.5845431685447693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23319938778877258,
      "epoch": 11.14,
      "learning_rate": 1.427989981214778e-05,
      "loss": 0.4146,
      "step": 13184,
      "task_loss": 0.6056206226348877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4693854749202728,
      "epoch": 11.15,
      "learning_rate": 1.4276768941765811e-05,
      "loss": 0.562,
      "step": 13185,
      "task_loss": 0.4751952886581421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5419719219207764,
      "epoch": 11.15,
      "learning_rate": 1.4273638071383846e-05,
      "loss": 0.3901,
      "step": 13186,
      "task_loss": 0.6327316761016846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2388828992843628,
      "epoch": 11.15,
      "learning_rate": 1.4270507201001878e-05,
      "loss": 0.4488,
      "step": 13187,
      "task_loss": 0.980025053024292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5559141635894775,
      "epoch": 11.15,
      "learning_rate": 1.4267376330619913e-05,
      "loss": 0.4101,
      "step": 13188,
      "task_loss": 0.3900673985481262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3895641565322876,
      "epoch": 11.15,
      "learning_rate": 1.4264245460237947e-05,
      "loss": 0.4007,
      "step": 13189,
      "task_loss": 0.1313076615333557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36458319425582886,
      "epoch": 11.15,
      "learning_rate": 1.4261114589855982e-05,
      "loss": 0.4744,
      "step": 13190,
      "task_loss": 0.45044463872909546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4178618788719177,
      "epoch": 11.15,
      "learning_rate": 1.4257983719474014e-05,
      "loss": 0.391,
      "step": 13191,
      "task_loss": 0.6893482208251953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8138992190361023,
      "epoch": 11.15,
      "learning_rate": 1.4254852849092049e-05,
      "loss": 0.6976,
      "step": 13192,
      "task_loss": 0.742251455783844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3954484760761261,
      "epoch": 11.15,
      "learning_rate": 1.425172197871008e-05,
      "loss": 0.4981,
      "step": 13193,
      "task_loss": 0.1761525422334671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5883210897445679,
      "epoch": 11.15,
      "learning_rate": 1.4248591108328116e-05,
      "loss": 0.4663,
      "step": 13194,
      "task_loss": 0.8451892137527466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42798855900764465,
      "epoch": 11.15,
      "learning_rate": 1.4245460237946151e-05,
      "loss": 0.514,
      "step": 13195,
      "task_loss": 0.7902276515960693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6536253690719604,
      "epoch": 11.15,
      "learning_rate": 1.4242329367564183e-05,
      "loss": 0.4995,
      "step": 13196,
      "task_loss": 0.7941808700561523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5552327632904053,
      "epoch": 11.16,
      "learning_rate": 1.4239198497182218e-05,
      "loss": 0.6094,
      "step": 13197,
      "task_loss": 0.4238063395023346
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5888668298721313,
      "epoch": 11.16,
      "learning_rate": 1.4236067626800251e-05,
      "loss": 0.4935,
      "step": 13198,
      "task_loss": 0.6445841193199158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.419008731842041,
      "epoch": 11.16,
      "learning_rate": 1.4232936756418287e-05,
      "loss": 0.4347,
      "step": 13199,
      "task_loss": 1.1716899871826172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4404166340827942,
      "epoch": 11.16,
      "learning_rate": 1.4229805886036318e-05,
      "loss": 0.4249,
      "step": 13200,
      "task_loss": 0.5378589034080505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38625362515449524,
      "epoch": 11.16,
      "learning_rate": 1.4226675015654353e-05,
      "loss": 0.5414,
      "step": 13201,
      "task_loss": 0.5382758975028992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43437549471855164,
      "epoch": 11.16,
      "learning_rate": 1.4223544145272385e-05,
      "loss": 0.4246,
      "step": 13202,
      "task_loss": 1.0732619762420654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7864535450935364,
      "epoch": 11.16,
      "learning_rate": 1.422041327489042e-05,
      "loss": 0.5137,
      "step": 13203,
      "task_loss": 0.9043009877204895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5922012329101562,
      "epoch": 11.16,
      "learning_rate": 1.4217282404508452e-05,
      "loss": 0.4071,
      "step": 13204,
      "task_loss": 1.0140758752822876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5887234210968018,
      "epoch": 11.16,
      "learning_rate": 1.4214151534126487e-05,
      "loss": 0.5469,
      "step": 13205,
      "task_loss": 0.564475953578949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6358050107955933,
      "epoch": 11.16,
      "learning_rate": 1.4211020663744521e-05,
      "loss": 0.4783,
      "step": 13206,
      "task_loss": 0.6870816349983215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3665807843208313,
      "epoch": 11.16,
      "learning_rate": 1.4207889793362556e-05,
      "loss": 0.367,
      "step": 13207,
      "task_loss": 0.6418401598930359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5650041103363037,
      "epoch": 11.16,
      "learning_rate": 1.4204758922980591e-05,
      "loss": 0.5072,
      "step": 13208,
      "task_loss": 0.8451234102249146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4286324679851532,
      "epoch": 11.17,
      "learning_rate": 1.4201628052598623e-05,
      "loss": 0.5213,
      "step": 13209,
      "task_loss": 0.6251382827758789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33412104845046997,
      "epoch": 11.17,
      "learning_rate": 1.4198497182216658e-05,
      "loss": 0.4741,
      "step": 13210,
      "task_loss": 0.3120884299278259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967466235160828,
      "epoch": 11.17,
      "learning_rate": 1.419536631183469e-05,
      "loss": 0.6685,
      "step": 13211,
      "task_loss": 0.8653411865234375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2374182939529419,
      "epoch": 11.17,
      "learning_rate": 1.4192235441452725e-05,
      "loss": 0.4215,
      "step": 13212,
      "task_loss": 0.10742975026369095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39385032653808594,
      "epoch": 11.17,
      "learning_rate": 1.4189104571070757e-05,
      "loss": 0.4081,
      "step": 13213,
      "task_loss": 0.832152783870697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5562753677368164,
      "epoch": 11.17,
      "learning_rate": 1.4185973700688792e-05,
      "loss": 0.474,
      "step": 13214,
      "task_loss": 0.37352967262268066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46753329038619995,
      "epoch": 11.17,
      "learning_rate": 1.4182842830306826e-05,
      "loss": 0.5001,
      "step": 13215,
      "task_loss": 0.6786234378814697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3917957544326782,
      "epoch": 11.17,
      "learning_rate": 1.417971195992486e-05,
      "loss": 0.4588,
      "step": 13216,
      "task_loss": 1.0042731761932373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4132229685783386,
      "epoch": 11.17,
      "learning_rate": 1.4176581089542892e-05,
      "loss": 0.4966,
      "step": 13217,
      "task_loss": 0.942795991897583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.436436265707016,
      "epoch": 11.17,
      "learning_rate": 1.4173450219160928e-05,
      "loss": 0.5121,
      "step": 13218,
      "task_loss": 0.40166106820106506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28221839666366577,
      "epoch": 11.17,
      "learning_rate": 1.4170319348778963e-05,
      "loss": 0.3783,
      "step": 13219,
      "task_loss": 0.5945196151733398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.365206241607666,
      "epoch": 11.17,
      "learning_rate": 1.4167188478396995e-05,
      "loss": 0.393,
      "step": 13220,
      "task_loss": 0.5832639932632446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5386824011802673,
      "epoch": 11.18,
      "learning_rate": 1.416405760801503e-05,
      "loss": 0.3974,
      "step": 13221,
      "task_loss": 0.5870251059532166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3097211718559265,
      "epoch": 11.18,
      "learning_rate": 1.4160926737633062e-05,
      "loss": 0.4295,
      "step": 13222,
      "task_loss": 0.34883496165275574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5134425163269043,
      "epoch": 11.18,
      "learning_rate": 1.4157795867251097e-05,
      "loss": 0.5394,
      "step": 13223,
      "task_loss": 1.0657379627227783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37326186895370483,
      "epoch": 11.18,
      "learning_rate": 1.415466499686913e-05,
      "loss": 0.5199,
      "step": 13224,
      "task_loss": 0.5661720633506775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6725691556930542,
      "epoch": 11.18,
      "learning_rate": 1.4151534126487165e-05,
      "loss": 0.6219,
      "step": 13225,
      "task_loss": 0.4823896288871765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2519083023071289,
      "epoch": 11.18,
      "learning_rate": 1.4148403256105197e-05,
      "loss": 0.5105,
      "step": 13226,
      "task_loss": 0.685124397277832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20544150471687317,
      "epoch": 11.18,
      "learning_rate": 1.4145272385723232e-05,
      "loss": 0.4893,
      "step": 13227,
      "task_loss": 0.02814428322017193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32645291090011597,
      "epoch": 11.18,
      "learning_rate": 1.4142141515341264e-05,
      "loss": 0.4846,
      "step": 13228,
      "task_loss": 0.4470427632331848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4351954162120819,
      "epoch": 11.18,
      "learning_rate": 1.41390106449593e-05,
      "loss": 0.3742,
      "step": 13229,
      "task_loss": 0.847345232963562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5972213745117188,
      "epoch": 11.18,
      "learning_rate": 1.4135879774577333e-05,
      "loss": 0.5903,
      "step": 13230,
      "task_loss": 0.9307670593261719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.950821042060852,
      "epoch": 11.18,
      "learning_rate": 1.4132748904195366e-05,
      "loss": 0.5741,
      "step": 13231,
      "task_loss": 1.1865476369857788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3103441894054413,
      "epoch": 11.19,
      "learning_rate": 1.4129618033813401e-05,
      "loss": 0.5034,
      "step": 13232,
      "task_loss": 0.43033361434936523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49941837787628174,
      "epoch": 11.19,
      "learning_rate": 1.4126487163431435e-05,
      "loss": 0.5316,
      "step": 13233,
      "task_loss": 0.4832957684993744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31886744499206543,
      "epoch": 11.19,
      "learning_rate": 1.412335629304947e-05,
      "loss": 0.5597,
      "step": 13234,
      "task_loss": 0.45855340361595154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5851520299911499,
      "epoch": 11.19,
      "learning_rate": 1.4120225422667502e-05,
      "loss": 0.5536,
      "step": 13235,
      "task_loss": 0.4923832416534424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5552916526794434,
      "epoch": 11.19,
      "learning_rate": 1.4117094552285537e-05,
      "loss": 0.3587,
      "step": 13236,
      "task_loss": 1.0047193765640259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30003952980041504,
      "epoch": 11.19,
      "learning_rate": 1.4113963681903569e-05,
      "loss": 0.5149,
      "step": 13237,
      "task_loss": 0.9781810641288757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3893689513206482,
      "epoch": 11.19,
      "learning_rate": 1.4110832811521604e-05,
      "loss": 0.4777,
      "step": 13238,
      "task_loss": 0.6712619066238403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48092395067214966,
      "epoch": 11.19,
      "learning_rate": 1.4107701941139637e-05,
      "loss": 0.5737,
      "step": 13239,
      "task_loss": 1.3951265811920166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47012215852737427,
      "epoch": 11.19,
      "learning_rate": 1.4104571070757671e-05,
      "loss": 0.4719,
      "step": 13240,
      "task_loss": 0.41817939281463623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20759472250938416,
      "epoch": 11.19,
      "learning_rate": 1.4101440200375704e-05,
      "loss": 0.4756,
      "step": 13241,
      "task_loss": 0.37488269805908203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3982604444026947,
      "epoch": 11.19,
      "learning_rate": 1.409830932999374e-05,
      "loss": 0.4644,
      "step": 13242,
      "task_loss": 0.8639428615570068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5310929417610168,
      "epoch": 11.19,
      "learning_rate": 1.4095178459611771e-05,
      "loss": 0.5041,
      "step": 13243,
      "task_loss": 0.7785470485687256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4226257801055908,
      "epoch": 11.2,
      "learning_rate": 1.4092047589229806e-05,
      "loss": 0.4931,
      "step": 13244,
      "task_loss": 1.1175748109817505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3900502026081085,
      "epoch": 11.2,
      "learning_rate": 1.4088916718847842e-05,
      "loss": 0.4733,
      "step": 13245,
      "task_loss": 0.30633729696273804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5064839124679565,
      "epoch": 11.2,
      "learning_rate": 1.4085785848465873e-05,
      "loss": 0.5667,
      "step": 13246,
      "task_loss": 0.3366199731826782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21139848232269287,
      "epoch": 11.2,
      "learning_rate": 1.4082654978083909e-05,
      "loss": 0.5294,
      "step": 13247,
      "task_loss": 0.04004925116896629
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28339287638664246,
      "epoch": 11.2,
      "learning_rate": 1.4079524107701942e-05,
      "loss": 0.454,
      "step": 13248,
      "task_loss": 0.6925181150436401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40065956115722656,
      "epoch": 11.2,
      "learning_rate": 1.4076393237319977e-05,
      "loss": 0.4641,
      "step": 13249,
      "task_loss": 0.7961905598640442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5779479742050171,
      "epoch": 11.2,
      "learning_rate": 1.4073262366938009e-05,
      "loss": 0.5821,
      "step": 13250,
      "task_loss": 0.47718751430511475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8104084730148315,
      "epoch": 11.2,
      "learning_rate": 1.4070131496556044e-05,
      "loss": 0.6283,
      "step": 13251,
      "task_loss": 0.3491058051586151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4351203441619873,
      "epoch": 11.2,
      "learning_rate": 1.4067000626174076e-05,
      "loss": 0.4585,
      "step": 13252,
      "task_loss": 0.2968767583370209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3597986102104187,
      "epoch": 11.2,
      "learning_rate": 1.4063869755792111e-05,
      "loss": 0.4362,
      "step": 13253,
      "task_loss": 0.26886072754859924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4179709255695343,
      "epoch": 11.2,
      "learning_rate": 1.4060738885410143e-05,
      "loss": 0.5111,
      "step": 13254,
      "task_loss": 0.7210264205932617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23404669761657715,
      "epoch": 11.2,
      "learning_rate": 1.4057608015028178e-05,
      "loss": 0.4181,
      "step": 13255,
      "task_loss": 0.250771164894104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3950282037258148,
      "epoch": 11.21,
      "learning_rate": 1.4054477144646213e-05,
      "loss": 0.4377,
      "step": 13256,
      "task_loss": 0.4034884572029114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39902400970458984,
      "epoch": 11.21,
      "learning_rate": 1.4051346274264247e-05,
      "loss": 0.5858,
      "step": 13257,
      "task_loss": 0.9891909956932068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5925943851470947,
      "epoch": 11.21,
      "learning_rate": 1.4048215403882282e-05,
      "loss": 0.4648,
      "step": 13258,
      "task_loss": 0.38543227314949036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0347236394882202,
      "epoch": 11.21,
      "learning_rate": 1.4045084533500314e-05,
      "loss": 0.733,
      "step": 13259,
      "task_loss": 1.341744065284729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5951594114303589,
      "epoch": 11.21,
      "learning_rate": 1.4041953663118349e-05,
      "loss": 0.582,
      "step": 13260,
      "task_loss": 0.4697588384151459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.708172082901001,
      "epoch": 11.21,
      "learning_rate": 1.403882279273638e-05,
      "loss": 0.6316,
      "step": 13261,
      "task_loss": 1.0934303998947144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608752965927124,
      "epoch": 11.21,
      "learning_rate": 1.4035691922354416e-05,
      "loss": 0.5448,
      "step": 13262,
      "task_loss": 0.1071329414844513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5456868410110474,
      "epoch": 11.21,
      "learning_rate": 1.4032561051972448e-05,
      "loss": 0.484,
      "step": 13263,
      "task_loss": 1.0444893836975098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4548012614250183,
      "epoch": 11.21,
      "learning_rate": 1.4029430181590483e-05,
      "loss": 0.4773,
      "step": 13264,
      "task_loss": 0.7040666341781616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4911329746246338,
      "epoch": 11.21,
      "learning_rate": 1.4026299311208516e-05,
      "loss": 0.4541,
      "step": 13265,
      "task_loss": 0.28080007433891296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26982492208480835,
      "epoch": 11.21,
      "learning_rate": 1.4023168440826551e-05,
      "loss": 0.4276,
      "step": 13266,
      "task_loss": 0.08006531745195389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38239923119544983,
      "epoch": 11.21,
      "learning_rate": 1.4020037570444583e-05,
      "loss": 0.4807,
      "step": 13267,
      "task_loss": 0.1813192069530487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5898103713989258,
      "epoch": 11.22,
      "learning_rate": 1.4016906700062618e-05,
      "loss": 0.4208,
      "step": 13268,
      "task_loss": 0.9345130920410156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4213978052139282,
      "epoch": 11.22,
      "learning_rate": 1.4013775829680654e-05,
      "loss": 0.3761,
      "step": 13269,
      "task_loss": 0.4766980707645416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45255059003829956,
      "epoch": 11.22,
      "learning_rate": 1.4010644959298685e-05,
      "loss": 0.5529,
      "step": 13270,
      "task_loss": 0.5100817084312439
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31460732221603394,
      "epoch": 11.22,
      "learning_rate": 1.400751408891672e-05,
      "loss": 0.5645,
      "step": 13271,
      "task_loss": 0.0837274044752121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5770588517189026,
      "epoch": 11.22,
      "learning_rate": 1.4004383218534752e-05,
      "loss": 0.5022,
      "step": 13272,
      "task_loss": 0.5942583680152893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41492772102355957,
      "epoch": 11.22,
      "learning_rate": 1.4001252348152787e-05,
      "loss": 0.5456,
      "step": 13273,
      "task_loss": 0.8636767864227295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3011431097984314,
      "epoch": 11.22,
      "learning_rate": 1.3998121477770821e-05,
      "loss": 0.4147,
      "step": 13274,
      "task_loss": 0.2655058801174164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5572324395179749,
      "epoch": 11.22,
      "learning_rate": 1.3994990607388856e-05,
      "loss": 0.5637,
      "step": 13275,
      "task_loss": 1.798477053642273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5172795653343201,
      "epoch": 11.22,
      "learning_rate": 1.3991859737006888e-05,
      "loss": 0.4987,
      "step": 13276,
      "task_loss": 0.16365541517734528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.577811062335968,
      "epoch": 11.22,
      "learning_rate": 1.3988728866624923e-05,
      "loss": 0.4881,
      "step": 13277,
      "task_loss": 1.481948971748352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3606798052787781,
      "epoch": 11.22,
      "learning_rate": 1.3985597996242955e-05,
      "loss": 0.4123,
      "step": 13278,
      "task_loss": 0.6718652844429016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.573148787021637,
      "epoch": 11.22,
      "learning_rate": 1.398246712586099e-05,
      "loss": 0.5835,
      "step": 13279,
      "task_loss": 0.4622833728790283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3187636137008667,
      "epoch": 11.23,
      "learning_rate": 1.3979336255479022e-05,
      "loss": 0.4981,
      "step": 13280,
      "task_loss": 0.38378626108169556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5403709411621094,
      "epoch": 11.23,
      "learning_rate": 1.3976205385097057e-05,
      "loss": 0.5349,
      "step": 13281,
      "task_loss": 1.3844964504241943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4301987886428833,
      "epoch": 11.23,
      "learning_rate": 1.3973074514715092e-05,
      "loss": 0.4652,
      "step": 13282,
      "task_loss": 0.5958496928215027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6901684403419495,
      "epoch": 11.23,
      "learning_rate": 1.3969943644333126e-05,
      "loss": 0.5324,
      "step": 13283,
      "task_loss": 1.3842175006866455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49343442916870117,
      "epoch": 11.23,
      "learning_rate": 1.396681277395116e-05,
      "loss": 0.4873,
      "step": 13284,
      "task_loss": 0.8048269152641296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5978333353996277,
      "epoch": 11.23,
      "learning_rate": 1.3963681903569193e-05,
      "loss": 0.569,
      "step": 13285,
      "task_loss": 0.3228929340839386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29157164692878723,
      "epoch": 11.23,
      "learning_rate": 1.3960551033187228e-05,
      "loss": 0.3482,
      "step": 13286,
      "task_loss": 0.16487431526184082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42945200204849243,
      "epoch": 11.23,
      "learning_rate": 1.395742016280526e-05,
      "loss": 0.4387,
      "step": 13287,
      "task_loss": 0.6698407530784607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6149923205375671,
      "epoch": 11.23,
      "learning_rate": 1.3954289292423295e-05,
      "loss": 0.5342,
      "step": 13288,
      "task_loss": 0.2782036364078522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3913559913635254,
      "epoch": 11.23,
      "learning_rate": 1.3951158422041326e-05,
      "loss": 0.4487,
      "step": 13289,
      "task_loss": 0.6002231240272522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3359200954437256,
      "epoch": 11.23,
      "learning_rate": 1.3948027551659362e-05,
      "loss": 0.3556,
      "step": 13290,
      "task_loss": 0.6874136328697205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7455294728279114,
      "epoch": 11.23,
      "learning_rate": 1.3944896681277395e-05,
      "loss": 0.8372,
      "step": 13291,
      "task_loss": 1.2128944396972656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5527111291885376,
      "epoch": 11.24,
      "learning_rate": 1.394176581089543e-05,
      "loss": 0.6204,
      "step": 13292,
      "task_loss": 0.5505964756011963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.485586941242218,
      "epoch": 11.24,
      "learning_rate": 1.3938634940513465e-05,
      "loss": 0.6543,
      "step": 13293,
      "task_loss": 0.3310738801956177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5086438655853271,
      "epoch": 11.24,
      "learning_rate": 1.3935504070131497e-05,
      "loss": 0.5155,
      "step": 13294,
      "task_loss": 0.732918381690979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40117931365966797,
      "epoch": 11.24,
      "learning_rate": 1.3932373199749532e-05,
      "loss": 0.4738,
      "step": 13295,
      "task_loss": 0.9306606650352478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6628032922744751,
      "epoch": 11.24,
      "learning_rate": 1.3929242329367564e-05,
      "loss": 0.5077,
      "step": 13296,
      "task_loss": 1.3659861087799072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24670808017253876,
      "epoch": 11.24,
      "learning_rate": 1.39261114589856e-05,
      "loss": 0.3611,
      "step": 13297,
      "task_loss": 0.08270201832056046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32237881422042847,
      "epoch": 11.24,
      "learning_rate": 1.3922980588603631e-05,
      "loss": 0.3379,
      "step": 13298,
      "task_loss": 0.494404673576355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4081307649612427,
      "epoch": 11.24,
      "learning_rate": 1.3919849718221666e-05,
      "loss": 0.6222,
      "step": 13299,
      "task_loss": 0.4576394259929657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3797703683376312,
      "epoch": 11.24,
      "learning_rate": 1.39167188478397e-05,
      "loss": 0.5543,
      "step": 13300,
      "task_loss": 1.1302056312561035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31177374720573425,
      "epoch": 11.24,
      "learning_rate": 1.3913587977457735e-05,
      "loss": 0.382,
      "step": 13301,
      "task_loss": 0.3063073754310608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5067688822746277,
      "epoch": 11.24,
      "learning_rate": 1.3910457107075767e-05,
      "loss": 0.5184,
      "step": 13302,
      "task_loss": 0.8469496369361877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6522015929222107,
      "epoch": 11.24,
      "learning_rate": 1.3907326236693802e-05,
      "loss": 0.5202,
      "step": 13303,
      "task_loss": 1.3286445140838623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5628464221954346,
      "epoch": 11.25,
      "learning_rate": 1.3904195366311834e-05,
      "loss": 0.5205,
      "step": 13304,
      "task_loss": 0.6996123790740967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9741288423538208,
      "epoch": 11.25,
      "learning_rate": 1.3901064495929869e-05,
      "loss": 0.6283,
      "step": 13305,
      "task_loss": 0.758793830871582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45977067947387695,
      "epoch": 11.25,
      "learning_rate": 1.3897933625547904e-05,
      "loss": 0.4698,
      "step": 13306,
      "task_loss": 0.5161727070808411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3759758472442627,
      "epoch": 11.25,
      "learning_rate": 1.3894802755165936e-05,
      "loss": 0.4427,
      "step": 13307,
      "task_loss": 0.31706011295318604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38641953468322754,
      "epoch": 11.25,
      "learning_rate": 1.3891671884783971e-05,
      "loss": 0.5185,
      "step": 13308,
      "task_loss": 0.3599022328853607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.504600465297699,
      "epoch": 11.25,
      "learning_rate": 1.3888541014402004e-05,
      "loss": 0.4927,
      "step": 13309,
      "task_loss": 0.30941009521484375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36224132776260376,
      "epoch": 11.25,
      "learning_rate": 1.388541014402004e-05,
      "loss": 0.5525,
      "step": 13310,
      "task_loss": 0.05257333815097809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29038944840431213,
      "epoch": 11.25,
      "learning_rate": 1.3882279273638071e-05,
      "loss": 0.4391,
      "step": 13311,
      "task_loss": 0.06849151104688644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45091572403907776,
      "epoch": 11.25,
      "learning_rate": 1.3879148403256107e-05,
      "loss": 0.4464,
      "step": 13312,
      "task_loss": 0.43930551409721375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.652741551399231,
      "epoch": 11.25,
      "learning_rate": 1.3876017532874138e-05,
      "loss": 0.464,
      "step": 13313,
      "task_loss": 0.4403991997241974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2343963086605072,
      "epoch": 11.25,
      "learning_rate": 1.3872886662492173e-05,
      "loss": 0.3666,
      "step": 13314,
      "task_loss": 0.3988073766231537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49259334802627563,
      "epoch": 11.26,
      "learning_rate": 1.3869755792110207e-05,
      "loss": 0.3985,
      "step": 13315,
      "task_loss": 0.8962003588676453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7120488882064819,
      "epoch": 11.26,
      "learning_rate": 1.386662492172824e-05,
      "loss": 0.5916,
      "step": 13316,
      "task_loss": 1.275599718093872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5264216661453247,
      "epoch": 11.26,
      "learning_rate": 1.3863494051346274e-05,
      "loss": 0.5753,
      "step": 13317,
      "task_loss": 0.6812021136283875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5454494953155518,
      "epoch": 11.26,
      "learning_rate": 1.3860363180964309e-05,
      "loss": 0.4361,
      "step": 13318,
      "task_loss": 0.7324299812316895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6395057439804077,
      "epoch": 11.26,
      "learning_rate": 1.3857232310582344e-05,
      "loss": 0.523,
      "step": 13319,
      "task_loss": 1.1497973203659058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5345066785812378,
      "epoch": 11.26,
      "learning_rate": 1.3854101440200376e-05,
      "loss": 0.4844,
      "step": 13320,
      "task_loss": 2.3618900775909424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2876392602920532,
      "epoch": 11.26,
      "learning_rate": 1.3850970569818411e-05,
      "loss": 0.4538,
      "step": 13321,
      "task_loss": 0.7020166516304016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47661080956459045,
      "epoch": 11.26,
      "learning_rate": 1.3847839699436443e-05,
      "loss": 0.4991,
      "step": 13322,
      "task_loss": 0.46099716424942017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.474174827337265,
      "epoch": 11.26,
      "learning_rate": 1.3844708829054478e-05,
      "loss": 0.4758,
      "step": 13323,
      "task_loss": 0.5283194184303284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4762096107006073,
      "epoch": 11.26,
      "learning_rate": 1.3841577958672512e-05,
      "loss": 0.3867,
      "step": 13324,
      "task_loss": 0.6484405994415283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4052409529685974,
      "epoch": 11.26,
      "learning_rate": 1.3838447088290547e-05,
      "loss": 0.3284,
      "step": 13325,
      "task_loss": 0.5821306109428406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6057902574539185,
      "epoch": 11.26,
      "learning_rate": 1.3835316217908579e-05,
      "loss": 0.5493,
      "step": 13326,
      "task_loss": 1.297049641609192
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3911043107509613,
      "epoch": 11.27,
      "learning_rate": 1.3832185347526614e-05,
      "loss": 0.5168,
      "step": 13327,
      "task_loss": 0.3837048411369324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.521282434463501,
      "epoch": 11.27,
      "learning_rate": 1.3829054477144645e-05,
      "loss": 0.5438,
      "step": 13328,
      "task_loss": 0.347763329744339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4856293499469757,
      "epoch": 11.27,
      "learning_rate": 1.382592360676268e-05,
      "loss": 0.4673,
      "step": 13329,
      "task_loss": 0.842688262462616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5539947748184204,
      "epoch": 11.27,
      "learning_rate": 1.3822792736380716e-05,
      "loss": 0.6081,
      "step": 13330,
      "task_loss": 1.4849334955215454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48663508892059326,
      "epoch": 11.27,
      "learning_rate": 1.3819661865998748e-05,
      "loss": 0.4223,
      "step": 13331,
      "task_loss": 0.5939164757728577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5013359785079956,
      "epoch": 11.27,
      "learning_rate": 1.3816530995616783e-05,
      "loss": 0.5087,
      "step": 13332,
      "task_loss": 0.7028133869171143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7055884003639221,
      "epoch": 11.27,
      "learning_rate": 1.3813400125234816e-05,
      "loss": 0.6429,
      "step": 13333,
      "task_loss": 0.32000863552093506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5064519643783569,
      "epoch": 11.27,
      "learning_rate": 1.3810269254852851e-05,
      "loss": 0.5267,
      "step": 13334,
      "task_loss": 1.181858777999878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8874207139015198,
      "epoch": 11.27,
      "learning_rate": 1.3807138384470883e-05,
      "loss": 0.606,
      "step": 13335,
      "task_loss": 0.8572090268135071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.390458345413208,
      "epoch": 11.27,
      "learning_rate": 1.3804007514088918e-05,
      "loss": 0.4712,
      "step": 13336,
      "task_loss": 0.3224963843822479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3175746202468872,
      "epoch": 11.27,
      "learning_rate": 1.380087664370695e-05,
      "loss": 0.4805,
      "step": 13337,
      "task_loss": 1.0958672761917114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45938149094581604,
      "epoch": 11.27,
      "learning_rate": 1.3797745773324985e-05,
      "loss": 0.4665,
      "step": 13338,
      "task_loss": 0.24571096897125244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2977871894836426,
      "epoch": 11.28,
      "learning_rate": 1.3794614902943017e-05,
      "loss": 0.4943,
      "step": 13339,
      "task_loss": 0.3642612397670746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30152615904808044,
      "epoch": 11.28,
      "learning_rate": 1.3791484032561052e-05,
      "loss": 0.3167,
      "step": 13340,
      "task_loss": 0.4939119517803192
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4273010492324829,
      "epoch": 11.28,
      "learning_rate": 1.3788353162179086e-05,
      "loss": 0.3992,
      "step": 13341,
      "task_loss": 0.4114125370979309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33184847235679626,
      "epoch": 11.28,
      "learning_rate": 1.3785222291797121e-05,
      "loss": 0.4232,
      "step": 13342,
      "task_loss": 0.6853185296058655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40984219312667847,
      "epoch": 11.28,
      "learning_rate": 1.3782091421415156e-05,
      "loss": 0.4371,
      "step": 13343,
      "task_loss": 0.2970816195011139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5458592176437378,
      "epoch": 11.28,
      "learning_rate": 1.3778960551033188e-05,
      "loss": 0.471,
      "step": 13344,
      "task_loss": 0.6990772485733032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49724289774894714,
      "epoch": 11.28,
      "learning_rate": 1.3775829680651223e-05,
      "loss": 0.4138,
      "step": 13345,
      "task_loss": 0.7524357438087463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3764515221118927,
      "epoch": 11.28,
      "learning_rate": 1.3772698810269255e-05,
      "loss": 0.4156,
      "step": 13346,
      "task_loss": 0.16859135031700134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4897491931915283,
      "epoch": 11.28,
      "learning_rate": 1.376956793988729e-05,
      "loss": 0.4485,
      "step": 13347,
      "task_loss": 0.5890968441963196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2898651957511902,
      "epoch": 11.28,
      "learning_rate": 1.3766437069505322e-05,
      "loss": 0.4772,
      "step": 13348,
      "task_loss": 0.26680994033813477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.667726993560791,
      "epoch": 11.28,
      "learning_rate": 1.3763306199123357e-05,
      "loss": 0.5852,
      "step": 13349,
      "task_loss": 1.096417784690857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5777534246444702,
      "epoch": 11.28,
      "learning_rate": 1.376017532874139e-05,
      "loss": 0.5432,
      "step": 13350,
      "task_loss": 0.8183897733688354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4297376275062561,
      "epoch": 11.29,
      "learning_rate": 1.3757044458359426e-05,
      "loss": 0.3974,
      "step": 13351,
      "task_loss": 0.4582257866859436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.495836466550827,
      "epoch": 11.29,
      "learning_rate": 1.3753913587977457e-05,
      "loss": 0.4591,
      "step": 13352,
      "task_loss": 1.2667330503463745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5677151679992676,
      "epoch": 11.29,
      "learning_rate": 1.3750782717595493e-05,
      "loss": 0.5127,
      "step": 13353,
      "task_loss": 0.6865700483322144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5268344283103943,
      "epoch": 11.29,
      "learning_rate": 1.3747651847213528e-05,
      "loss": 0.5592,
      "step": 13354,
      "task_loss": 1.17003333568573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48578524589538574,
      "epoch": 11.29,
      "learning_rate": 1.374452097683156e-05,
      "loss": 0.4526,
      "step": 13355,
      "task_loss": 0.07372177392244339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5387701988220215,
      "epoch": 11.29,
      "learning_rate": 1.3741390106449595e-05,
      "loss": 0.4289,
      "step": 13356,
      "task_loss": 0.8387320041656494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5043855309486389,
      "epoch": 11.29,
      "learning_rate": 1.3738259236067626e-05,
      "loss": 0.323,
      "step": 13357,
      "task_loss": 0.23875297605991364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5808480978012085,
      "epoch": 11.29,
      "learning_rate": 1.3735128365685662e-05,
      "loss": 0.5059,
      "step": 13358,
      "task_loss": 0.5326516032218933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41285234689712524,
      "epoch": 11.29,
      "learning_rate": 1.3731997495303695e-05,
      "loss": 0.4043,
      "step": 13359,
      "task_loss": 0.5473989844322205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6750186681747437,
      "epoch": 11.29,
      "learning_rate": 1.372886662492173e-05,
      "loss": 0.6351,
      "step": 13360,
      "task_loss": 0.36334073543548584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3663714826107025,
      "epoch": 11.29,
      "learning_rate": 1.3725735754539762e-05,
      "loss": 0.3081,
      "step": 13361,
      "task_loss": 0.971801221370697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45355087518692017,
      "epoch": 11.29,
      "learning_rate": 1.3722604884157797e-05,
      "loss": 0.6565,
      "step": 13362,
      "task_loss": 1.2883436679840088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3375697135925293,
      "epoch": 11.3,
      "learning_rate": 1.3719474013775829e-05,
      "loss": 0.3749,
      "step": 13363,
      "task_loss": 0.058856990188360214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5056964159011841,
      "epoch": 11.3,
      "learning_rate": 1.3716343143393864e-05,
      "loss": 0.4517,
      "step": 13364,
      "task_loss": 1.0236470699310303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5667839646339417,
      "epoch": 11.3,
      "learning_rate": 1.3713212273011896e-05,
      "loss": 0.5362,
      "step": 13365,
      "task_loss": 0.7686445713043213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25451910495758057,
      "epoch": 11.3,
      "learning_rate": 1.3710081402629931e-05,
      "loss": 0.546,
      "step": 13366,
      "task_loss": 0.6259620189666748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33604294061660767,
      "epoch": 11.3,
      "learning_rate": 1.3706950532247966e-05,
      "loss": 0.5896,
      "step": 13367,
      "task_loss": 0.7130985260009766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42202168703079224,
      "epoch": 11.3,
      "learning_rate": 1.3703819661866e-05,
      "loss": 0.5629,
      "step": 13368,
      "task_loss": 0.7841446399688721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6884379386901855,
      "epoch": 11.3,
      "learning_rate": 1.3700688791484035e-05,
      "loss": 0.528,
      "step": 13369,
      "task_loss": 1.361886978149414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4109395146369934,
      "epoch": 11.3,
      "learning_rate": 1.3697557921102067e-05,
      "loss": 0.6591,
      "step": 13370,
      "task_loss": 0.6874579191207886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5568269491195679,
      "epoch": 11.3,
      "learning_rate": 1.3694427050720102e-05,
      "loss": 0.5019,
      "step": 13371,
      "task_loss": 0.6558979749679565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44843512773513794,
      "epoch": 11.3,
      "learning_rate": 1.3691296180338134e-05,
      "loss": 0.4707,
      "step": 13372,
      "task_loss": 0.28383398056030273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45432907342910767,
      "epoch": 11.3,
      "learning_rate": 1.3688165309956169e-05,
      "loss": 0.4567,
      "step": 13373,
      "task_loss": 1.2079734802246094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.386044442653656,
      "epoch": 11.3,
      "learning_rate": 1.36850344395742e-05,
      "loss": 0.4573,
      "step": 13374,
      "task_loss": 0.054436925798654556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3672822415828705,
      "epoch": 11.31,
      "learning_rate": 1.3681903569192236e-05,
      "loss": 0.5553,
      "step": 13375,
      "task_loss": 0.5753524303436279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2382594645023346,
      "epoch": 11.31,
      "learning_rate": 1.367877269881027e-05,
      "loss": 0.4945,
      "step": 13376,
      "task_loss": 0.4129157066345215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6497118473052979,
      "epoch": 11.31,
      "learning_rate": 1.3675641828428304e-05,
      "loss": 0.5116,
      "step": 13377,
      "task_loss": 0.9274224042892456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41200608015060425,
      "epoch": 11.31,
      "learning_rate": 1.3672510958046336e-05,
      "loss": 0.4536,
      "step": 13378,
      "task_loss": 1.176707148551941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4407302439212799,
      "epoch": 11.31,
      "learning_rate": 1.3669380087664371e-05,
      "loss": 0.6338,
      "step": 13379,
      "task_loss": 0.06862740218639374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3836440443992615,
      "epoch": 11.31,
      "learning_rate": 1.3666249217282407e-05,
      "loss": 0.4164,
      "step": 13380,
      "task_loss": 0.41880226135253906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34630173444747925,
      "epoch": 11.31,
      "learning_rate": 1.3663118346900438e-05,
      "loss": 0.4403,
      "step": 13381,
      "task_loss": 0.08816014975309372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3904734253883362,
      "epoch": 11.31,
      "learning_rate": 1.3659987476518473e-05,
      "loss": 0.4016,
      "step": 13382,
      "task_loss": 0.3079637885093689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5237665772438049,
      "epoch": 11.31,
      "learning_rate": 1.3656856606136505e-05,
      "loss": 0.5121,
      "step": 13383,
      "task_loss": 0.2636469304561615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4129066467285156,
      "epoch": 11.31,
      "learning_rate": 1.365372573575454e-05,
      "loss": 0.3599,
      "step": 13384,
      "task_loss": 0.4263373613357544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6301016211509705,
      "epoch": 11.31,
      "learning_rate": 1.3650594865372574e-05,
      "loss": 0.4466,
      "step": 13385,
      "task_loss": 0.9277878403663635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2782844603061676,
      "epoch": 11.32,
      "learning_rate": 1.3647463994990609e-05,
      "loss": 0.4931,
      "step": 13386,
      "task_loss": 0.09378264099359512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25975513458251953,
      "epoch": 11.32,
      "learning_rate": 1.3644333124608641e-05,
      "loss": 0.4915,
      "step": 13387,
      "task_loss": 0.3365277051925659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.586678147315979,
      "epoch": 11.32,
      "learning_rate": 1.3641202254226676e-05,
      "loss": 0.4775,
      "step": 13388,
      "task_loss": 0.45373642444610596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4524852931499481,
      "epoch": 11.32,
      "learning_rate": 1.3638071383844708e-05,
      "loss": 0.4756,
      "step": 13389,
      "task_loss": 0.5014271140098572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46272388100624084,
      "epoch": 11.32,
      "learning_rate": 1.3634940513462743e-05,
      "loss": 0.4441,
      "step": 13390,
      "task_loss": 0.12681461870670319
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4037438631057739,
      "epoch": 11.32,
      "learning_rate": 1.3631809643080778e-05,
      "loss": 0.3733,
      "step": 13391,
      "task_loss": 0.3803998529911041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41954532265663147,
      "epoch": 11.32,
      "learning_rate": 1.362867877269881e-05,
      "loss": 0.5659,
      "step": 13392,
      "task_loss": 0.6400060057640076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5114694237709045,
      "epoch": 11.32,
      "learning_rate": 1.3625547902316845e-05,
      "loss": 0.5769,
      "step": 13393,
      "task_loss": 0.8380044102668762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49967673420906067,
      "epoch": 11.32,
      "learning_rate": 1.3622417031934879e-05,
      "loss": 0.5613,
      "step": 13394,
      "task_loss": 0.3630809187889099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5169315338134766,
      "epoch": 11.32,
      "learning_rate": 1.3619286161552914e-05,
      "loss": 0.5838,
      "step": 13395,
      "task_loss": 0.6414481997489929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44580867886543274,
      "epoch": 11.32,
      "learning_rate": 1.3616155291170946e-05,
      "loss": 0.566,
      "step": 13396,
      "task_loss": 0.6656661629676819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23438279330730438,
      "epoch": 11.32,
      "learning_rate": 1.361302442078898e-05,
      "loss": 0.4967,
      "step": 13397,
      "task_loss": 0.44450104236602783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4562116861343384,
      "epoch": 11.33,
      "learning_rate": 1.3609893550407012e-05,
      "loss": 0.3785,
      "step": 13398,
      "task_loss": 0.2262602299451828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4760447144508362,
      "epoch": 11.33,
      "learning_rate": 1.3606762680025048e-05,
      "loss": 0.5058,
      "step": 13399,
      "task_loss": 1.25832200050354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3436952829360962,
      "epoch": 11.33,
      "learning_rate": 1.3603631809643081e-05,
      "loss": 0.4664,
      "step": 13400,
      "task_loss": 0.5014289617538452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4205661714076996,
      "epoch": 11.33,
      "learning_rate": 1.3600500939261116e-05,
      "loss": 0.4209,
      "step": 13401,
      "task_loss": 1.2450330257415771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7762722969055176,
      "epoch": 11.33,
      "learning_rate": 1.3597370068879148e-05,
      "loss": 0.4344,
      "step": 13402,
      "task_loss": 0.8572439551353455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6550551652908325,
      "epoch": 11.33,
      "learning_rate": 1.3594239198497183e-05,
      "loss": 0.4542,
      "step": 13403,
      "task_loss": 0.6343236565589905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3930063843727112,
      "epoch": 11.33,
      "learning_rate": 1.3591108328115218e-05,
      "loss": 0.4188,
      "step": 13404,
      "task_loss": 0.3986065089702606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.433918297290802,
      "epoch": 11.33,
      "learning_rate": 1.358797745773325e-05,
      "loss": 0.3191,
      "step": 13405,
      "task_loss": 0.4140155613422394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6488302946090698,
      "epoch": 11.33,
      "learning_rate": 1.3584846587351285e-05,
      "loss": 0.562,
      "step": 13406,
      "task_loss": 0.19816847145557404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48100948333740234,
      "epoch": 11.33,
      "learning_rate": 1.3581715716969317e-05,
      "loss": 0.4733,
      "step": 13407,
      "task_loss": 0.38867056369781494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24857836961746216,
      "epoch": 11.33,
      "learning_rate": 1.3578584846587352e-05,
      "loss": 0.398,
      "step": 13408,
      "task_loss": 0.24509504437446594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3802242577075958,
      "epoch": 11.33,
      "learning_rate": 1.3575453976205386e-05,
      "loss": 0.3496,
      "step": 13409,
      "task_loss": 0.3202233612537384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47925683856010437,
      "epoch": 11.34,
      "learning_rate": 1.3572323105823421e-05,
      "loss": 0.5076,
      "step": 13410,
      "task_loss": 0.13921737670898438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5100857019424438,
      "epoch": 11.34,
      "learning_rate": 1.3569192235441453e-05,
      "loss": 0.5024,
      "step": 13411,
      "task_loss": 0.8136407136917114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4130246341228485,
      "epoch": 11.34,
      "learning_rate": 1.3566061365059488e-05,
      "loss": 0.3474,
      "step": 13412,
      "task_loss": 1.0072972774505615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3904590606689453,
      "epoch": 11.34,
      "learning_rate": 1.356293049467752e-05,
      "loss": 0.3893,
      "step": 13413,
      "task_loss": 0.5007895827293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3351680636405945,
      "epoch": 11.34,
      "learning_rate": 1.3559799624295555e-05,
      "loss": 0.5122,
      "step": 13414,
      "task_loss": 0.6062806844711304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.875203013420105,
      "epoch": 11.34,
      "learning_rate": 1.3556668753913587e-05,
      "loss": 0.5877,
      "step": 13415,
      "task_loss": 0.9651710391044617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4931524097919464,
      "epoch": 11.34,
      "learning_rate": 1.3553537883531622e-05,
      "loss": 0.4047,
      "step": 13416,
      "task_loss": 1.030369758605957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5621304512023926,
      "epoch": 11.34,
      "learning_rate": 1.3550407013149657e-05,
      "loss": 0.4601,
      "step": 13417,
      "task_loss": 0.8106245994567871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4540729522705078,
      "epoch": 11.34,
      "learning_rate": 1.354727614276769e-05,
      "loss": 0.4557,
      "step": 13418,
      "task_loss": 0.7694531679153442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31840750575065613,
      "epoch": 11.34,
      "learning_rate": 1.3544145272385726e-05,
      "loss": 0.4614,
      "step": 13419,
      "task_loss": 0.2681237757205963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6150997877120972,
      "epoch": 11.34,
      "learning_rate": 1.3541014402003757e-05,
      "loss": 0.5291,
      "step": 13420,
      "task_loss": 0.49860239028930664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2548239827156067,
      "epoch": 11.34,
      "learning_rate": 1.3537883531621793e-05,
      "loss": 0.5047,
      "step": 13421,
      "task_loss": 0.8994212746620178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3094787895679474,
      "epoch": 11.35,
      "learning_rate": 1.3534752661239824e-05,
      "loss": 0.4736,
      "step": 13422,
      "task_loss": 0.7753906846046448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4576607942581177,
      "epoch": 11.35,
      "learning_rate": 1.353162179085786e-05,
      "loss": 0.509,
      "step": 13423,
      "task_loss": 0.8873574137687683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5469491481781006,
      "epoch": 11.35,
      "learning_rate": 1.3528490920475891e-05,
      "loss": 0.598,
      "step": 13424,
      "task_loss": 1.108163595199585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4785671830177307,
      "epoch": 11.35,
      "learning_rate": 1.3525360050093926e-05,
      "loss": 0.4861,
      "step": 13425,
      "task_loss": 0.4308520257472992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.154972791671753,
      "epoch": 11.35,
      "learning_rate": 1.352222917971196e-05,
      "loss": 0.6499,
      "step": 13426,
      "task_loss": 0.5532777309417725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34761595726013184,
      "epoch": 11.35,
      "learning_rate": 1.3519098309329995e-05,
      "loss": 0.468,
      "step": 13427,
      "task_loss": 0.8235142827033997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2776043117046356,
      "epoch": 11.35,
      "learning_rate": 1.351596743894803e-05,
      "loss": 0.3995,
      "step": 13428,
      "task_loss": 0.6162019371986389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43348342180252075,
      "epoch": 11.35,
      "learning_rate": 1.3512836568566062e-05,
      "loss": 0.5181,
      "step": 13429,
      "task_loss": 0.501488983631134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36238986253738403,
      "epoch": 11.35,
      "learning_rate": 1.3509705698184097e-05,
      "loss": 0.4256,
      "step": 13430,
      "task_loss": 0.7634019255638123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23057928681373596,
      "epoch": 11.35,
      "learning_rate": 1.3506574827802129e-05,
      "loss": 0.401,
      "step": 13431,
      "task_loss": 0.4590986371040344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2874537706375122,
      "epoch": 11.35,
      "learning_rate": 1.3503443957420164e-05,
      "loss": 0.3712,
      "step": 13432,
      "task_loss": 0.5492112636566162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3312625586986542,
      "epoch": 11.35,
      "learning_rate": 1.3500313087038196e-05,
      "loss": 0.4188,
      "step": 13433,
      "task_loss": 0.11307858675718307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9354593753814697,
      "epoch": 11.36,
      "learning_rate": 1.3497182216656231e-05,
      "loss": 0.6233,
      "step": 13434,
      "task_loss": 1.5848944187164307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43516606092453003,
      "epoch": 11.36,
      "learning_rate": 1.3494051346274265e-05,
      "loss": 0.4265,
      "step": 13435,
      "task_loss": 0.3258773684501648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3711320161819458,
      "epoch": 11.36,
      "learning_rate": 1.34909204758923e-05,
      "loss": 0.3255,
      "step": 13436,
      "task_loss": 0.12808597087860107
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.776048481464386,
      "epoch": 11.36,
      "learning_rate": 1.3487789605510332e-05,
      "loss": 0.5103,
      "step": 13437,
      "task_loss": 0.7046303749084473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46114909648895264,
      "epoch": 11.36,
      "learning_rate": 1.3484658735128367e-05,
      "loss": 0.4028,
      "step": 13438,
      "task_loss": 0.45602840185165405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4125756621360779,
      "epoch": 11.36,
      "learning_rate": 1.3481527864746399e-05,
      "loss": 0.48,
      "step": 13439,
      "task_loss": 0.6102780699729919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47756028175354004,
      "epoch": 11.36,
      "learning_rate": 1.3478396994364434e-05,
      "loss": 0.5404,
      "step": 13440,
      "task_loss": 0.6832168102264404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4421721398830414,
      "epoch": 11.36,
      "learning_rate": 1.3475266123982469e-05,
      "loss": 0.4626,
      "step": 13441,
      "task_loss": 1.069075107574463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6344483494758606,
      "epoch": 11.36,
      "learning_rate": 1.34721352536005e-05,
      "loss": 0.5835,
      "step": 13442,
      "task_loss": 1.025761365890503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571324825286865,
      "epoch": 11.36,
      "learning_rate": 1.3469004383218536e-05,
      "loss": 0.5733,
      "step": 13443,
      "task_loss": 0.9477716088294983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5051746368408203,
      "epoch": 11.36,
      "learning_rate": 1.346587351283657e-05,
      "loss": 0.5465,
      "step": 13444,
      "task_loss": 0.37902286648750305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29703861474990845,
      "epoch": 11.36,
      "learning_rate": 1.3462742642454604e-05,
      "loss": 0.5373,
      "step": 13445,
      "task_loss": 0.44304999709129333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5473580360412598,
      "epoch": 11.37,
      "learning_rate": 1.3459611772072636e-05,
      "loss": 0.5305,
      "step": 13446,
      "task_loss": 1.0028460025787354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4304829239845276,
      "epoch": 11.37,
      "learning_rate": 1.3456480901690671e-05,
      "loss": 0.4717,
      "step": 13447,
      "task_loss": 0.5336629152297974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6534134149551392,
      "epoch": 11.37,
      "learning_rate": 1.3453350031308703e-05,
      "loss": 0.6508,
      "step": 13448,
      "task_loss": 0.26125165820121765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6263030767440796,
      "epoch": 11.37,
      "learning_rate": 1.3450219160926738e-05,
      "loss": 0.5739,
      "step": 13449,
      "task_loss": 0.9009964466094971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6634045839309692,
      "epoch": 11.37,
      "learning_rate": 1.344708829054477e-05,
      "loss": 0.4708,
      "step": 13450,
      "task_loss": 0.7667508721351624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2528965175151825,
      "epoch": 11.37,
      "learning_rate": 1.3443957420162805e-05,
      "loss": 0.4041,
      "step": 13451,
      "task_loss": 0.44988200068473816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.403778612613678,
      "epoch": 11.37,
      "learning_rate": 1.344082654978084e-05,
      "loss": 0.4387,
      "step": 13452,
      "task_loss": 0.7008814215660095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6918982267379761,
      "epoch": 11.37,
      "learning_rate": 1.3437695679398874e-05,
      "loss": 0.5381,
      "step": 13453,
      "task_loss": 0.9185293912887573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30877506732940674,
      "epoch": 11.37,
      "learning_rate": 1.3434564809016909e-05,
      "loss": 0.5913,
      "step": 13454,
      "task_loss": 0.3754591941833496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3243224322795868,
      "epoch": 11.37,
      "learning_rate": 1.3431433938634941e-05,
      "loss": 0.5074,
      "step": 13455,
      "task_loss": 0.6020894050598145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3592853248119354,
      "epoch": 11.37,
      "learning_rate": 1.3428303068252976e-05,
      "loss": 0.3911,
      "step": 13456,
      "task_loss": 1.2577414512634277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39873141050338745,
      "epoch": 11.38,
      "learning_rate": 1.3425172197871008e-05,
      "loss": 0.4945,
      "step": 13457,
      "task_loss": 0.5454912185668945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32221081852912903,
      "epoch": 11.38,
      "learning_rate": 1.3422041327489043e-05,
      "loss": 0.4007,
      "step": 13458,
      "task_loss": 0.5369566679000854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35904696583747864,
      "epoch": 11.38,
      "learning_rate": 1.3418910457107075e-05,
      "loss": 0.3637,
      "step": 13459,
      "task_loss": 0.23569725453853607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30779266357421875,
      "epoch": 11.38,
      "learning_rate": 1.341577958672511e-05,
      "loss": 0.4442,
      "step": 13460,
      "task_loss": 0.20098252594470978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5619673132896423,
      "epoch": 11.38,
      "learning_rate": 1.3412648716343143e-05,
      "loss": 0.3831,
      "step": 13461,
      "task_loss": 0.455183744430542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3579810857772827,
      "epoch": 11.38,
      "learning_rate": 1.3409517845961179e-05,
      "loss": 0.5269,
      "step": 13462,
      "task_loss": 0.7468730807304382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6393323540687561,
      "epoch": 11.38,
      "learning_rate": 1.340638697557921e-05,
      "loss": 0.5225,
      "step": 13463,
      "task_loss": 0.43784138560295105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48542821407318115,
      "epoch": 11.38,
      "learning_rate": 1.3403256105197246e-05,
      "loss": 0.3878,
      "step": 13464,
      "task_loss": 0.3089962303638458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3112417459487915,
      "epoch": 11.38,
      "learning_rate": 1.340012523481528e-05,
      "loss": 0.5684,
      "step": 13465,
      "task_loss": 0.9153579473495483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4815816581249237,
      "epoch": 11.38,
      "learning_rate": 1.3396994364433313e-05,
      "loss": 0.5301,
      "step": 13466,
      "task_loss": 0.6106700301170349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30273866653442383,
      "epoch": 11.38,
      "learning_rate": 1.3393863494051348e-05,
      "loss": 0.4597,
      "step": 13467,
      "task_loss": 0.1974809169769287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.224589541554451,
      "epoch": 11.38,
      "learning_rate": 1.339073262366938e-05,
      "loss": 0.5102,
      "step": 13468,
      "task_loss": 0.06221473962068558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3997344970703125,
      "epoch": 11.39,
      "learning_rate": 1.3387601753287415e-05,
      "loss": 0.4984,
      "step": 13469,
      "task_loss": 0.8279926776885986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.422261118888855,
      "epoch": 11.39,
      "learning_rate": 1.3384470882905448e-05,
      "loss": 0.6218,
      "step": 13470,
      "task_loss": 0.863456130027771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40642112493515015,
      "epoch": 11.39,
      "learning_rate": 1.3381340012523483e-05,
      "loss": 0.4919,
      "step": 13471,
      "task_loss": 0.9533356428146362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5542224645614624,
      "epoch": 11.39,
      "learning_rate": 1.3378209142141515e-05,
      "loss": 0.6186,
      "step": 13472,
      "task_loss": 0.3777555823326111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3315945267677307,
      "epoch": 11.39,
      "learning_rate": 1.337507827175955e-05,
      "loss": 0.3905,
      "step": 13473,
      "task_loss": 0.3259689211845398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42900097370147705,
      "epoch": 11.39,
      "learning_rate": 1.3371947401377582e-05,
      "loss": 0.4802,
      "step": 13474,
      "task_loss": 2.150320291519165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3709228038787842,
      "epoch": 11.39,
      "learning_rate": 1.3368816530995617e-05,
      "loss": 0.5067,
      "step": 13475,
      "task_loss": 0.1489427387714386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35552260279655457,
      "epoch": 11.39,
      "learning_rate": 1.336568566061365e-05,
      "loss": 0.4802,
      "step": 13476,
      "task_loss": 1.1448328495025635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7506089806556702,
      "epoch": 11.39,
      "learning_rate": 1.3362554790231686e-05,
      "loss": 0.5929,
      "step": 13477,
      "task_loss": 0.6513552069664001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3635621666908264,
      "epoch": 11.39,
      "learning_rate": 1.335942391984972e-05,
      "loss": 0.4563,
      "step": 13478,
      "task_loss": 0.3204783499240875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5291178226470947,
      "epoch": 11.39,
      "learning_rate": 1.3356293049467753e-05,
      "loss": 0.4817,
      "step": 13479,
      "task_loss": 0.8866700530052185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43084555864334106,
      "epoch": 11.39,
      "learning_rate": 1.3353162179085788e-05,
      "loss": 0.5122,
      "step": 13480,
      "task_loss": 0.5674587488174438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3933725357055664,
      "epoch": 11.4,
      "learning_rate": 1.335003130870382e-05,
      "loss": 0.3252,
      "step": 13481,
      "task_loss": 0.025790400803089142
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571322441101074,
      "epoch": 11.4,
      "learning_rate": 1.3346900438321855e-05,
      "loss": 0.5479,
      "step": 13482,
      "task_loss": 0.30859389901161194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2971702516078949,
      "epoch": 11.4,
      "learning_rate": 1.3343769567939887e-05,
      "loss": 0.3947,
      "step": 13483,
      "task_loss": 0.199801504611969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7566019296646118,
      "epoch": 11.4,
      "learning_rate": 1.3340638697557922e-05,
      "loss": 0.627,
      "step": 13484,
      "task_loss": 1.0852937698364258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5885090827941895,
      "epoch": 11.4,
      "learning_rate": 1.3337507827175955e-05,
      "loss": 0.5946,
      "step": 13485,
      "task_loss": 1.230541467666626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5352647304534912,
      "epoch": 11.4,
      "learning_rate": 1.333437695679399e-05,
      "loss": 0.4455,
      "step": 13486,
      "task_loss": 0.6573863625526428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44642752408981323,
      "epoch": 11.4,
      "learning_rate": 1.3331246086412022e-05,
      "loss": 0.5641,
      "step": 13487,
      "task_loss": 0.7030841112136841
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7347464561462402,
      "epoch": 11.4,
      "learning_rate": 1.3328115216030057e-05,
      "loss": 0.5299,
      "step": 13488,
      "task_loss": 0.9467954039573669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6187528967857361,
      "epoch": 11.4,
      "learning_rate": 1.3324984345648093e-05,
      "loss": 0.6187,
      "step": 13489,
      "task_loss": 1.266119122505188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38012802600860596,
      "epoch": 11.4,
      "learning_rate": 1.3321853475266124e-05,
      "loss": 0.51,
      "step": 13490,
      "task_loss": 0.22414803504943848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4983089566230774,
      "epoch": 11.4,
      "learning_rate": 1.331872260488416e-05,
      "loss": 0.3629,
      "step": 13491,
      "task_loss": 0.441162109375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42119261622428894,
      "epoch": 11.4,
      "learning_rate": 1.3315591734502191e-05,
      "loss": 0.4164,
      "step": 13492,
      "task_loss": 0.47416454553604126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5530366897583008,
      "epoch": 11.41,
      "learning_rate": 1.3312460864120227e-05,
      "loss": 0.5664,
      "step": 13493,
      "task_loss": 1.8995047807693481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6007485389709473,
      "epoch": 11.41,
      "learning_rate": 1.330932999373826e-05,
      "loss": 0.5588,
      "step": 13494,
      "task_loss": 1.316316843032837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43751686811447144,
      "epoch": 11.41,
      "learning_rate": 1.3306199123356295e-05,
      "loss": 0.5359,
      "step": 13495,
      "task_loss": 0.9713654518127441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6639513373374939,
      "epoch": 11.41,
      "learning_rate": 1.3303068252974327e-05,
      "loss": 0.4878,
      "step": 13496,
      "task_loss": 0.27489954233169556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38113003969192505,
      "epoch": 11.41,
      "learning_rate": 1.3299937382592362e-05,
      "loss": 0.474,
      "step": 13497,
      "task_loss": 0.38937392830848694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4935281276702881,
      "epoch": 11.41,
      "learning_rate": 1.3296806512210394e-05,
      "loss": 0.3707,
      "step": 13498,
      "task_loss": 0.6612992882728577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2878161668777466,
      "epoch": 11.41,
      "learning_rate": 1.3293675641828429e-05,
      "loss": 0.3924,
      "step": 13499,
      "task_loss": 0.27790069580078125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5652097463607788,
      "epoch": 11.41,
      "learning_rate": 1.329054477144646e-05,
      "loss": 0.623,
      "step": 13500,
      "task_loss": 0.3563183844089508
    },
    {
      "epoch": 11.41,
      "eval_accuracy": 0.9087524752475248,
      "eval_loss": 0.3352530300617218,
      "eval_runtime": 208.0406,
      "eval_samples_per_second": 121.371,
      "eval_steps_per_second": 0.952,
      "step": 13500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.465501606464386,
      "epoch": 11.41,
      "learning_rate": 1.3287413901064496e-05,
      "loss": 0.3948,
      "step": 13501,
      "task_loss": 0.735026478767395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37471097707748413,
      "epoch": 11.41,
      "learning_rate": 1.3284283030682531e-05,
      "loss": 0.4481,
      "step": 13502,
      "task_loss": 0.5957316756248474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6463758945465088,
      "epoch": 11.41,
      "learning_rate": 1.3281152160300565e-05,
      "loss": 0.6281,
      "step": 13503,
      "task_loss": 0.8868898153305054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46221762895584106,
      "epoch": 11.41,
      "learning_rate": 1.32780212899186e-05,
      "loss": 0.5087,
      "step": 13504,
      "task_loss": 0.6582521796226501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5101259350776672,
      "epoch": 11.42,
      "learning_rate": 1.3274890419536632e-05,
      "loss": 0.5422,
      "step": 13505,
      "task_loss": 0.8608101606369019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36429154872894287,
      "epoch": 11.42,
      "learning_rate": 1.3271759549154667e-05,
      "loss": 0.405,
      "step": 13506,
      "task_loss": 0.5104748010635376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7274377942085266,
      "epoch": 11.42,
      "learning_rate": 1.3268628678772699e-05,
      "loss": 0.6735,
      "step": 13507,
      "task_loss": 0.6605238318443298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4454156458377838,
      "epoch": 11.42,
      "learning_rate": 1.3265497808390734e-05,
      "loss": 0.4043,
      "step": 13508,
      "task_loss": 0.737153172492981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3729313313961029,
      "epoch": 11.42,
      "learning_rate": 1.3262366938008766e-05,
      "loss": 0.4234,
      "step": 13509,
      "task_loss": 1.3114820718765259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3347185254096985,
      "epoch": 11.42,
      "learning_rate": 1.32592360676268e-05,
      "loss": 0.4625,
      "step": 13510,
      "task_loss": 0.8003670573234558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38057124614715576,
      "epoch": 11.42,
      "learning_rate": 1.3256105197244834e-05,
      "loss": 0.4816,
      "step": 13511,
      "task_loss": 0.612835168838501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3276286721229553,
      "epoch": 11.42,
      "learning_rate": 1.325297432686287e-05,
      "loss": 0.445,
      "step": 13512,
      "task_loss": 0.9936932921409607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40744730830192566,
      "epoch": 11.42,
      "learning_rate": 1.3249843456480901e-05,
      "loss": 0.5174,
      "step": 13513,
      "task_loss": 0.2156963050365448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5491023063659668,
      "epoch": 11.42,
      "learning_rate": 1.3246712586098936e-05,
      "loss": 0.6021,
      "step": 13514,
      "task_loss": 0.7237211465835571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35684919357299805,
      "epoch": 11.42,
      "learning_rate": 1.3243581715716971e-05,
      "loss": 0.4388,
      "step": 13515,
      "task_loss": 0.7996036410331726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4663187265396118,
      "epoch": 11.42,
      "learning_rate": 1.3240450845335003e-05,
      "loss": 0.5326,
      "step": 13516,
      "task_loss": 0.32694414258003235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36058488488197327,
      "epoch": 11.43,
      "learning_rate": 1.3237319974953038e-05,
      "loss": 0.4577,
      "step": 13517,
      "task_loss": 0.24273529648780823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5685744881629944,
      "epoch": 11.43,
      "learning_rate": 1.323418910457107e-05,
      "loss": 0.5303,
      "step": 13518,
      "task_loss": 0.9413823485374451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4420734941959381,
      "epoch": 11.43,
      "learning_rate": 1.3231058234189105e-05,
      "loss": 0.4536,
      "step": 13519,
      "task_loss": 0.14917747676372528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5207750797271729,
      "epoch": 11.43,
      "learning_rate": 1.3227927363807139e-05,
      "loss": 0.6566,
      "step": 13520,
      "task_loss": 0.8525029420852661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42725151777267456,
      "epoch": 11.43,
      "learning_rate": 1.3224796493425174e-05,
      "loss": 0.4842,
      "step": 13521,
      "task_loss": 0.6993181109428406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4563949406147003,
      "epoch": 11.43,
      "learning_rate": 1.3221665623043206e-05,
      "loss": 0.4776,
      "step": 13522,
      "task_loss": 0.5038756728172302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5740674734115601,
      "epoch": 11.43,
      "learning_rate": 1.3218534752661241e-05,
      "loss": 0.5002,
      "step": 13523,
      "task_loss": 0.6791039109230042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6099991202354431,
      "epoch": 11.43,
      "learning_rate": 1.3215403882279273e-05,
      "loss": 0.4947,
      "step": 13524,
      "task_loss": 1.1884582042694092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3031008541584015,
      "epoch": 11.43,
      "learning_rate": 1.3212273011897308e-05,
      "loss": 0.4484,
      "step": 13525,
      "task_loss": 0.35861116647720337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5669224858283997,
      "epoch": 11.43,
      "learning_rate": 1.3209142141515343e-05,
      "loss": 0.499,
      "step": 13526,
      "task_loss": 1.0844275951385498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42665889859199524,
      "epoch": 11.43,
      "learning_rate": 1.3206011271133375e-05,
      "loss": 0.5141,
      "step": 13527,
      "task_loss": 0.33678507804870605
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3605293333530426,
      "epoch": 11.44,
      "learning_rate": 1.320288040075141e-05,
      "loss": 0.3204,
      "step": 13528,
      "task_loss": 0.2133532464504242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20931023359298706,
      "epoch": 11.44,
      "learning_rate": 1.3199749530369443e-05,
      "loss": 0.375,
      "step": 13529,
      "task_loss": 0.17649134993553162
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4781498312950134,
      "epoch": 11.44,
      "learning_rate": 1.3196618659987479e-05,
      "loss": 0.4149,
      "step": 13530,
      "task_loss": 0.6655266880989075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6147508025169373,
      "epoch": 11.44,
      "learning_rate": 1.319348778960551e-05,
      "loss": 0.5159,
      "step": 13531,
      "task_loss": 1.0065929889678955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5388458371162415,
      "epoch": 11.44,
      "learning_rate": 1.3190356919223546e-05,
      "loss": 0.5411,
      "step": 13532,
      "task_loss": 1.1024378538131714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.507765531539917,
      "epoch": 11.44,
      "learning_rate": 1.3187226048841577e-05,
      "loss": 0.4855,
      "step": 13533,
      "task_loss": 0.2183615118265152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3862976133823395,
      "epoch": 11.44,
      "learning_rate": 1.3184095178459613e-05,
      "loss": 0.4725,
      "step": 13534,
      "task_loss": 0.4217413365840912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3520740568637848,
      "epoch": 11.44,
      "learning_rate": 1.3180964308077644e-05,
      "loss": 0.3447,
      "step": 13535,
      "task_loss": 1.0696911811828613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3324918746948242,
      "epoch": 11.44,
      "learning_rate": 1.317783343769568e-05,
      "loss": 0.4358,
      "step": 13536,
      "task_loss": 0.43615442514419556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25392070412635803,
      "epoch": 11.44,
      "learning_rate": 1.3174702567313713e-05,
      "loss": 0.356,
      "step": 13537,
      "task_loss": 0.2642957270145416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17624101042747498,
      "epoch": 11.44,
      "learning_rate": 1.3171571696931748e-05,
      "loss": 0.4015,
      "step": 13538,
      "task_loss": 0.41774827241897583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3969062566757202,
      "epoch": 11.44,
      "learning_rate": 1.3168440826549783e-05,
      "loss": 0.4895,
      "step": 13539,
      "task_loss": 0.9249807000160217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2826523780822754,
      "epoch": 11.45,
      "learning_rate": 1.3165309956167815e-05,
      "loss": 0.3924,
      "step": 13540,
      "task_loss": 0.14629510045051575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4402908682823181,
      "epoch": 11.45,
      "learning_rate": 1.316217908578585e-05,
      "loss": 0.3758,
      "step": 13541,
      "task_loss": 0.25744032859802246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43253272771835327,
      "epoch": 11.45,
      "learning_rate": 1.3159048215403882e-05,
      "loss": 0.4695,
      "step": 13542,
      "task_loss": 1.3856626749038696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3785671591758728,
      "epoch": 11.45,
      "learning_rate": 1.3155917345021917e-05,
      "loss": 0.5143,
      "step": 13543,
      "task_loss": 0.592303991317749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28685781359672546,
      "epoch": 11.45,
      "learning_rate": 1.3152786474639949e-05,
      "loss": 0.5797,
      "step": 13544,
      "task_loss": 0.827608048915863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3646191358566284,
      "epoch": 11.45,
      "learning_rate": 1.3149655604257984e-05,
      "loss": 0.4383,
      "step": 13545,
      "task_loss": 0.42719709873199463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28489774465560913,
      "epoch": 11.45,
      "learning_rate": 1.3146524733876018e-05,
      "loss": 0.3913,
      "step": 13546,
      "task_loss": 0.47962093353271484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44862571358680725,
      "epoch": 11.45,
      "learning_rate": 1.3143393863494053e-05,
      "loss": 0.5069,
      "step": 13547,
      "task_loss": 0.1419134885072708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2937842011451721,
      "epoch": 11.45,
      "learning_rate": 1.3140262993112085e-05,
      "loss": 0.3535,
      "step": 13548,
      "task_loss": 0.5965250134468079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46713411808013916,
      "epoch": 11.45,
      "learning_rate": 1.313713212273012e-05,
      "loss": 0.4039,
      "step": 13549,
      "task_loss": 0.8947498798370361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5573399662971497,
      "epoch": 11.45,
      "learning_rate": 1.3134001252348152e-05,
      "loss": 0.5768,
      "step": 13550,
      "task_loss": 0.5630077719688416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5078802108764648,
      "epoch": 11.45,
      "learning_rate": 1.3130870381966187e-05,
      "loss": 0.5171,
      "step": 13551,
      "task_loss": 1.4530473947525024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4557645618915558,
      "epoch": 11.46,
      "learning_rate": 1.3127739511584222e-05,
      "loss": 0.4041,
      "step": 13552,
      "task_loss": 1.0645562410354614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47988152503967285,
      "epoch": 11.46,
      "learning_rate": 1.3124608641202255e-05,
      "loss": 0.4747,
      "step": 13553,
      "task_loss": 0.7960699796676636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4651888608932495,
      "epoch": 11.46,
      "learning_rate": 1.3121477770820289e-05,
      "loss": 0.5712,
      "step": 13554,
      "task_loss": 0.8426004648208618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5218020081520081,
      "epoch": 11.46,
      "learning_rate": 1.3118346900438322e-05,
      "loss": 0.5296,
      "step": 13555,
      "task_loss": 0.6149376034736633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6785230040550232,
      "epoch": 11.46,
      "learning_rate": 1.3115216030056357e-05,
      "loss": 0.4903,
      "step": 13556,
      "task_loss": 0.12935608625411987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4795346260070801,
      "epoch": 11.46,
      "learning_rate": 1.311208515967439e-05,
      "loss": 0.5207,
      "step": 13557,
      "task_loss": 0.919486939907074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26108771562576294,
      "epoch": 11.46,
      "learning_rate": 1.3108954289292424e-05,
      "loss": 0.5319,
      "step": 13558,
      "task_loss": 0.5815039277076721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3480111360549927,
      "epoch": 11.46,
      "learning_rate": 1.3105823418910456e-05,
      "loss": 0.4311,
      "step": 13559,
      "task_loss": 0.16610586643218994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18104463815689087,
      "epoch": 11.46,
      "learning_rate": 1.3102692548528491e-05,
      "loss": 0.4606,
      "step": 13560,
      "task_loss": 0.5945863127708435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4410724639892578,
      "epoch": 11.46,
      "learning_rate": 1.3099561678146525e-05,
      "loss": 0.5078,
      "step": 13561,
      "task_loss": 1.0294389724731445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5213173627853394,
      "epoch": 11.46,
      "learning_rate": 1.309643080776456e-05,
      "loss": 0.4514,
      "step": 13562,
      "task_loss": 0.1676766574382782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6341860294342041,
      "epoch": 11.46,
      "learning_rate": 1.3093299937382594e-05,
      "loss": 0.566,
      "step": 13563,
      "task_loss": 0.8248197436332703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4407084286212921,
      "epoch": 11.47,
      "learning_rate": 1.3090169067000627e-05,
      "loss": 0.5074,
      "step": 13564,
      "task_loss": 0.48778414726257324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6474162936210632,
      "epoch": 11.47,
      "learning_rate": 1.3087038196618662e-05,
      "loss": 0.4211,
      "step": 13565,
      "task_loss": 0.4227956235408783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32033079862594604,
      "epoch": 11.47,
      "learning_rate": 1.3083907326236694e-05,
      "loss": 0.387,
      "step": 13566,
      "task_loss": 0.08172602951526642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5786766409873962,
      "epoch": 11.47,
      "learning_rate": 1.3080776455854729e-05,
      "loss": 0.5708,
      "step": 13567,
      "task_loss": 0.6628842353820801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6221537590026855,
      "epoch": 11.47,
      "learning_rate": 1.3077645585472761e-05,
      "loss": 0.4559,
      "step": 13568,
      "task_loss": 1.3806887865066528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2118602693080902,
      "epoch": 11.47,
      "learning_rate": 1.3074514715090796e-05,
      "loss": 0.364,
      "step": 13569,
      "task_loss": 0.2774501442909241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4657360315322876,
      "epoch": 11.47,
      "learning_rate": 1.307138384470883e-05,
      "loss": 0.4222,
      "step": 13570,
      "task_loss": 0.15399114787578583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.523737907409668,
      "epoch": 11.47,
      "learning_rate": 1.3068252974326865e-05,
      "loss": 0.4095,
      "step": 13571,
      "task_loss": 0.7474629878997803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25396502017974854,
      "epoch": 11.47,
      "learning_rate": 1.3065122103944896e-05,
      "loss": 0.3383,
      "step": 13572,
      "task_loss": 0.3071964383125305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5895223021507263,
      "epoch": 11.47,
      "learning_rate": 1.3061991233562932e-05,
      "loss": 0.4618,
      "step": 13573,
      "task_loss": 0.9642338752746582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.391086220741272,
      "epoch": 11.47,
      "learning_rate": 1.3058860363180963e-05,
      "loss": 0.3479,
      "step": 13574,
      "task_loss": 0.9100220203399658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3184642195701599,
      "epoch": 11.47,
      "learning_rate": 1.3055729492798999e-05,
      "loss": 0.3797,
      "step": 13575,
      "task_loss": 0.16384708881378174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19684599339962006,
      "epoch": 11.48,
      "learning_rate": 1.3052598622417034e-05,
      "loss": 0.3656,
      "step": 13576,
      "task_loss": 0.8581432104110718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3291710317134857,
      "epoch": 11.48,
      "learning_rate": 1.3049467752035066e-05,
      "loss": 0.4087,
      "step": 13577,
      "task_loss": 0.8241137266159058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47324931621551514,
      "epoch": 11.48,
      "learning_rate": 1.30463368816531e-05,
      "loss": 0.5087,
      "step": 13578,
      "task_loss": 0.7043988704681396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3561636805534363,
      "epoch": 11.48,
      "learning_rate": 1.3043206011271134e-05,
      "loss": 0.4529,
      "step": 13579,
      "task_loss": 0.27962324023246765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38667720556259155,
      "epoch": 11.48,
      "learning_rate": 1.304007514088917e-05,
      "loss": 0.4106,
      "step": 13580,
      "task_loss": 0.540160596370697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39725959300994873,
      "epoch": 11.48,
      "learning_rate": 1.3036944270507201e-05,
      "loss": 0.5114,
      "step": 13581,
      "task_loss": 0.6200377345085144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29235363006591797,
      "epoch": 11.48,
      "learning_rate": 1.3033813400125236e-05,
      "loss": 0.439,
      "step": 13582,
      "task_loss": 0.37806904315948486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3412091135978699,
      "epoch": 11.48,
      "learning_rate": 1.3030682529743268e-05,
      "loss": 0.3533,
      "step": 13583,
      "task_loss": 0.7568220496177673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5143647789955139,
      "epoch": 11.48,
      "learning_rate": 1.3027551659361303e-05,
      "loss": 0.4522,
      "step": 13584,
      "task_loss": 0.43480974435806274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47022730112075806,
      "epoch": 11.48,
      "learning_rate": 1.3024420788979335e-05,
      "loss": 0.4187,
      "step": 13585,
      "task_loss": 0.30889371037483215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5907959938049316,
      "epoch": 11.48,
      "learning_rate": 1.302128991859737e-05,
      "loss": 0.5221,
      "step": 13586,
      "task_loss": 0.46049240231513977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8478836417198181,
      "epoch": 11.48,
      "learning_rate": 1.3018159048215405e-05,
      "loss": 0.5549,
      "step": 13587,
      "task_loss": 1.0599287748336792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7298989295959473,
      "epoch": 11.49,
      "learning_rate": 1.3015028177833439e-05,
      "loss": 0.5784,
      "step": 13588,
      "task_loss": 0.8381431102752686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18815864622592926,
      "epoch": 11.49,
      "learning_rate": 1.3011897307451474e-05,
      "loss": 0.4328,
      "step": 13589,
      "task_loss": 0.3429357409477234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5841088891029358,
      "epoch": 11.49,
      "learning_rate": 1.3008766437069506e-05,
      "loss": 0.6141,
      "step": 13590,
      "task_loss": 0.6905454993247986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36471372842788696,
      "epoch": 11.49,
      "learning_rate": 1.3005635566687541e-05,
      "loss": 0.4877,
      "step": 13591,
      "task_loss": 0.38101258873939514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5781923532485962,
      "epoch": 11.49,
      "learning_rate": 1.3002504696305573e-05,
      "loss": 0.5609,
      "step": 13592,
      "task_loss": 1.117819905281067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2870767116546631,
      "epoch": 11.49,
      "learning_rate": 1.2999373825923608e-05,
      "loss": 0.4224,
      "step": 13593,
      "task_loss": 0.8072639107704163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3485253155231476,
      "epoch": 11.49,
      "learning_rate": 1.299624295554164e-05,
      "loss": 0.4384,
      "step": 13594,
      "task_loss": 1.1574794054031372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30147305130958557,
      "epoch": 11.49,
      "learning_rate": 1.2993112085159675e-05,
      "loss": 0.3955,
      "step": 13595,
      "task_loss": 0.5711506605148315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3548358976840973,
      "epoch": 11.49,
      "learning_rate": 1.2989981214777708e-05,
      "loss": 0.3869,
      "step": 13596,
      "task_loss": 0.7341586351394653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4958457946777344,
      "epoch": 11.49,
      "learning_rate": 1.2986850344395744e-05,
      "loss": 0.4686,
      "step": 13597,
      "task_loss": 0.3273211121559143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45378240942955017,
      "epoch": 11.49,
      "learning_rate": 1.2983719474013775e-05,
      "loss": 0.5909,
      "step": 13598,
      "task_loss": 1.0046473741531372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49878960847854614,
      "epoch": 11.5,
      "learning_rate": 1.298058860363181e-05,
      "loss": 0.5297,
      "step": 13599,
      "task_loss": 0.2711784243583679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38937580585479736,
      "epoch": 11.5,
      "learning_rate": 1.2977457733249846e-05,
      "loss": 0.4923,
      "step": 13600,
      "task_loss": 0.5963602662086487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.465900719165802,
      "epoch": 11.5,
      "learning_rate": 1.2974326862867877e-05,
      "loss": 0.4755,
      "step": 13601,
      "task_loss": 0.8341333866119385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36002957820892334,
      "epoch": 11.5,
      "learning_rate": 1.2971195992485913e-05,
      "loss": 0.4176,
      "step": 13602,
      "task_loss": 0.9990655183792114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5240424871444702,
      "epoch": 11.5,
      "learning_rate": 1.2968065122103944e-05,
      "loss": 0.5133,
      "step": 13603,
      "task_loss": 1.2146680355072021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37775978446006775,
      "epoch": 11.5,
      "learning_rate": 1.296493425172198e-05,
      "loss": 0.5153,
      "step": 13604,
      "task_loss": 0.28952640295028687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6384189128875732,
      "epoch": 11.5,
      "learning_rate": 1.2961803381340013e-05,
      "loss": 0.6843,
      "step": 13605,
      "task_loss": 1.2602962255477905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36190587282180786,
      "epoch": 11.5,
      "learning_rate": 1.2958672510958048e-05,
      "loss": 0.4499,
      "step": 13606,
      "task_loss": 0.46915069222450256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3443918824195862,
      "epoch": 11.5,
      "learning_rate": 1.295554164057608e-05,
      "loss": 0.4327,
      "step": 13607,
      "task_loss": 0.10162229090929031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26044440269470215,
      "epoch": 11.5,
      "learning_rate": 1.2952410770194115e-05,
      "loss": 0.4035,
      "step": 13608,
      "task_loss": 0.5630598068237305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40250250697135925,
      "epoch": 11.5,
      "learning_rate": 1.2949279899812147e-05,
      "loss": 0.5351,
      "step": 13609,
      "task_loss": 1.1042753458023071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43275901675224304,
      "epoch": 11.5,
      "learning_rate": 1.2946149029430182e-05,
      "loss": 0.5335,
      "step": 13610,
      "task_loss": 1.1269489526748657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3307715654373169,
      "epoch": 11.51,
      "learning_rate": 1.2943018159048214e-05,
      "loss": 0.4996,
      "step": 13611,
      "task_loss": 0.47766363620758057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3532070219516754,
      "epoch": 11.51,
      "learning_rate": 1.2939887288666249e-05,
      "loss": 0.5095,
      "step": 13612,
      "task_loss": 0.3226349353790283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44497227668762207,
      "epoch": 11.51,
      "learning_rate": 1.2936756418284284e-05,
      "loss": 0.6131,
      "step": 13613,
      "task_loss": 0.813949465751648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8838702440261841,
      "epoch": 11.51,
      "learning_rate": 1.2933625547902318e-05,
      "loss": 0.6828,
      "step": 13614,
      "task_loss": 1.2204327583312988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42079395055770874,
      "epoch": 11.51,
      "learning_rate": 1.2930494677520353e-05,
      "loss": 0.4046,
      "step": 13615,
      "task_loss": 0.124517060816288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32038795948028564,
      "epoch": 11.51,
      "learning_rate": 1.2927363807138385e-05,
      "loss": 0.4965,
      "step": 13616,
      "task_loss": 0.7868496775627136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4155932664871216,
      "epoch": 11.51,
      "learning_rate": 1.292423293675642e-05,
      "loss": 0.475,
      "step": 13617,
      "task_loss": 0.4771329164505005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6867243051528931,
      "epoch": 11.51,
      "learning_rate": 1.2921102066374452e-05,
      "loss": 0.5016,
      "step": 13618,
      "task_loss": 0.7922787070274353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40293359756469727,
      "epoch": 11.51,
      "learning_rate": 1.2917971195992487e-05,
      "loss": 0.4805,
      "step": 13619,
      "task_loss": 0.3431606590747833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33253973722457886,
      "epoch": 11.51,
      "learning_rate": 1.2914840325610519e-05,
      "loss": 0.4649,
      "step": 13620,
      "task_loss": 0.6566414833068848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49608272314071655,
      "epoch": 11.51,
      "learning_rate": 1.2911709455228554e-05,
      "loss": 0.4647,
      "step": 13621,
      "task_loss": 1.093940019607544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2844523787498474,
      "epoch": 11.51,
      "learning_rate": 1.2908578584846587e-05,
      "loss": 0.3676,
      "step": 13622,
      "task_loss": 0.1261158436536789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5023753046989441,
      "epoch": 11.52,
      "learning_rate": 1.2905447714464622e-05,
      "loss": 0.4612,
      "step": 13623,
      "task_loss": 0.5583555102348328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34431424736976624,
      "epoch": 11.52,
      "learning_rate": 1.2902316844082658e-05,
      "loss": 0.51,
      "step": 13624,
      "task_loss": 0.07092244178056717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38052207231521606,
      "epoch": 11.52,
      "learning_rate": 1.289918597370069e-05,
      "loss": 0.4005,
      "step": 13625,
      "task_loss": 0.5945107340812683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5684419274330139,
      "epoch": 11.52,
      "learning_rate": 1.2896055103318724e-05,
      "loss": 0.5271,
      "step": 13626,
      "task_loss": 0.4323827028274536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4163295030593872,
      "epoch": 11.52,
      "learning_rate": 1.2892924232936756e-05,
      "loss": 0.4309,
      "step": 13627,
      "task_loss": 0.7310483455657959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030007362365723,
      "epoch": 11.52,
      "learning_rate": 1.2889793362554791e-05,
      "loss": 0.5191,
      "step": 13628,
      "task_loss": 0.31837916374206543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8170035481452942,
      "epoch": 11.52,
      "learning_rate": 1.2886662492172825e-05,
      "loss": 0.5526,
      "step": 13629,
      "task_loss": 0.7971619963645935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22277000546455383,
      "epoch": 11.52,
      "learning_rate": 1.2883531621790858e-05,
      "loss": 0.3939,
      "step": 13630,
      "task_loss": 0.03981225937604904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29667067527770996,
      "epoch": 11.52,
      "learning_rate": 1.2880400751408892e-05,
      "loss": 0.5086,
      "step": 13631,
      "task_loss": 0.21904824674129486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27985236048698425,
      "epoch": 11.52,
      "learning_rate": 1.2877269881026927e-05,
      "loss": 0.523,
      "step": 13632,
      "task_loss": 0.8531167507171631
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.336548388004303,
      "epoch": 11.52,
      "learning_rate": 1.2874139010644959e-05,
      "loss": 0.3923,
      "step": 13633,
      "task_loss": 0.9702622890472412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36609846353530884,
      "epoch": 11.52,
      "learning_rate": 1.2871008140262994e-05,
      "loss": 0.3917,
      "step": 13634,
      "task_loss": 0.77543705701828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3643532693386078,
      "epoch": 11.53,
      "learning_rate": 1.2867877269881026e-05,
      "loss": 0.5918,
      "step": 13635,
      "task_loss": 0.4082566797733307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38345563411712646,
      "epoch": 11.53,
      "learning_rate": 1.2864746399499061e-05,
      "loss": 0.442,
      "step": 13636,
      "task_loss": 1.2656972408294678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5648877024650574,
      "epoch": 11.53,
      "learning_rate": 1.2861615529117096e-05,
      "loss": 0.4054,
      "step": 13637,
      "task_loss": 0.6289765238761902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24408933520317078,
      "epoch": 11.53,
      "learning_rate": 1.285848465873513e-05,
      "loss": 0.5357,
      "step": 13638,
      "task_loss": 0.026631729677319527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7068628072738647,
      "epoch": 11.53,
      "learning_rate": 1.2855353788353163e-05,
      "loss": 0.4632,
      "step": 13639,
      "task_loss": 1.5097026824951172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6475425958633423,
      "epoch": 11.53,
      "learning_rate": 1.2852222917971197e-05,
      "loss": 0.4658,
      "step": 13640,
      "task_loss": 1.3294929265975952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6214499473571777,
      "epoch": 11.53,
      "learning_rate": 1.2849092047589232e-05,
      "loss": 0.4447,
      "step": 13641,
      "task_loss": 1.3888760805130005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6308537721633911,
      "epoch": 11.53,
      "learning_rate": 1.2845961177207263e-05,
      "loss": 0.5698,
      "step": 13642,
      "task_loss": 0.9366759061813354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9143182039260864,
      "epoch": 11.53,
      "learning_rate": 1.2842830306825299e-05,
      "loss": 0.6274,
      "step": 13643,
      "task_loss": 1.5805721282958984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4190221428871155,
      "epoch": 11.53,
      "learning_rate": 1.283969943644333e-05,
      "loss": 0.4889,
      "step": 13644,
      "task_loss": 0.5715625286102295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35378363728523254,
      "epoch": 11.53,
      "learning_rate": 1.2836568566061366e-05,
      "loss": 0.4857,
      "step": 13645,
      "task_loss": 0.23176273703575134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6794815063476562,
      "epoch": 11.53,
      "learning_rate": 1.2833437695679399e-05,
      "loss": 0.566,
      "step": 13646,
      "task_loss": 0.8980302810668945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6193921566009521,
      "epoch": 11.54,
      "learning_rate": 1.2830306825297434e-05,
      "loss": 0.5407,
      "step": 13647,
      "task_loss": 1.0623375177383423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5728660821914673,
      "epoch": 11.54,
      "learning_rate": 1.2827175954915466e-05,
      "loss": 0.4706,
      "step": 13648,
      "task_loss": 0.2933824956417084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23068174719810486,
      "epoch": 11.54,
      "learning_rate": 1.2824045084533501e-05,
      "loss": 0.387,
      "step": 13649,
      "task_loss": 0.16132429242134094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2961544394493103,
      "epoch": 11.54,
      "learning_rate": 1.2820914214151536e-05,
      "loss": 0.3648,
      "step": 13650,
      "task_loss": 0.21025635302066803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34244248270988464,
      "epoch": 11.54,
      "learning_rate": 1.2817783343769568e-05,
      "loss": 0.4038,
      "step": 13651,
      "task_loss": 0.1415916234254837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6315490007400513,
      "epoch": 11.54,
      "learning_rate": 1.2814652473387603e-05,
      "loss": 0.4965,
      "step": 13652,
      "task_loss": 0.4853336811065674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.585257887840271,
      "epoch": 11.54,
      "learning_rate": 1.2811521603005635e-05,
      "loss": 0.5413,
      "step": 13653,
      "task_loss": 1.021960735321045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38229408860206604,
      "epoch": 11.54,
      "learning_rate": 1.280839073262367e-05,
      "loss": 0.3794,
      "step": 13654,
      "task_loss": 0.3004344701766968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7356055974960327,
      "epoch": 11.54,
      "learning_rate": 1.2805259862241704e-05,
      "loss": 0.4301,
      "step": 13655,
      "task_loss": 0.31877321004867554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3749920427799225,
      "epoch": 11.54,
      "learning_rate": 1.2802128991859739e-05,
      "loss": 0.4606,
      "step": 13656,
      "task_loss": 0.7383444309234619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.625540554523468,
      "epoch": 11.54,
      "learning_rate": 1.279899812147777e-05,
      "loss": 0.5817,
      "step": 13657,
      "task_loss": 1.151963472366333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35258162021636963,
      "epoch": 11.54,
      "learning_rate": 1.2795867251095806e-05,
      "loss": 0.3497,
      "step": 13658,
      "task_loss": 0.3673621714115143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41779959201812744,
      "epoch": 11.55,
      "learning_rate": 1.2792736380713838e-05,
      "loss": 0.5388,
      "step": 13659,
      "task_loss": 0.8465784192085266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5204547643661499,
      "epoch": 11.55,
      "learning_rate": 1.2789605510331873e-05,
      "loss": 0.5332,
      "step": 13660,
      "task_loss": 0.6939333081245422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3753197491168976,
      "epoch": 11.55,
      "learning_rate": 1.2786474639949908e-05,
      "loss": 0.5342,
      "step": 13661,
      "task_loss": 0.07860612869262695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5699376463890076,
      "epoch": 11.55,
      "learning_rate": 1.278334376956794e-05,
      "loss": 0.5224,
      "step": 13662,
      "task_loss": 0.7324782609939575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6845011711120605,
      "epoch": 11.55,
      "learning_rate": 1.2780212899185975e-05,
      "loss": 0.5024,
      "step": 13663,
      "task_loss": 1.3177777528762817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5337499380111694,
      "epoch": 11.55,
      "learning_rate": 1.2777082028804008e-05,
      "loss": 0.5807,
      "step": 13664,
      "task_loss": 1.3023133277893066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7028467655181885,
      "epoch": 11.55,
      "learning_rate": 1.2773951158422044e-05,
      "loss": 0.5495,
      "step": 13665,
      "task_loss": 1.4393965005874634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45471301674842834,
      "epoch": 11.55,
      "learning_rate": 1.2770820288040075e-05,
      "loss": 0.462,
      "step": 13666,
      "task_loss": 1.0116595029830933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27742117643356323,
      "epoch": 11.55,
      "learning_rate": 1.276768941765811e-05,
      "loss": 0.5116,
      "step": 13667,
      "task_loss": 0.4238336682319641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3471364974975586,
      "epoch": 11.55,
      "learning_rate": 1.2764558547276142e-05,
      "loss": 0.4573,
      "step": 13668,
      "task_loss": 0.3930085301399231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6657384037971497,
      "epoch": 11.55,
      "learning_rate": 1.2761427676894177e-05,
      "loss": 0.5073,
      "step": 13669,
      "task_loss": 1.0652495622634888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5290519595146179,
      "epoch": 11.56,
      "learning_rate": 1.275829680651221e-05,
      "loss": 0.4582,
      "step": 13670,
      "task_loss": 1.1693178415298462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5231592059135437,
      "epoch": 11.56,
      "learning_rate": 1.2755165936130244e-05,
      "loss": 0.5278,
      "step": 13671,
      "task_loss": 1.5394930839538574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5507547855377197,
      "epoch": 11.56,
      "learning_rate": 1.2752035065748278e-05,
      "loss": 0.5585,
      "step": 13672,
      "task_loss": 0.20816175639629364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4213712811470032,
      "epoch": 11.56,
      "learning_rate": 1.2748904195366313e-05,
      "loss": 0.4665,
      "step": 13673,
      "task_loss": 0.7710381746292114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5959760546684265,
      "epoch": 11.56,
      "learning_rate": 1.2745773324984348e-05,
      "loss": 0.5428,
      "step": 13674,
      "task_loss": 0.45474734902381897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4029107093811035,
      "epoch": 11.56,
      "learning_rate": 1.274264245460238e-05,
      "loss": 0.3869,
      "step": 13675,
      "task_loss": 0.35561656951904297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3513185977935791,
      "epoch": 11.56,
      "learning_rate": 1.2739511584220415e-05,
      "loss": 0.5773,
      "step": 13676,
      "task_loss": 1.0004425048828125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21475434303283691,
      "epoch": 11.56,
      "learning_rate": 1.2736380713838447e-05,
      "loss": 0.4456,
      "step": 13677,
      "task_loss": 0.9826796650886536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41122812032699585,
      "epoch": 11.56,
      "learning_rate": 1.2733249843456482e-05,
      "loss": 0.4852,
      "step": 13678,
      "task_loss": 0.5267574787139893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5272624492645264,
      "epoch": 11.56,
      "learning_rate": 1.2730118973074514e-05,
      "loss": 0.4384,
      "step": 13679,
      "task_loss": 0.502621054649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3725660741329193,
      "epoch": 11.56,
      "learning_rate": 1.2726988102692549e-05,
      "loss": 0.5013,
      "step": 13680,
      "task_loss": 0.6792399883270264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44723936915397644,
      "epoch": 11.56,
      "learning_rate": 1.2723857232310583e-05,
      "loss": 0.4796,
      "step": 13681,
      "task_loss": 0.27249401807785034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.390105277299881,
      "epoch": 11.57,
      "learning_rate": 1.2720726361928618e-05,
      "loss": 0.4117,
      "step": 13682,
      "task_loss": 0.7639283537864685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2725958228111267,
      "epoch": 11.57,
      "learning_rate": 1.271759549154665e-05,
      "loss": 0.4838,
      "step": 13683,
      "task_loss": 0.6965284943580627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.560053288936615,
      "epoch": 11.57,
      "learning_rate": 1.2714464621164685e-05,
      "loss": 0.5633,
      "step": 13684,
      "task_loss": 1.3182506561279297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44409623742103577,
      "epoch": 11.57,
      "learning_rate": 1.2711333750782716e-05,
      "loss": 0.3878,
      "step": 13685,
      "task_loss": 0.3006393313407898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.051825761795044,
      "epoch": 11.57,
      "learning_rate": 1.2708202880400752e-05,
      "loss": 0.7136,
      "step": 13686,
      "task_loss": 0.7673883438110352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40187978744506836,
      "epoch": 11.57,
      "learning_rate": 1.2705072010018787e-05,
      "loss": 0.5139,
      "step": 13687,
      "task_loss": 0.8714907765388489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34959861636161804,
      "epoch": 11.57,
      "learning_rate": 1.2701941139636819e-05,
      "loss": 0.4156,
      "step": 13688,
      "task_loss": 0.538514256477356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5595634579658508,
      "epoch": 11.57,
      "learning_rate": 1.2698810269254854e-05,
      "loss": 0.4428,
      "step": 13689,
      "task_loss": 0.49697110056877136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34711432456970215,
      "epoch": 11.57,
      "learning_rate": 1.2695679398872887e-05,
      "loss": 0.4805,
      "step": 13690,
      "task_loss": 0.5835899114608765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4557367265224457,
      "epoch": 11.57,
      "learning_rate": 1.2692548528490922e-05,
      "loss": 0.4236,
      "step": 13691,
      "task_loss": 0.3937794864177704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6470614075660706,
      "epoch": 11.57,
      "learning_rate": 1.2689417658108954e-05,
      "loss": 0.5638,
      "step": 13692,
      "task_loss": 0.8968009948730469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3590109944343567,
      "epoch": 11.57,
      "learning_rate": 1.268628678772699e-05,
      "loss": 0.3794,
      "step": 13693,
      "task_loss": 1.1595172882080078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42908361554145813,
      "epoch": 11.58,
      "learning_rate": 1.2683155917345021e-05,
      "loss": 0.3677,
      "step": 13694,
      "task_loss": 0.3257366418838501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40197446942329407,
      "epoch": 11.58,
      "learning_rate": 1.2680025046963056e-05,
      "loss": 0.4366,
      "step": 13695,
      "task_loss": 0.3186877965927124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.70206618309021,
      "epoch": 11.58,
      "learning_rate": 1.2676894176581088e-05,
      "loss": 0.479,
      "step": 13696,
      "task_loss": 1.1095941066741943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41027989983558655,
      "epoch": 11.58,
      "learning_rate": 1.2673763306199123e-05,
      "loss": 0.4243,
      "step": 13697,
      "task_loss": 1.1562209129333496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4673895835876465,
      "epoch": 11.58,
      "learning_rate": 1.2670632435817158e-05,
      "loss": 0.4863,
      "step": 13698,
      "task_loss": 0.10698428004980087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42072516679763794,
      "epoch": 11.58,
      "learning_rate": 1.2667501565435192e-05,
      "loss": 0.4901,
      "step": 13699,
      "task_loss": 1.1298396587371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34735792875289917,
      "epoch": 11.58,
      "learning_rate": 1.2664370695053227e-05,
      "loss": 0.5623,
      "step": 13700,
      "task_loss": 0.2503602206707001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35101184248924255,
      "epoch": 11.58,
      "learning_rate": 1.2661239824671259e-05,
      "loss": 0.4361,
      "step": 13701,
      "task_loss": 0.2601656913757324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37387150526046753,
      "epoch": 11.58,
      "learning_rate": 1.2658108954289294e-05,
      "loss": 0.4555,
      "step": 13702,
      "task_loss": 1.3425347805023193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4736236035823822,
      "epoch": 11.58,
      "learning_rate": 1.2654978083907326e-05,
      "loss": 0.5838,
      "step": 13703,
      "task_loss": 0.7630059719085693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4524514377117157,
      "epoch": 11.58,
      "learning_rate": 1.2651847213525361e-05,
      "loss": 0.5528,
      "step": 13704,
      "task_loss": 0.8670541644096375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4179629385471344,
      "epoch": 11.58,
      "learning_rate": 1.2648716343143394e-05,
      "loss": 0.527,
      "step": 13705,
      "task_loss": 1.0152534246444702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3232167065143585,
      "epoch": 11.59,
      "learning_rate": 1.2645585472761428e-05,
      "loss": 0.3988,
      "step": 13706,
      "task_loss": 0.18080496788024902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38011467456817627,
      "epoch": 11.59,
      "learning_rate": 1.2642454602379461e-05,
      "loss": 0.474,
      "step": 13707,
      "task_loss": 0.36689749360084534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39434200525283813,
      "epoch": 11.59,
      "learning_rate": 1.2639323731997497e-05,
      "loss": 0.3862,
      "step": 13708,
      "task_loss": 0.5536545515060425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8864916563034058,
      "epoch": 11.59,
      "learning_rate": 1.2636192861615528e-05,
      "loss": 0.6575,
      "step": 13709,
      "task_loss": 0.9639517664909363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3266053795814514,
      "epoch": 11.59,
      "learning_rate": 1.2633061991233563e-05,
      "loss": 0.3622,
      "step": 13710,
      "task_loss": 0.32397663593292236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5394694209098816,
      "epoch": 11.59,
      "learning_rate": 1.2629931120851599e-05,
      "loss": 0.6083,
      "step": 13711,
      "task_loss": 0.5402632355690002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38822782039642334,
      "epoch": 11.59,
      "learning_rate": 1.262680025046963e-05,
      "loss": 0.4682,
      "step": 13712,
      "task_loss": 0.680937647819519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8563036918640137,
      "epoch": 11.59,
      "learning_rate": 1.2623669380087666e-05,
      "loss": 0.6131,
      "step": 13713,
      "task_loss": 1.0878950357437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5210243463516235,
      "epoch": 11.59,
      "learning_rate": 1.2620538509705699e-05,
      "loss": 0.4895,
      "step": 13714,
      "task_loss": 0.959894061088562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5470781922340393,
      "epoch": 11.59,
      "learning_rate": 1.2617407639323733e-05,
      "loss": 0.5456,
      "step": 13715,
      "task_loss": 0.8804739117622375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41541191935539246,
      "epoch": 11.59,
      "learning_rate": 1.2614276768941766e-05,
      "loss": 0.4369,
      "step": 13716,
      "task_loss": 0.5609145760536194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5331779718399048,
      "epoch": 11.59,
      "learning_rate": 1.2611145898559801e-05,
      "loss": 0.4858,
      "step": 13717,
      "task_loss": 0.9636666774749756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48515790700912476,
      "epoch": 11.6,
      "learning_rate": 1.2608015028177833e-05,
      "loss": 0.3934,
      "step": 13718,
      "task_loss": 0.41082993149757385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21295365691184998,
      "epoch": 11.6,
      "learning_rate": 1.2604884157795868e-05,
      "loss": 0.3523,
      "step": 13719,
      "task_loss": 0.1338648796081543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.612234354019165,
      "epoch": 11.6,
      "learning_rate": 1.26017532874139e-05,
      "loss": 0.5679,
      "step": 13720,
      "task_loss": 1.8202091455459595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7095921039581299,
      "epoch": 11.6,
      "learning_rate": 1.2598622417031935e-05,
      "loss": 0.5058,
      "step": 13721,
      "task_loss": 0.8892707824707031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6238918304443359,
      "epoch": 11.6,
      "learning_rate": 1.259549154664997e-05,
      "loss": 0.6293,
      "step": 13722,
      "task_loss": 0.8853986263275146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43231070041656494,
      "epoch": 11.6,
      "learning_rate": 1.2592360676268004e-05,
      "loss": 0.5105,
      "step": 13723,
      "task_loss": 0.7549663782119751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43143171072006226,
      "epoch": 11.6,
      "learning_rate": 1.2589229805886037e-05,
      "loss": 0.4762,
      "step": 13724,
      "task_loss": 0.4525502920150757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40028417110443115,
      "epoch": 11.6,
      "learning_rate": 1.258609893550407e-05,
      "loss": 0.5609,
      "step": 13725,
      "task_loss": 0.6316252946853638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.407858282327652,
      "epoch": 11.6,
      "learning_rate": 1.2582968065122106e-05,
      "loss": 0.5422,
      "step": 13726,
      "task_loss": 1.0339175462722778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5286489725112915,
      "epoch": 11.6,
      "learning_rate": 1.2579837194740138e-05,
      "loss": 0.4888,
      "step": 13727,
      "task_loss": 0.7282783389091492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4244403839111328,
      "epoch": 11.6,
      "learning_rate": 1.2576706324358173e-05,
      "loss": 0.5604,
      "step": 13728,
      "task_loss": 0.7822986245155334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6039859056472778,
      "epoch": 11.6,
      "learning_rate": 1.2573575453976205e-05,
      "loss": 0.4255,
      "step": 13729,
      "task_loss": 1.0468279123306274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40645432472229004,
      "epoch": 11.61,
      "learning_rate": 1.257044458359424e-05,
      "loss": 0.6261,
      "step": 13730,
      "task_loss": 0.24501779675483704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7171295881271362,
      "epoch": 11.61,
      "learning_rate": 1.2567313713212273e-05,
      "loss": 0.5673,
      "step": 13731,
      "task_loss": 1.0539225339889526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5020065307617188,
      "epoch": 11.61,
      "learning_rate": 1.2564182842830308e-05,
      "loss": 0.4475,
      "step": 13732,
      "task_loss": 0.5688334703445435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5253486633300781,
      "epoch": 11.61,
      "learning_rate": 1.256105197244834e-05,
      "loss": 0.4976,
      "step": 13733,
      "task_loss": 1.614999771118164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5429785251617432,
      "epoch": 11.61,
      "learning_rate": 1.2557921102066375e-05,
      "loss": 0.5236,
      "step": 13734,
      "task_loss": 0.2940812110900879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3892042934894562,
      "epoch": 11.61,
      "learning_rate": 1.255479023168441e-05,
      "loss": 0.3772,
      "step": 13735,
      "task_loss": 0.2974638342857361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4133490324020386,
      "epoch": 11.61,
      "learning_rate": 1.2551659361302442e-05,
      "loss": 0.4511,
      "step": 13736,
      "task_loss": 0.6415655016899109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3257046341896057,
      "epoch": 11.61,
      "learning_rate": 1.2548528490920477e-05,
      "loss": 0.4847,
      "step": 13737,
      "task_loss": 0.30878621339797974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5460668802261353,
      "epoch": 11.61,
      "learning_rate": 1.254539762053851e-05,
      "loss": 0.5341,
      "step": 13738,
      "task_loss": 0.6328739523887634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25418999791145325,
      "epoch": 11.61,
      "learning_rate": 1.2542266750156544e-05,
      "loss": 0.3748,
      "step": 13739,
      "task_loss": 0.05458153039216995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4451879858970642,
      "epoch": 11.61,
      "learning_rate": 1.2539135879774578e-05,
      "loss": 0.5612,
      "step": 13740,
      "task_loss": 1.0539852380752563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3057202994823456,
      "epoch": 11.61,
      "learning_rate": 1.2536005009392613e-05,
      "loss": 0.4211,
      "step": 13741,
      "task_loss": 0.7583096027374268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37336352467536926,
      "epoch": 11.62,
      "learning_rate": 1.2532874139010645e-05,
      "loss": 0.4657,
      "step": 13742,
      "task_loss": 0.4750801622867584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27916866540908813,
      "epoch": 11.62,
      "learning_rate": 1.252974326862868e-05,
      "loss": 0.4487,
      "step": 13743,
      "task_loss": 0.615877091884613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4428112804889679,
      "epoch": 11.62,
      "learning_rate": 1.2526612398246712e-05,
      "loss": 0.4212,
      "step": 13744,
      "task_loss": 1.0532232522964478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4440600872039795,
      "epoch": 11.62,
      "learning_rate": 1.2523481527864747e-05,
      "loss": 0.4586,
      "step": 13745,
      "task_loss": 0.23584559559822083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7942547798156738,
      "epoch": 11.62,
      "learning_rate": 1.2520350657482779e-05,
      "loss": 0.4928,
      "step": 13746,
      "task_loss": 0.48322007060050964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5989125967025757,
      "epoch": 11.62,
      "learning_rate": 1.2517219787100814e-05,
      "loss": 0.5158,
      "step": 13747,
      "task_loss": 0.9196664690971375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37095457315444946,
      "epoch": 11.62,
      "learning_rate": 1.2514088916718849e-05,
      "loss": 0.5103,
      "step": 13748,
      "task_loss": 0.6139047741889954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5283831357955933,
      "epoch": 11.62,
      "learning_rate": 1.2510958046336883e-05,
      "loss": 0.5876,
      "step": 13749,
      "task_loss": 0.9106743335723877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8065201640129089,
      "epoch": 11.62,
      "learning_rate": 1.2507827175954918e-05,
      "loss": 0.6579,
      "step": 13750,
      "task_loss": 0.49501317739486694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5149726867675781,
      "epoch": 11.62,
      "learning_rate": 1.250469630557295e-05,
      "loss": 0.4383,
      "step": 13751,
      "task_loss": 0.9655632376670837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44741344451904297,
      "epoch": 11.62,
      "learning_rate": 1.2501565435190985e-05,
      "loss": 0.592,
      "step": 13752,
      "task_loss": 0.40714332461357117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.264618456363678,
      "epoch": 11.63,
      "learning_rate": 1.2498434564809018e-05,
      "loss": 0.3133,
      "step": 13753,
      "task_loss": 0.07468917965888977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3652157783508301,
      "epoch": 11.63,
      "learning_rate": 1.2495303694427052e-05,
      "loss": 0.3639,
      "step": 13754,
      "task_loss": 0.5975590348243713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5319554805755615,
      "epoch": 11.63,
      "learning_rate": 1.2492172824045085e-05,
      "loss": 0.5531,
      "step": 13755,
      "task_loss": 0.9607937335968018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25033867359161377,
      "epoch": 11.63,
      "learning_rate": 1.2489041953663119e-05,
      "loss": 0.4125,
      "step": 13756,
      "task_loss": 0.1265423744916916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5228519439697266,
      "epoch": 11.63,
      "learning_rate": 1.2485911083281154e-05,
      "loss": 0.5701,
      "step": 13757,
      "task_loss": 1.2885515689849854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3058943748474121,
      "epoch": 11.63,
      "learning_rate": 1.2482780212899187e-05,
      "loss": 0.4938,
      "step": 13758,
      "task_loss": 0.8815776109695435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28757837414741516,
      "epoch": 11.63,
      "learning_rate": 1.247964934251722e-05,
      "loss": 0.6082,
      "step": 13759,
      "task_loss": 0.3945768475532532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5050127506256104,
      "epoch": 11.63,
      "learning_rate": 1.2476518472135254e-05,
      "loss": 0.5815,
      "step": 13760,
      "task_loss": 0.7021082043647766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4876416325569153,
      "epoch": 11.63,
      "learning_rate": 1.2473387601753288e-05,
      "loss": 0.5336,
      "step": 13761,
      "task_loss": 0.3285619020462036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18347090482711792,
      "epoch": 11.63,
      "learning_rate": 1.2470256731371321e-05,
      "loss": 0.4807,
      "step": 13762,
      "task_loss": 0.31503546237945557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43747732043266296,
      "epoch": 11.63,
      "learning_rate": 1.2467125860989355e-05,
      "loss": 0.4274,
      "step": 13763,
      "task_loss": 0.24492157995700836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5105479955673218,
      "epoch": 11.63,
      "learning_rate": 1.2463994990607388e-05,
      "loss": 0.4743,
      "step": 13764,
      "task_loss": 0.9211942553520203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17240948975086212,
      "epoch": 11.64,
      "learning_rate": 1.2460864120225423e-05,
      "loss": 0.4281,
      "step": 13765,
      "task_loss": 0.340116024017334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8573293089866638,
      "epoch": 11.64,
      "learning_rate": 1.2457733249843458e-05,
      "loss": 0.5594,
      "step": 13766,
      "task_loss": 0.5121303796768188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2982115149497986,
      "epoch": 11.64,
      "learning_rate": 1.2454602379461492e-05,
      "loss": 0.4394,
      "step": 13767,
      "task_loss": 0.3140920400619507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4447312355041504,
      "epoch": 11.64,
      "learning_rate": 1.2451471509079525e-05,
      "loss": 0.5693,
      "step": 13768,
      "task_loss": 0.8767495155334473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41510632634162903,
      "epoch": 11.64,
      "learning_rate": 1.2448340638697559e-05,
      "loss": 0.5095,
      "step": 13769,
      "task_loss": 0.38830533623695374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5311852693557739,
      "epoch": 11.64,
      "learning_rate": 1.2445209768315592e-05,
      "loss": 0.5415,
      "step": 13770,
      "task_loss": 1.127919316291809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28192514181137085,
      "epoch": 11.64,
      "learning_rate": 1.2442078897933626e-05,
      "loss": 0.5291,
      "step": 13771,
      "task_loss": 0.23582136631011963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41147398948669434,
      "epoch": 11.64,
      "learning_rate": 1.243894802755166e-05,
      "loss": 0.3709,
      "step": 13772,
      "task_loss": 1.0008090734481812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3954938054084778,
      "epoch": 11.64,
      "learning_rate": 1.2435817157169693e-05,
      "loss": 0.3818,
      "step": 13773,
      "task_loss": 0.16401752829551697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3946489095687866,
      "epoch": 11.64,
      "learning_rate": 1.2432686286787728e-05,
      "loss": 0.4389,
      "step": 13774,
      "task_loss": 0.43688708543777466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6172383427619934,
      "epoch": 11.64,
      "learning_rate": 1.2429555416405761e-05,
      "loss": 0.5515,
      "step": 13775,
      "task_loss": 0.5782727599143982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.516512393951416,
      "epoch": 11.64,
      "learning_rate": 1.2426424546023795e-05,
      "loss": 0.5927,
      "step": 13776,
      "task_loss": 0.15968118607997894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47924643754959106,
      "epoch": 11.65,
      "learning_rate": 1.2423293675641828e-05,
      "loss": 0.5316,
      "step": 13777,
      "task_loss": 0.49871405959129333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48993444442749023,
      "epoch": 11.65,
      "learning_rate": 1.2420162805259864e-05,
      "loss": 0.5441,
      "step": 13778,
      "task_loss": 0.725088894367218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5165560245513916,
      "epoch": 11.65,
      "learning_rate": 1.2417031934877897e-05,
      "loss": 0.4998,
      "step": 13779,
      "task_loss": 0.7782955169677734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17877525091171265,
      "epoch": 11.65,
      "learning_rate": 1.241390106449593e-05,
      "loss": 0.4775,
      "step": 13780,
      "task_loss": 0.1677992343902588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6417998671531677,
      "epoch": 11.65,
      "learning_rate": 1.2410770194113964e-05,
      "loss": 0.5576,
      "step": 13781,
      "task_loss": 0.9356915354728699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2664119601249695,
      "epoch": 11.65,
      "learning_rate": 1.2407639323731997e-05,
      "loss": 0.393,
      "step": 13782,
      "task_loss": 0.5726749300956726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3544803559780121,
      "epoch": 11.65,
      "learning_rate": 1.2404508453350033e-05,
      "loss": 0.4717,
      "step": 13783,
      "task_loss": 0.12915858626365662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2798641324043274,
      "epoch": 11.65,
      "learning_rate": 1.2401377582968066e-05,
      "loss": 0.4604,
      "step": 13784,
      "task_loss": 0.39576059579849243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3464524447917938,
      "epoch": 11.65,
      "learning_rate": 1.23982467125861e-05,
      "loss": 0.4117,
      "step": 13785,
      "task_loss": 0.34839656949043274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37567418813705444,
      "epoch": 11.65,
      "learning_rate": 1.2395115842204133e-05,
      "loss": 0.4099,
      "step": 13786,
      "task_loss": 0.07728774845600128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4176000654697418,
      "epoch": 11.65,
      "learning_rate": 1.2391984971822167e-05,
      "loss": 0.4205,
      "step": 13787,
      "task_loss": 0.26376813650131226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41078102588653564,
      "epoch": 11.65,
      "learning_rate": 1.23888541014402e-05,
      "loss": 0.4378,
      "step": 13788,
      "task_loss": 1.122238278388977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24278204143047333,
      "epoch": 11.66,
      "learning_rate": 1.2385723231058233e-05,
      "loss": 0.4241,
      "step": 13789,
      "task_loss": 0.2806938886642456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6979601979255676,
      "epoch": 11.66,
      "learning_rate": 1.2382592360676269e-05,
      "loss": 0.6137,
      "step": 13790,
      "task_loss": 0.8490599989891052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.303165465593338,
      "epoch": 11.66,
      "learning_rate": 1.2379461490294302e-05,
      "loss": 0.4326,
      "step": 13791,
      "task_loss": 0.18321290612220764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5907576084136963,
      "epoch": 11.66,
      "learning_rate": 1.2376330619912337e-05,
      "loss": 0.6344,
      "step": 13792,
      "task_loss": 0.25189727544784546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5305290222167969,
      "epoch": 11.66,
      "learning_rate": 1.237319974953037e-05,
      "loss": 0.4476,
      "step": 13793,
      "task_loss": 0.8307930827140808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4824160039424896,
      "epoch": 11.66,
      "learning_rate": 1.2370068879148404e-05,
      "loss": 0.5382,
      "step": 13794,
      "task_loss": 1.616578221321106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3117449879646301,
      "epoch": 11.66,
      "learning_rate": 1.2366938008766438e-05,
      "loss": 0.4227,
      "step": 13795,
      "task_loss": 0.7621198892593384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45371025800704956,
      "epoch": 11.66,
      "learning_rate": 1.2363807138384471e-05,
      "loss": 0.6413,
      "step": 13796,
      "task_loss": 0.32861432433128357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5955427885055542,
      "epoch": 11.66,
      "learning_rate": 1.2360676268002505e-05,
      "loss": 0.5199,
      "step": 13797,
      "task_loss": 1.0553674697875977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40721726417541504,
      "epoch": 11.66,
      "learning_rate": 1.2357545397620538e-05,
      "loss": 0.3794,
      "step": 13798,
      "task_loss": 1.0848819017410278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5038737654685974,
      "epoch": 11.66,
      "learning_rate": 1.2354414527238573e-05,
      "loss": 0.4982,
      "step": 13799,
      "task_loss": 0.663417637348175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3632417321205139,
      "epoch": 11.66,
      "learning_rate": 1.2351283656856607e-05,
      "loss": 0.549,
      "step": 13800,
      "task_loss": 0.59310382604599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3582364022731781,
      "epoch": 11.67,
      "learning_rate": 1.234815278647464e-05,
      "loss": 0.4014,
      "step": 13801,
      "task_loss": 0.33013665676116943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47764065861701965,
      "epoch": 11.67,
      "learning_rate": 1.2345021916092675e-05,
      "loss": 0.4969,
      "step": 13802,
      "task_loss": 0.4467492401599884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3203350007534027,
      "epoch": 11.67,
      "learning_rate": 1.2341891045710709e-05,
      "loss": 0.4105,
      "step": 13803,
      "task_loss": 1.1633602380752563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6523016691207886,
      "epoch": 11.67,
      "learning_rate": 1.2338760175328742e-05,
      "loss": 0.615,
      "step": 13804,
      "task_loss": 0.9446948170661926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.345590204000473,
      "epoch": 11.67,
      "learning_rate": 1.2335629304946776e-05,
      "loss": 0.3287,
      "step": 13805,
      "task_loss": 0.7274593710899353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5391051769256592,
      "epoch": 11.67,
      "learning_rate": 1.233249843456481e-05,
      "loss": 0.5773,
      "step": 13806,
      "task_loss": 0.25381332635879517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.669338047504425,
      "epoch": 11.67,
      "learning_rate": 1.2329367564182843e-05,
      "loss": 0.3645,
      "step": 13807,
      "task_loss": 0.9288575053215027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3645652234554291,
      "epoch": 11.67,
      "learning_rate": 1.2326236693800878e-05,
      "loss": 0.4782,
      "step": 13808,
      "task_loss": 0.43509939312934875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6167148351669312,
      "epoch": 11.67,
      "learning_rate": 1.2323105823418911e-05,
      "loss": 0.4503,
      "step": 13809,
      "task_loss": 1.1950784921646118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2741347551345825,
      "epoch": 11.67,
      "learning_rate": 1.2319974953036945e-05,
      "loss": 0.4476,
      "step": 13810,
      "task_loss": 0.1760166883468628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37760019302368164,
      "epoch": 11.67,
      "learning_rate": 1.2316844082654978e-05,
      "loss": 0.645,
      "step": 13811,
      "task_loss": 0.5763120055198669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47324252128601074,
      "epoch": 11.67,
      "learning_rate": 1.2313713212273012e-05,
      "loss": 0.4957,
      "step": 13812,
      "task_loss": 0.4382353127002716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3341653048992157,
      "epoch": 11.68,
      "learning_rate": 1.2310582341891045e-05,
      "loss": 0.6112,
      "step": 13813,
      "task_loss": 0.48091453313827515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4452115297317505,
      "epoch": 11.68,
      "learning_rate": 1.230745147150908e-05,
      "loss": 0.4164,
      "step": 13814,
      "task_loss": 0.2768070697784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3906286954879761,
      "epoch": 11.68,
      "learning_rate": 1.2304320601127114e-05,
      "loss": 0.4249,
      "step": 13815,
      "task_loss": 0.6501743793487549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6213551163673401,
      "epoch": 11.68,
      "learning_rate": 1.2301189730745147e-05,
      "loss": 0.4364,
      "step": 13816,
      "task_loss": 0.4338041841983795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28669536113739014,
      "epoch": 11.68,
      "learning_rate": 1.2298058860363183e-05,
      "loss": 0.4038,
      "step": 13817,
      "task_loss": 0.6845242381095886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46947911381721497,
      "epoch": 11.68,
      "learning_rate": 1.2294927989981216e-05,
      "loss": 0.6311,
      "step": 13818,
      "task_loss": 0.4467426538467407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19195236265659332,
      "epoch": 11.68,
      "learning_rate": 1.229179711959925e-05,
      "loss": 0.4934,
      "step": 13819,
      "task_loss": 1.317919135093689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3458535075187683,
      "epoch": 11.68,
      "learning_rate": 1.2288666249217283e-05,
      "loss": 0.4035,
      "step": 13820,
      "task_loss": 0.37994620203971863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3843117952346802,
      "epoch": 11.68,
      "learning_rate": 1.2285535378835317e-05,
      "loss": 0.5123,
      "step": 13821,
      "task_loss": 0.09649071842432022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4235343933105469,
      "epoch": 11.68,
      "learning_rate": 1.228240450845335e-05,
      "loss": 0.4524,
      "step": 13822,
      "task_loss": 0.9579771757125854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5496442914009094,
      "epoch": 11.68,
      "learning_rate": 1.2279273638071383e-05,
      "loss": 0.4703,
      "step": 13823,
      "task_loss": 1.200798749923706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48002123832702637,
      "epoch": 11.69,
      "learning_rate": 1.2276142767689417e-05,
      "loss": 0.4123,
      "step": 13824,
      "task_loss": 1.1022429466247559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3661094307899475,
      "epoch": 11.69,
      "learning_rate": 1.2273011897307452e-05,
      "loss": 0.5587,
      "step": 13825,
      "task_loss": 0.3020821809768677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2787158191204071,
      "epoch": 11.69,
      "learning_rate": 1.2269881026925486e-05,
      "loss": 0.4358,
      "step": 13826,
      "task_loss": 0.12760105729103088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4429776072502136,
      "epoch": 11.69,
      "learning_rate": 1.226675015654352e-05,
      "loss": 0.4359,
      "step": 13827,
      "task_loss": 0.9390592575073242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43697965145111084,
      "epoch": 11.69,
      "learning_rate": 1.2263619286161554e-05,
      "loss": 0.5852,
      "step": 13828,
      "task_loss": 0.7021316289901733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5650709867477417,
      "epoch": 11.69,
      "learning_rate": 1.2260488415779588e-05,
      "loss": 0.4785,
      "step": 13829,
      "task_loss": 0.6050969958305359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9212340116500854,
      "epoch": 11.69,
      "learning_rate": 1.2257357545397621e-05,
      "loss": 0.5087,
      "step": 13830,
      "task_loss": 0.48537617921829224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2764546275138855,
      "epoch": 11.69,
      "learning_rate": 1.2254226675015655e-05,
      "loss": 0.3839,
      "step": 13831,
      "task_loss": 0.26941022276878357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4880419969558716,
      "epoch": 11.69,
      "learning_rate": 1.2251095804633688e-05,
      "loss": 0.4251,
      "step": 13832,
      "task_loss": 0.5273005962371826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5885966420173645,
      "epoch": 11.69,
      "learning_rate": 1.2247964934251723e-05,
      "loss": 0.4253,
      "step": 13833,
      "task_loss": 0.7910374402999878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3442428708076477,
      "epoch": 11.69,
      "learning_rate": 1.2244834063869757e-05,
      "loss": 0.3904,
      "step": 13834,
      "task_loss": 0.24800081551074982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4312483072280884,
      "epoch": 11.69,
      "learning_rate": 1.224170319348779e-05,
      "loss": 0.558,
      "step": 13835,
      "task_loss": 0.3841242492198944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4484248757362366,
      "epoch": 11.7,
      "learning_rate": 1.2238572323105824e-05,
      "loss": 0.4342,
      "step": 13836,
      "task_loss": 1.3116505146026611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5497550964355469,
      "epoch": 11.7,
      "learning_rate": 1.2235441452723857e-05,
      "loss": 0.5364,
      "step": 13837,
      "task_loss": 1.5675450563430786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6128219366073608,
      "epoch": 11.7,
      "learning_rate": 1.223231058234189e-05,
      "loss": 0.6145,
      "step": 13838,
      "task_loss": 1.38715660572052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3168964684009552,
      "epoch": 11.7,
      "learning_rate": 1.2229179711959926e-05,
      "loss": 0.3299,
      "step": 13839,
      "task_loss": 0.6353919506072998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18186262249946594,
      "epoch": 11.7,
      "learning_rate": 1.222604884157796e-05,
      "loss": 0.4179,
      "step": 13840,
      "task_loss": 0.10946784913539886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40236276388168335,
      "epoch": 11.7,
      "learning_rate": 1.2222917971195993e-05,
      "loss": 0.5233,
      "step": 13841,
      "task_loss": 0.18518279492855072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.338421106338501,
      "epoch": 11.7,
      "learning_rate": 1.2219787100814028e-05,
      "loss": 0.3384,
      "step": 13842,
      "task_loss": 0.9385035037994385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6382277607917786,
      "epoch": 11.7,
      "learning_rate": 1.2216656230432061e-05,
      "loss": 0.4728,
      "step": 13843,
      "task_loss": 1.5686824321746826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3927868604660034,
      "epoch": 11.7,
      "learning_rate": 1.2213525360050095e-05,
      "loss": 0.4446,
      "step": 13844,
      "task_loss": 1.0716830492019653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5095841884613037,
      "epoch": 11.7,
      "learning_rate": 1.2210394489668128e-05,
      "loss": 0.4356,
      "step": 13845,
      "task_loss": 0.5720797181129456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34315788745880127,
      "epoch": 11.7,
      "learning_rate": 1.2207263619286162e-05,
      "loss": 0.4454,
      "step": 13846,
      "task_loss": 0.4894440174102783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.520668089389801,
      "epoch": 11.7,
      "learning_rate": 1.2204132748904195e-05,
      "loss": 0.4848,
      "step": 13847,
      "task_loss": 0.7416315674781799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5370751023292542,
      "epoch": 11.71,
      "learning_rate": 1.2201001878522229e-05,
      "loss": 0.4959,
      "step": 13848,
      "task_loss": 0.4330871105194092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4263536334037781,
      "epoch": 11.71,
      "learning_rate": 1.2197871008140262e-05,
      "loss": 0.5095,
      "step": 13849,
      "task_loss": 0.6180939674377441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5560932159423828,
      "epoch": 11.71,
      "learning_rate": 1.2194740137758297e-05,
      "loss": 0.4047,
      "step": 13850,
      "task_loss": 0.7519540786743164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4532046616077423,
      "epoch": 11.71,
      "learning_rate": 1.2191609267376333e-05,
      "loss": 0.6113,
      "step": 13851,
      "task_loss": 0.039424341171979904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36168038845062256,
      "epoch": 11.71,
      "learning_rate": 1.2188478396994366e-05,
      "loss": 0.5064,
      "step": 13852,
      "task_loss": 0.2566092014312744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18694233894348145,
      "epoch": 11.71,
      "learning_rate": 1.21853475266124e-05,
      "loss": 0.2917,
      "step": 13853,
      "task_loss": 0.12006955593824387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22784747183322906,
      "epoch": 11.71,
      "learning_rate": 1.2182216656230433e-05,
      "loss": 0.3949,
      "step": 13854,
      "task_loss": 0.2265239953994751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3856375515460968,
      "epoch": 11.71,
      "learning_rate": 1.2179085785848467e-05,
      "loss": 0.5483,
      "step": 13855,
      "task_loss": 1.058974266052246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3827498257160187,
      "epoch": 11.71,
      "learning_rate": 1.21759549154665e-05,
      "loss": 0.4092,
      "step": 13856,
      "task_loss": 0.916482150554657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3845829665660858,
      "epoch": 11.71,
      "learning_rate": 1.2172824045084533e-05,
      "loss": 0.4895,
      "step": 13857,
      "task_loss": 1.0446637868881226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2607157826423645,
      "epoch": 11.71,
      "learning_rate": 1.2169693174702567e-05,
      "loss": 0.4261,
      "step": 13858,
      "task_loss": 0.7747445702552795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4244752526283264,
      "epoch": 11.71,
      "learning_rate": 1.2166562304320602e-05,
      "loss": 0.4826,
      "step": 13859,
      "task_loss": 0.4488050639629364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41294237971305847,
      "epoch": 11.72,
      "learning_rate": 1.2163431433938636e-05,
      "loss": 0.6543,
      "step": 13860,
      "task_loss": 0.4131245017051697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4035091996192932,
      "epoch": 11.72,
      "learning_rate": 1.2160300563556669e-05,
      "loss": 0.4609,
      "step": 13861,
      "task_loss": 0.691680371761322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2581302523612976,
      "epoch": 11.72,
      "learning_rate": 1.2157169693174703e-05,
      "loss": 0.5011,
      "step": 13862,
      "task_loss": 0.5820341110229492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2300643026828766,
      "epoch": 11.72,
      "learning_rate": 1.2154038822792738e-05,
      "loss": 0.2949,
      "step": 13863,
      "task_loss": 0.04785415530204773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43561768531799316,
      "epoch": 11.72,
      "learning_rate": 1.2150907952410771e-05,
      "loss": 0.6235,
      "step": 13864,
      "task_loss": 0.6403368711471558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7227959632873535,
      "epoch": 11.72,
      "learning_rate": 1.2147777082028805e-05,
      "loss": 0.526,
      "step": 13865,
      "task_loss": 0.6579365134239197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45373713970184326,
      "epoch": 11.72,
      "learning_rate": 1.2144646211646838e-05,
      "loss": 0.3906,
      "step": 13866,
      "task_loss": 0.9900370836257935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4382374584674835,
      "epoch": 11.72,
      "learning_rate": 1.2141515341264872e-05,
      "loss": 0.4438,
      "step": 13867,
      "task_loss": 0.2287328541278839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33591368794441223,
      "epoch": 11.72,
      "learning_rate": 1.2138384470882907e-05,
      "loss": 0.4126,
      "step": 13868,
      "task_loss": 0.6931079030036926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4817171096801758,
      "epoch": 11.72,
      "learning_rate": 1.213525360050094e-05,
      "loss": 0.4698,
      "step": 13869,
      "task_loss": 0.527594804763794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40770357847213745,
      "epoch": 11.72,
      "learning_rate": 1.2132122730118974e-05,
      "loss": 0.365,
      "step": 13870,
      "task_loss": 1.319311261177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5092493295669556,
      "epoch": 11.72,
      "learning_rate": 1.2128991859737007e-05,
      "loss": 0.4243,
      "step": 13871,
      "task_loss": 0.8180999755859375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3063533306121826,
      "epoch": 11.73,
      "learning_rate": 1.212586098935504e-05,
      "loss": 0.2881,
      "step": 13872,
      "task_loss": 0.0993763878941536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29896026849746704,
      "epoch": 11.73,
      "learning_rate": 1.2122730118973074e-05,
      "loss": 0.5291,
      "step": 13873,
      "task_loss": 0.2798925042152405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21853424608707428,
      "epoch": 11.73,
      "learning_rate": 1.2119599248591108e-05,
      "loss": 0.3403,
      "step": 13874,
      "task_loss": 0.021210990846157074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338377356529236,
      "epoch": 11.73,
      "learning_rate": 1.2116468378209143e-05,
      "loss": 0.4658,
      "step": 13875,
      "task_loss": 0.8526037931442261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.597014844417572,
      "epoch": 11.73,
      "learning_rate": 1.2113337507827176e-05,
      "loss": 0.4913,
      "step": 13876,
      "task_loss": 0.36987918615341187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42443040013313293,
      "epoch": 11.73,
      "learning_rate": 1.2110206637445211e-05,
      "loss": 0.3595,
      "step": 13877,
      "task_loss": 0.27027183771133423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43069687485694885,
      "epoch": 11.73,
      "learning_rate": 1.2107075767063245e-05,
      "loss": 0.4265,
      "step": 13878,
      "task_loss": 0.22988125681877136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41738182306289673,
      "epoch": 11.73,
      "learning_rate": 1.2103944896681278e-05,
      "loss": 0.4329,
      "step": 13879,
      "task_loss": 1.1797202825546265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6630719900131226,
      "epoch": 11.73,
      "learning_rate": 1.2100814026299312e-05,
      "loss": 0.438,
      "step": 13880,
      "task_loss": 0.49728259444236755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5223828554153442,
      "epoch": 11.73,
      "learning_rate": 1.2097683155917345e-05,
      "loss": 0.6017,
      "step": 13881,
      "task_loss": 0.8540897369384766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5686228275299072,
      "epoch": 11.73,
      "learning_rate": 1.2094552285535379e-05,
      "loss": 0.4873,
      "step": 13882,
      "task_loss": 0.7001005411148071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4876648485660553,
      "epoch": 11.73,
      "learning_rate": 1.2091421415153412e-05,
      "loss": 0.4007,
      "step": 13883,
      "task_loss": 0.39440834522247314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4159260392189026,
      "epoch": 11.74,
      "learning_rate": 1.2088290544771447e-05,
      "loss": 0.6267,
      "step": 13884,
      "task_loss": 1.179342269897461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41571056842803955,
      "epoch": 11.74,
      "learning_rate": 1.2085159674389481e-05,
      "loss": 0.411,
      "step": 13885,
      "task_loss": 0.5380693674087524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6702549457550049,
      "epoch": 11.74,
      "learning_rate": 1.2082028804007514e-05,
      "loss": 0.4997,
      "step": 13886,
      "task_loss": 1.028802752494812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6487961411476135,
      "epoch": 11.74,
      "learning_rate": 1.2078897933625548e-05,
      "loss": 0.5145,
      "step": 13887,
      "task_loss": 0.8573175668716431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5972914099693298,
      "epoch": 11.74,
      "learning_rate": 1.2075767063243583e-05,
      "loss": 0.555,
      "step": 13888,
      "task_loss": 0.5808204412460327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4997016191482544,
      "epoch": 11.74,
      "learning_rate": 1.2072636192861617e-05,
      "loss": 0.5401,
      "step": 13889,
      "task_loss": 0.6227388978004456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5588910579681396,
      "epoch": 11.74,
      "learning_rate": 1.206950532247965e-05,
      "loss": 0.4862,
      "step": 13890,
      "task_loss": 0.9969218373298645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42395341396331787,
      "epoch": 11.74,
      "learning_rate": 1.2066374452097684e-05,
      "loss": 0.4981,
      "step": 13891,
      "task_loss": 0.3305291533470154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3777437210083008,
      "epoch": 11.74,
      "learning_rate": 1.2063243581715717e-05,
      "loss": 0.3685,
      "step": 13892,
      "task_loss": 0.17135664820671082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28818026185035706,
      "epoch": 11.74,
      "learning_rate": 1.2060112711333752e-05,
      "loss": 0.4458,
      "step": 13893,
      "task_loss": 0.1307392120361328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24682079255580902,
      "epoch": 11.74,
      "learning_rate": 1.2056981840951786e-05,
      "loss": 0.3803,
      "step": 13894,
      "task_loss": 0.7261713743209839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8117759227752686,
      "epoch": 11.75,
      "learning_rate": 1.2053850970569819e-05,
      "loss": 0.5259,
      "step": 13895,
      "task_loss": 1.265139102935791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47725221514701843,
      "epoch": 11.75,
      "learning_rate": 1.2050720100187853e-05,
      "loss": 0.3803,
      "step": 13896,
      "task_loss": 0.8386959433555603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8365530967712402,
      "epoch": 11.75,
      "learning_rate": 1.2047589229805886e-05,
      "loss": 0.6026,
      "step": 13897,
      "task_loss": 1.0320807695388794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34286612272262573,
      "epoch": 11.75,
      "learning_rate": 1.204445835942392e-05,
      "loss": 0.4421,
      "step": 13898,
      "task_loss": 0.9136995673179626
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45925605297088623,
      "epoch": 11.75,
      "learning_rate": 1.2041327489041953e-05,
      "loss": 0.6769,
      "step": 13899,
      "task_loss": 0.9197911024093628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5562574863433838,
      "epoch": 11.75,
      "learning_rate": 1.2038196618659988e-05,
      "loss": 0.538,
      "step": 13900,
      "task_loss": 1.74964439868927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5318293571472168,
      "epoch": 11.75,
      "learning_rate": 1.2035065748278022e-05,
      "loss": 0.4549,
      "step": 13901,
      "task_loss": 0.5083686113357544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4743778109550476,
      "epoch": 11.75,
      "learning_rate": 1.2031934877896057e-05,
      "loss": 0.4877,
      "step": 13902,
      "task_loss": 0.824667751789093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5597249269485474,
      "epoch": 11.75,
      "learning_rate": 1.202880400751409e-05,
      "loss": 0.4296,
      "step": 13903,
      "task_loss": 0.11213166266679764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5159629583358765,
      "epoch": 11.75,
      "learning_rate": 1.2025673137132124e-05,
      "loss": 0.5193,
      "step": 13904,
      "task_loss": 0.28777608275413513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34535402059555054,
      "epoch": 11.75,
      "learning_rate": 1.2022542266750157e-05,
      "loss": 0.4365,
      "step": 13905,
      "task_loss": 0.0393868125975132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3955748677253723,
      "epoch": 11.75,
      "learning_rate": 1.201941139636819e-05,
      "loss": 0.3539,
      "step": 13906,
      "task_loss": 0.23713675141334534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31871840357780457,
      "epoch": 11.76,
      "learning_rate": 1.2016280525986224e-05,
      "loss": 0.3265,
      "step": 13907,
      "task_loss": 0.06253989040851593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5991958379745483,
      "epoch": 11.76,
      "learning_rate": 1.2013149655604258e-05,
      "loss": 0.4331,
      "step": 13908,
      "task_loss": 0.2855033874511719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38452762365341187,
      "epoch": 11.76,
      "learning_rate": 1.2010018785222293e-05,
      "loss": 0.4674,
      "step": 13909,
      "task_loss": 0.5138195753097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6102333068847656,
      "epoch": 11.76,
      "learning_rate": 1.2006887914840326e-05,
      "loss": 0.6032,
      "step": 13910,
      "task_loss": 1.1887003183364868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503163933753967,
      "epoch": 11.76,
      "learning_rate": 1.200375704445836e-05,
      "loss": 0.4585,
      "step": 13911,
      "task_loss": 1.5210247039794922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35403549671173096,
      "epoch": 11.76,
      "learning_rate": 1.2000626174076395e-05,
      "loss": 0.4718,
      "step": 13912,
      "task_loss": 0.19018006324768066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4327998757362366,
      "epoch": 11.76,
      "learning_rate": 1.1997495303694428e-05,
      "loss": 0.5517,
      "step": 13913,
      "task_loss": 0.6924914121627808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3092600405216217,
      "epoch": 11.76,
      "learning_rate": 1.1994364433312462e-05,
      "loss": 0.4704,
      "step": 13914,
      "task_loss": 0.2582423686981201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4062391221523285,
      "epoch": 11.76,
      "learning_rate": 1.1991233562930495e-05,
      "loss": 0.6338,
      "step": 13915,
      "task_loss": 0.8345068097114563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4299857020378113,
      "epoch": 11.76,
      "learning_rate": 1.1988102692548529e-05,
      "loss": 0.4095,
      "step": 13916,
      "task_loss": 0.38023754954338074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6186404824256897,
      "epoch": 11.76,
      "learning_rate": 1.1984971822166562e-05,
      "loss": 0.5427,
      "step": 13917,
      "task_loss": 0.8247162699699402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34560903906822205,
      "epoch": 11.76,
      "learning_rate": 1.1981840951784598e-05,
      "loss": 0.4784,
      "step": 13918,
      "task_loss": 0.8315048217773438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4292099177837372,
      "epoch": 11.77,
      "learning_rate": 1.1978710081402631e-05,
      "loss": 0.4671,
      "step": 13919,
      "task_loss": 0.3724275827407837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7199612259864807,
      "epoch": 11.77,
      "learning_rate": 1.1975579211020664e-05,
      "loss": 0.4681,
      "step": 13920,
      "task_loss": 0.7798829078674316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29945626854896545,
      "epoch": 11.77,
      "learning_rate": 1.1972448340638698e-05,
      "loss": 0.5669,
      "step": 13921,
      "task_loss": 0.689639687538147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30643463134765625,
      "epoch": 11.77,
      "learning_rate": 1.1969317470256731e-05,
      "loss": 0.4925,
      "step": 13922,
      "task_loss": 0.777299165725708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38155579566955566,
      "epoch": 11.77,
      "learning_rate": 1.1966186599874765e-05,
      "loss": 0.4769,
      "step": 13923,
      "task_loss": 0.9853657484054565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7773825526237488,
      "epoch": 11.77,
      "learning_rate": 1.1963055729492798e-05,
      "loss": 0.5649,
      "step": 13924,
      "task_loss": 1.4552476406097412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35829004645347595,
      "epoch": 11.77,
      "learning_rate": 1.1959924859110834e-05,
      "loss": 0.4218,
      "step": 13925,
      "task_loss": 0.3208982050418854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4433589279651642,
      "epoch": 11.77,
      "learning_rate": 1.1956793988728867e-05,
      "loss": 0.5135,
      "step": 13926,
      "task_loss": 1.1635481119155884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4143015444278717,
      "epoch": 11.77,
      "learning_rate": 1.1953663118346902e-05,
      "loss": 0.3739,
      "step": 13927,
      "task_loss": 0.26161107420921326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5448620319366455,
      "epoch": 11.77,
      "learning_rate": 1.1950532247964936e-05,
      "loss": 0.5655,
      "step": 13928,
      "task_loss": 0.6255455017089844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2765699326992035,
      "epoch": 11.77,
      "learning_rate": 1.1947401377582969e-05,
      "loss": 0.519,
      "step": 13929,
      "task_loss": 0.4527423083782196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44019198417663574,
      "epoch": 11.77,
      "learning_rate": 1.1944270507201003e-05,
      "loss": 0.527,
      "step": 13930,
      "task_loss": 1.0196959972381592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3673984706401825,
      "epoch": 11.78,
      "learning_rate": 1.1941139636819036e-05,
      "loss": 0.521,
      "step": 13931,
      "task_loss": 0.3832041025161743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48783382773399353,
      "epoch": 11.78,
      "learning_rate": 1.193800876643707e-05,
      "loss": 0.5036,
      "step": 13932,
      "task_loss": 0.3114665150642395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5148577690124512,
      "epoch": 11.78,
      "learning_rate": 1.1934877896055103e-05,
      "loss": 0.4795,
      "step": 13933,
      "task_loss": 0.27301663160324097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5588634610176086,
      "epoch": 11.78,
      "learning_rate": 1.1931747025673137e-05,
      "loss": 0.5924,
      "step": 13934,
      "task_loss": 0.6382935643196106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6912541389465332,
      "epoch": 11.78,
      "learning_rate": 1.1928616155291172e-05,
      "loss": 0.5509,
      "step": 13935,
      "task_loss": 1.2222201824188232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35264843702316284,
      "epoch": 11.78,
      "learning_rate": 1.1925485284909205e-05,
      "loss": 0.4359,
      "step": 13936,
      "task_loss": 0.6652204394340515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4856625497341156,
      "epoch": 11.78,
      "learning_rate": 1.192235441452724e-05,
      "loss": 0.5912,
      "step": 13937,
      "task_loss": 0.28888100385665894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2990935444831848,
      "epoch": 11.78,
      "learning_rate": 1.1919223544145274e-05,
      "loss": 0.4758,
      "step": 13938,
      "task_loss": 0.8539230227470398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31274494528770447,
      "epoch": 11.78,
      "learning_rate": 1.1916092673763307e-05,
      "loss": 0.43,
      "step": 13939,
      "task_loss": 0.9009300470352173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.59138423204422,
      "epoch": 11.78,
      "learning_rate": 1.191296180338134e-05,
      "loss": 0.3766,
      "step": 13940,
      "task_loss": 0.9478199481964111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.297981321811676,
      "epoch": 11.78,
      "learning_rate": 1.1909830932999374e-05,
      "loss": 0.437,
      "step": 13941,
      "task_loss": 0.4698110520839691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.307521253824234,
      "epoch": 11.78,
      "learning_rate": 1.1906700062617408e-05,
      "loss": 0.4254,
      "step": 13942,
      "task_loss": 1.1273869276046753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4318426847457886,
      "epoch": 11.79,
      "learning_rate": 1.1903569192235441e-05,
      "loss": 0.3699,
      "step": 13943,
      "task_loss": 0.46588990092277527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45096760988235474,
      "epoch": 11.79,
      "learning_rate": 1.1900438321853476e-05,
      "loss": 0.5934,
      "step": 13944,
      "task_loss": 1.568630337715149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6491484045982361,
      "epoch": 11.79,
      "learning_rate": 1.189730745147151e-05,
      "loss": 0.5202,
      "step": 13945,
      "task_loss": 0.9707975387573242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2859615683555603,
      "epoch": 11.79,
      "learning_rate": 1.1894176581089543e-05,
      "loss": 0.3647,
      "step": 13946,
      "task_loss": 1.473409652709961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7490450143814087,
      "epoch": 11.79,
      "learning_rate": 1.1891045710707577e-05,
      "loss": 0.6943,
      "step": 13947,
      "task_loss": 0.7653852105140686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45613202452659607,
      "epoch": 11.79,
      "learning_rate": 1.188791484032561e-05,
      "loss": 0.4883,
      "step": 13948,
      "task_loss": 1.1889101266860962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27323949337005615,
      "epoch": 11.79,
      "learning_rate": 1.1884783969943645e-05,
      "loss": 0.3905,
      "step": 13949,
      "task_loss": 0.4686676859855652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3274701237678528,
      "epoch": 11.79,
      "learning_rate": 1.1881653099561679e-05,
      "loss": 0.532,
      "step": 13950,
      "task_loss": 0.3747076094150543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7757526636123657,
      "epoch": 11.79,
      "learning_rate": 1.1878522229179712e-05,
      "loss": 0.6148,
      "step": 13951,
      "task_loss": 0.7370638847351074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5251644849777222,
      "epoch": 11.79,
      "learning_rate": 1.1875391358797746e-05,
      "loss": 0.6205,
      "step": 13952,
      "task_loss": 0.9291985034942627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24128352105617523,
      "epoch": 11.79,
      "learning_rate": 1.1872260488415781e-05,
      "loss": 0.4322,
      "step": 13953,
      "task_loss": 0.03339387848973274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3582671582698822,
      "epoch": 11.79,
      "learning_rate": 1.1869129618033814e-05,
      "loss": 0.4241,
      "step": 13954,
      "task_loss": 0.15625078976154327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41452616453170776,
      "epoch": 11.8,
      "learning_rate": 1.1865998747651848e-05,
      "loss": 0.4432,
      "step": 13955,
      "task_loss": 0.4338703751564026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42857441306114197,
      "epoch": 11.8,
      "learning_rate": 1.1862867877269881e-05,
      "loss": 0.5498,
      "step": 13956,
      "task_loss": 0.6705812811851501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009704828262329,
      "epoch": 11.8,
      "learning_rate": 1.1859737006887915e-05,
      "loss": 0.456,
      "step": 13957,
      "task_loss": 0.4653222858905792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25550609827041626,
      "epoch": 11.8,
      "learning_rate": 1.1856606136505948e-05,
      "loss": 0.3472,
      "step": 13958,
      "task_loss": 0.07959931343793869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32638683915138245,
      "epoch": 11.8,
      "learning_rate": 1.1853475266123982e-05,
      "loss": 0.4134,
      "step": 13959,
      "task_loss": 0.5895489454269409
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.722497820854187,
      "epoch": 11.8,
      "learning_rate": 1.1850344395742017e-05,
      "loss": 0.5042,
      "step": 13960,
      "task_loss": 1.0834909677505493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28093060851097107,
      "epoch": 11.8,
      "learning_rate": 1.184721352536005e-05,
      "loss": 0.3939,
      "step": 13961,
      "task_loss": 0.6349290013313293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49037885665893555,
      "epoch": 11.8,
      "learning_rate": 1.1844082654978086e-05,
      "loss": 0.4823,
      "step": 13962,
      "task_loss": 0.9877067804336548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24340464174747467,
      "epoch": 11.8,
      "learning_rate": 1.1840951784596119e-05,
      "loss": 0.3907,
      "step": 13963,
      "task_loss": 0.6519643664360046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3399897813796997,
      "epoch": 11.8,
      "learning_rate": 1.1837820914214153e-05,
      "loss": 0.5869,
      "step": 13964,
      "task_loss": 1.7274887561798096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5704013109207153,
      "epoch": 11.8,
      "learning_rate": 1.1834690043832186e-05,
      "loss": 0.6337,
      "step": 13965,
      "task_loss": 0.2406664490699768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4421725869178772,
      "epoch": 11.81,
      "learning_rate": 1.183155917345022e-05,
      "loss": 0.4998,
      "step": 13966,
      "task_loss": 0.6302717328071594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30418914556503296,
      "epoch": 11.81,
      "learning_rate": 1.1828428303068253e-05,
      "loss": 0.4325,
      "step": 13967,
      "task_loss": 0.6394633650779724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40227261185646057,
      "epoch": 11.81,
      "learning_rate": 1.1825297432686287e-05,
      "loss": 0.484,
      "step": 13968,
      "task_loss": 0.469608336687088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6458826065063477,
      "epoch": 11.81,
      "learning_rate": 1.1822166562304322e-05,
      "loss": 0.4375,
      "step": 13969,
      "task_loss": 0.9548981785774231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20289722084999084,
      "epoch": 11.81,
      "learning_rate": 1.1819035691922355e-05,
      "loss": 0.3956,
      "step": 13970,
      "task_loss": 0.036941055208444595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3144903779029846,
      "epoch": 11.81,
      "learning_rate": 1.1815904821540389e-05,
      "loss": 0.4563,
      "step": 13971,
      "task_loss": 1.0453948974609375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4973679482936859,
      "epoch": 11.81,
      "learning_rate": 1.1812773951158422e-05,
      "loss": 0.4547,
      "step": 13972,
      "task_loss": 0.4114377796649933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38808587193489075,
      "epoch": 11.81,
      "learning_rate": 1.1809643080776456e-05,
      "loss": 0.362,
      "step": 13973,
      "task_loss": 0.16717009246349335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31845739483833313,
      "epoch": 11.81,
      "learning_rate": 1.180651221039449e-05,
      "loss": 0.5585,
      "step": 13974,
      "task_loss": 0.37266355752944946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4974393844604492,
      "epoch": 11.81,
      "learning_rate": 1.1803381340012524e-05,
      "loss": 0.4254,
      "step": 13975,
      "task_loss": 0.7900385856628418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5425271391868591,
      "epoch": 11.81,
      "learning_rate": 1.1800250469630558e-05,
      "loss": 0.4985,
      "step": 13976,
      "task_loss": 1.0963484048843384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31990891695022583,
      "epoch": 11.81,
      "learning_rate": 1.1797119599248591e-05,
      "loss": 0.395,
      "step": 13977,
      "task_loss": 0.3066284656524658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45746299624443054,
      "epoch": 11.82,
      "learning_rate": 1.1793988728866626e-05,
      "loss": 0.5664,
      "step": 13978,
      "task_loss": 0.5430468916893005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4387495517730713,
      "epoch": 11.82,
      "learning_rate": 1.179085785848466e-05,
      "loss": 0.4245,
      "step": 13979,
      "task_loss": 0.4662114679813385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24414831399917603,
      "epoch": 11.82,
      "learning_rate": 1.1787726988102693e-05,
      "loss": 0.5182,
      "step": 13980,
      "task_loss": 0.10932820290327072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6469959020614624,
      "epoch": 11.82,
      "learning_rate": 1.1784596117720727e-05,
      "loss": 0.6643,
      "step": 13981,
      "task_loss": 0.5737144351005554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3455977141857147,
      "epoch": 11.82,
      "learning_rate": 1.178146524733876e-05,
      "loss": 0.3911,
      "step": 13982,
      "task_loss": 0.6300783157348633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6631691455841064,
      "epoch": 11.82,
      "learning_rate": 1.1778334376956794e-05,
      "loss": 0.5564,
      "step": 13983,
      "task_loss": 0.6978567838668823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.795154333114624,
      "epoch": 11.82,
      "learning_rate": 1.1775203506574827e-05,
      "loss": 0.4698,
      "step": 13984,
      "task_loss": 0.9801595211029053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5166429281234741,
      "epoch": 11.82,
      "learning_rate": 1.1772072636192862e-05,
      "loss": 0.4414,
      "step": 13985,
      "task_loss": 0.40820232033729553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4005280137062073,
      "epoch": 11.82,
      "learning_rate": 1.1768941765810896e-05,
      "loss": 0.5462,
      "step": 13986,
      "task_loss": 0.6596273183822632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15090125799179077,
      "epoch": 11.82,
      "learning_rate": 1.1765810895428931e-05,
      "loss": 0.3371,
      "step": 13987,
      "task_loss": 0.14372165501117706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45632338523864746,
      "epoch": 11.82,
      "learning_rate": 1.1762680025046964e-05,
      "loss": 0.4961,
      "step": 13988,
      "task_loss": 0.40311405062675476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36816900968551636,
      "epoch": 11.82,
      "learning_rate": 1.1759549154664998e-05,
      "loss": 0.4057,
      "step": 13989,
      "task_loss": 1.3861839771270752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4582993984222412,
      "epoch": 11.83,
      "learning_rate": 1.1756418284283031e-05,
      "loss": 0.5795,
      "step": 13990,
      "task_loss": 0.6080071926116943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2042461633682251,
      "epoch": 11.83,
      "learning_rate": 1.1753287413901065e-05,
      "loss": 0.336,
      "step": 13991,
      "task_loss": 0.11398528516292572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36488282680511475,
      "epoch": 11.83,
      "learning_rate": 1.1750156543519098e-05,
      "loss": 0.3687,
      "step": 13992,
      "task_loss": 1.0075286626815796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2521618604660034,
      "epoch": 11.83,
      "learning_rate": 1.1747025673137132e-05,
      "loss": 0.4582,
      "step": 13993,
      "task_loss": 0.48524606227874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.51270592212677,
      "epoch": 11.83,
      "learning_rate": 1.1743894802755167e-05,
      "loss": 0.5503,
      "step": 13994,
      "task_loss": 0.7299681901931763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26144111156463623,
      "epoch": 11.83,
      "learning_rate": 1.17407639323732e-05,
      "loss": 0.3119,
      "step": 13995,
      "task_loss": 0.1628972589969635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5413733124732971,
      "epoch": 11.83,
      "learning_rate": 1.1737633061991234e-05,
      "loss": 0.625,
      "step": 13996,
      "task_loss": 1.1651688814163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31762173771858215,
      "epoch": 11.83,
      "learning_rate": 1.1734502191609267e-05,
      "loss": 0.6004,
      "step": 13997,
      "task_loss": 0.17223963141441345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3131852447986603,
      "epoch": 11.83,
      "learning_rate": 1.1731371321227303e-05,
      "loss": 0.3852,
      "step": 13998,
      "task_loss": 0.30565887689590454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3040185272693634,
      "epoch": 11.83,
      "learning_rate": 1.1728240450845336e-05,
      "loss": 0.4121,
      "step": 13999,
      "task_loss": 0.6262569427490234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49200451374053955,
      "epoch": 11.83,
      "learning_rate": 1.172510958046337e-05,
      "loss": 0.6012,
      "step": 14000,
      "task_loss": 1.0382100343704224
    },
    {
      "epoch": 11.83,
      "eval_accuracy": 0.9097821782178218,
      "eval_loss": 0.3291562497615814,
      "eval_runtime": 207.2706,
      "eval_samples_per_second": 121.821,
      "eval_steps_per_second": 0.955,
      "step": 14000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36988604068756104,
      "epoch": 11.83,
      "learning_rate": 1.1721978710081403e-05,
      "loss": 0.4126,
      "step": 14001,
      "task_loss": 0.4264497458934784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5047324299812317,
      "epoch": 11.84,
      "learning_rate": 1.1718847839699437e-05,
      "loss": 0.539,
      "step": 14002,
      "task_loss": 0.6658588647842407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7970152497291565,
      "epoch": 11.84,
      "learning_rate": 1.1715716969317472e-05,
      "loss": 0.6447,
      "step": 14003,
      "task_loss": 1.0266387462615967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36648714542388916,
      "epoch": 11.84,
      "learning_rate": 1.1712586098935505e-05,
      "loss": 0.4795,
      "step": 14004,
      "task_loss": 0.5952311158180237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3915730118751526,
      "epoch": 11.84,
      "learning_rate": 1.1709455228553539e-05,
      "loss": 0.4973,
      "step": 14005,
      "task_loss": 1.0708293914794922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3757440149784088,
      "epoch": 11.84,
      "learning_rate": 1.1706324358171572e-05,
      "loss": 0.3742,
      "step": 14006,
      "task_loss": 0.2606291174888611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48679596185684204,
      "epoch": 11.84,
      "learning_rate": 1.1703193487789606e-05,
      "loss": 0.4822,
      "step": 14007,
      "task_loss": 0.5096094012260437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5356853008270264,
      "epoch": 11.84,
      "learning_rate": 1.1700062617407639e-05,
      "loss": 0.5712,
      "step": 14008,
      "task_loss": 0.7086843252182007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22284510731697083,
      "epoch": 11.84,
      "learning_rate": 1.1696931747025673e-05,
      "loss": 0.2887,
      "step": 14009,
      "task_loss": 0.2751060128211975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4761136770248413,
      "epoch": 11.84,
      "learning_rate": 1.1693800876643706e-05,
      "loss": 0.3357,
      "step": 14010,
      "task_loss": 0.4624575078487396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7031955122947693,
      "epoch": 11.84,
      "learning_rate": 1.1690670006261741e-05,
      "loss": 0.5791,
      "step": 14011,
      "task_loss": 0.5384601354598999
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5501011610031128,
      "epoch": 11.84,
      "learning_rate": 1.1687539135879776e-05,
      "loss": 0.5065,
      "step": 14012,
      "task_loss": 0.2626993656158447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2349933683872223,
      "epoch": 11.84,
      "learning_rate": 1.168440826549781e-05,
      "loss": 0.3209,
      "step": 14013,
      "task_loss": 0.056062664836645126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45518815517425537,
      "epoch": 11.85,
      "learning_rate": 1.1681277395115843e-05,
      "loss": 0.393,
      "step": 14014,
      "task_loss": 0.31936323642730713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4743463397026062,
      "epoch": 11.85,
      "learning_rate": 1.1678146524733877e-05,
      "loss": 0.4533,
      "step": 14015,
      "task_loss": 0.3311441242694855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3786928057670593,
      "epoch": 11.85,
      "learning_rate": 1.167501565435191e-05,
      "loss": 0.5042,
      "step": 14016,
      "task_loss": 0.46500298380851746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.373269259929657,
      "epoch": 11.85,
      "learning_rate": 1.1671884783969944e-05,
      "loss": 0.4352,
      "step": 14017,
      "task_loss": 0.499997079372406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2642863988876343,
      "epoch": 11.85,
      "learning_rate": 1.1668753913587977e-05,
      "loss": 0.4346,
      "step": 14018,
      "task_loss": 0.039312850683927536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2834063768386841,
      "epoch": 11.85,
      "learning_rate": 1.166562304320601e-05,
      "loss": 0.44,
      "step": 14019,
      "task_loss": 0.433743417263031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2561429738998413,
      "epoch": 11.85,
      "learning_rate": 1.1662492172824046e-05,
      "loss": 0.5052,
      "step": 14020,
      "task_loss": 0.23510313034057617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6617315411567688,
      "epoch": 11.85,
      "learning_rate": 1.165936130244208e-05,
      "loss": 0.6123,
      "step": 14021,
      "task_loss": 1.214451551437378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5458118319511414,
      "epoch": 11.85,
      "learning_rate": 1.1656230432060113e-05,
      "loss": 0.494,
      "step": 14022,
      "task_loss": 0.5987029075622559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4722503423690796,
      "epoch": 11.85,
      "learning_rate": 1.1653099561678148e-05,
      "loss": 0.6452,
      "step": 14023,
      "task_loss": 0.6522718667984009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18496039509773254,
      "epoch": 11.85,
      "learning_rate": 1.1649968691296181e-05,
      "loss": 0.4464,
      "step": 14024,
      "task_loss": 0.6499797105789185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3858136534690857,
      "epoch": 11.85,
      "learning_rate": 1.1646837820914215e-05,
      "loss": 0.4073,
      "step": 14025,
      "task_loss": 0.9590620994567871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.650253176689148,
      "epoch": 11.86,
      "learning_rate": 1.1643706950532248e-05,
      "loss": 0.5611,
      "step": 14026,
      "task_loss": 1.1371558904647827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49508360028266907,
      "epoch": 11.86,
      "learning_rate": 1.1640576080150282e-05,
      "loss": 0.4656,
      "step": 14027,
      "task_loss": 0.9843572974205017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38444602489471436,
      "epoch": 11.86,
      "learning_rate": 1.1637445209768315e-05,
      "loss": 0.4159,
      "step": 14028,
      "task_loss": 0.42650097608566284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4180159568786621,
      "epoch": 11.86,
      "learning_rate": 1.163431433938635e-05,
      "loss": 0.5403,
      "step": 14029,
      "task_loss": 0.4297528564929962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4049866795539856,
      "epoch": 11.86,
      "learning_rate": 1.1631183469004384e-05,
      "loss": 0.3773,
      "step": 14030,
      "task_loss": 0.1919286698102951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.856109619140625,
      "epoch": 11.86,
      "learning_rate": 1.1628052598622417e-05,
      "loss": 0.4593,
      "step": 14031,
      "task_loss": 0.9286243915557861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3103421926498413,
      "epoch": 11.86,
      "learning_rate": 1.1624921728240451e-05,
      "loss": 0.4097,
      "step": 14032,
      "task_loss": 0.4595620036125183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28251123428344727,
      "epoch": 11.86,
      "learning_rate": 1.1621790857858484e-05,
      "loss": 0.3904,
      "step": 14033,
      "task_loss": 0.3389819264411926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5093796253204346,
      "epoch": 11.86,
      "learning_rate": 1.1618659987476518e-05,
      "loss": 0.4014,
      "step": 14034,
      "task_loss": 0.5741698741912842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49712705612182617,
      "epoch": 11.86,
      "learning_rate": 1.1615529117094553e-05,
      "loss": 0.4912,
      "step": 14035,
      "task_loss": 1.1505131721496582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4721943438053131,
      "epoch": 11.86,
      "learning_rate": 1.1612398246712587e-05,
      "loss": 0.4194,
      "step": 14036,
      "task_loss": 0.9146241545677185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6987203359603882,
      "epoch": 11.87,
      "learning_rate": 1.1609267376330622e-05,
      "loss": 0.5273,
      "step": 14037,
      "task_loss": 1.193362832069397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.273027241230011,
      "epoch": 11.87,
      "learning_rate": 1.1606136505948655e-05,
      "loss": 0.4405,
      "step": 14038,
      "task_loss": 0.42888548970222473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4962064027786255,
      "epoch": 11.87,
      "learning_rate": 1.1603005635566689e-05,
      "loss": 0.3191,
      "step": 14039,
      "task_loss": 0.9126311540603638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3754996061325073,
      "epoch": 11.87,
      "learning_rate": 1.1599874765184722e-05,
      "loss": 0.542,
      "step": 14040,
      "task_loss": 0.18579426407814026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8182848691940308,
      "epoch": 11.87,
      "learning_rate": 1.1596743894802756e-05,
      "loss": 0.5494,
      "step": 14041,
      "task_loss": 0.8670841455459595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45521676540374756,
      "epoch": 11.87,
      "learning_rate": 1.1593613024420789e-05,
      "loss": 0.5056,
      "step": 14042,
      "task_loss": 0.6519986391067505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4083189368247986,
      "epoch": 11.87,
      "learning_rate": 1.1590482154038823e-05,
      "loss": 0.4148,
      "step": 14043,
      "task_loss": 0.659054160118103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5607189536094666,
      "epoch": 11.87,
      "learning_rate": 1.1587351283656856e-05,
      "loss": 0.5363,
      "step": 14044,
      "task_loss": 0.6876751184463501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8408393263816833,
      "epoch": 11.87,
      "learning_rate": 1.1584220413274891e-05,
      "loss": 0.5465,
      "step": 14045,
      "task_loss": 1.0970438718795776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3333359956741333,
      "epoch": 11.87,
      "learning_rate": 1.1581089542892925e-05,
      "loss": 0.4971,
      "step": 14046,
      "task_loss": 0.8457790017127991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3314821124076843,
      "epoch": 11.87,
      "learning_rate": 1.157795867251096e-05,
      "loss": 0.4817,
      "step": 14047,
      "task_loss": 0.41477149724960327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7074357271194458,
      "epoch": 11.87,
      "learning_rate": 1.1574827802128993e-05,
      "loss": 0.4894,
      "step": 14048,
      "task_loss": 0.7824748158454895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4945370554924011,
      "epoch": 11.88,
      "learning_rate": 1.1571696931747027e-05,
      "loss": 0.4537,
      "step": 14049,
      "task_loss": 0.7856977581977844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4940529465675354,
      "epoch": 11.88,
      "learning_rate": 1.156856606136506e-05,
      "loss": 0.5635,
      "step": 14050,
      "task_loss": 0.4830300807952881
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26314932107925415,
      "epoch": 11.88,
      "learning_rate": 1.1565435190983094e-05,
      "loss": 0.4782,
      "step": 14051,
      "task_loss": 0.41673988103866577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38853520154953003,
      "epoch": 11.88,
      "learning_rate": 1.1562304320601127e-05,
      "loss": 0.4645,
      "step": 14052,
      "task_loss": 0.9197804927825928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6032255291938782,
      "epoch": 11.88,
      "learning_rate": 1.155917345021916e-05,
      "loss": 0.4814,
      "step": 14053,
      "task_loss": 0.8620644807815552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45145073533058167,
      "epoch": 11.88,
      "learning_rate": 1.1556042579837196e-05,
      "loss": 0.4785,
      "step": 14054,
      "task_loss": 0.8316320776939392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33597099781036377,
      "epoch": 11.88,
      "learning_rate": 1.155291170945523e-05,
      "loss": 0.6109,
      "step": 14055,
      "task_loss": 1.0436949729919434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45589157938957214,
      "epoch": 11.88,
      "learning_rate": 1.1549780839073263e-05,
      "loss": 0.4049,
      "step": 14056,
      "task_loss": 1.1274335384368896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6043757796287537,
      "epoch": 11.88,
      "learning_rate": 1.1546649968691296e-05,
      "loss": 0.5285,
      "step": 14057,
      "task_loss": 0.8345929980278015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4830585718154907,
      "epoch": 11.88,
      "learning_rate": 1.154351909830933e-05,
      "loss": 0.593,
      "step": 14058,
      "task_loss": 0.5890297889709473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5638519525527954,
      "epoch": 11.88,
      "learning_rate": 1.1540388227927363e-05,
      "loss": 0.4838,
      "step": 14059,
      "task_loss": 0.3602108359336853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7073821425437927,
      "epoch": 11.88,
      "learning_rate": 1.1537257357545398e-05,
      "loss": 0.6065,
      "step": 14060,
      "task_loss": 0.7667819857597351
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.511428952217102,
      "epoch": 11.89,
      "learning_rate": 1.1534126487163432e-05,
      "loss": 0.4431,
      "step": 14061,
      "task_loss": 0.7173548340797424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41919466853141785,
      "epoch": 11.89,
      "learning_rate": 1.1530995616781465e-05,
      "loss": 0.3824,
      "step": 14062,
      "task_loss": 0.5416041612625122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4081040024757385,
      "epoch": 11.89,
      "learning_rate": 1.15278647463995e-05,
      "loss": 0.4347,
      "step": 14063,
      "task_loss": 0.32869601249694824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6633526086807251,
      "epoch": 11.89,
      "learning_rate": 1.1524733876017534e-05,
      "loss": 0.4353,
      "step": 14064,
      "task_loss": 1.0592859983444214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3784102201461792,
      "epoch": 11.89,
      "learning_rate": 1.1521603005635568e-05,
      "loss": 0.4879,
      "step": 14065,
      "task_loss": 1.0409761667251587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5289937257766724,
      "epoch": 11.89,
      "learning_rate": 1.1518472135253601e-05,
      "loss": 0.4288,
      "step": 14066,
      "task_loss": 0.5802410244941711
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21067865192890167,
      "epoch": 11.89,
      "learning_rate": 1.1515341264871634e-05,
      "loss": 0.4978,
      "step": 14067,
      "task_loss": 0.04271572455763817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5309053659439087,
      "epoch": 11.89,
      "learning_rate": 1.1512210394489668e-05,
      "loss": 0.4668,
      "step": 14068,
      "task_loss": 0.8288323283195496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7960895299911499,
      "epoch": 11.89,
      "learning_rate": 1.1509079524107701e-05,
      "loss": 0.6668,
      "step": 14069,
      "task_loss": 1.0565202236175537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6170222163200378,
      "epoch": 11.89,
      "learning_rate": 1.1505948653725737e-05,
      "loss": 0.4917,
      "step": 14070,
      "task_loss": 0.31876814365386963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5530741214752197,
      "epoch": 11.89,
      "learning_rate": 1.150281778334377e-05,
      "loss": 0.4669,
      "step": 14071,
      "task_loss": 0.5652998089790344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5675452351570129,
      "epoch": 11.89,
      "learning_rate": 1.1499686912961805e-05,
      "loss": 0.4378,
      "step": 14072,
      "task_loss": 0.9236382842063904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6296908259391785,
      "epoch": 11.9,
      "learning_rate": 1.1496556042579839e-05,
      "loss": 0.501,
      "step": 14073,
      "task_loss": 1.4537047147750854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5580959916114807,
      "epoch": 11.9,
      "learning_rate": 1.1493425172197872e-05,
      "loss": 0.5425,
      "step": 14074,
      "task_loss": 0.7652212977409363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2111906111240387,
      "epoch": 11.9,
      "learning_rate": 1.1490294301815906e-05,
      "loss": 0.3853,
      "step": 14075,
      "task_loss": 0.4568442106246948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5270494222640991,
      "epoch": 11.9,
      "learning_rate": 1.1487163431433939e-05,
      "loss": 0.6097,
      "step": 14076,
      "task_loss": 1.0886327028274536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40952521562576294,
      "epoch": 11.9,
      "learning_rate": 1.1484032561051973e-05,
      "loss": 0.4987,
      "step": 14077,
      "task_loss": 0.7285313606262207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5464845895767212,
      "epoch": 11.9,
      "learning_rate": 1.1480901690670006e-05,
      "loss": 0.5292,
      "step": 14078,
      "task_loss": 1.3797963857650757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7627694606781006,
      "epoch": 11.9,
      "learning_rate": 1.1477770820288041e-05,
      "loss": 0.6032,
      "step": 14079,
      "task_loss": 0.8047756552696228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7051277160644531,
      "epoch": 11.9,
      "learning_rate": 1.1474639949906075e-05,
      "loss": 0.6448,
      "step": 14080,
      "task_loss": 0.7615541815757751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5622076392173767,
      "epoch": 11.9,
      "learning_rate": 1.1471509079524108e-05,
      "loss": 0.4618,
      "step": 14081,
      "task_loss": 0.3282923102378845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6902161836624146,
      "epoch": 11.9,
      "learning_rate": 1.1468378209142142e-05,
      "loss": 0.5626,
      "step": 14082,
      "task_loss": 0.5215178728103638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6048520803451538,
      "epoch": 11.9,
      "learning_rate": 1.1465247338760175e-05,
      "loss": 0.444,
      "step": 14083,
      "task_loss": 0.7467309236526489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5383458137512207,
      "epoch": 11.9,
      "learning_rate": 1.146211646837821e-05,
      "loss": 0.5181,
      "step": 14084,
      "task_loss": 0.11858366429805756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2856748402118683,
      "epoch": 11.91,
      "learning_rate": 1.1458985597996244e-05,
      "loss": 0.3507,
      "step": 14085,
      "task_loss": 1.2130849361419678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5324110984802246,
      "epoch": 11.91,
      "learning_rate": 1.1455854727614277e-05,
      "loss": 0.5735,
      "step": 14086,
      "task_loss": 0.4011542499065399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38787928223609924,
      "epoch": 11.91,
      "learning_rate": 1.145272385723231e-05,
      "loss": 0.5037,
      "step": 14087,
      "task_loss": 1.2993351221084595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6229820847511292,
      "epoch": 11.91,
      "learning_rate": 1.1449592986850346e-05,
      "loss": 0.5853,
      "step": 14088,
      "task_loss": 0.8061084747314453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2606625556945801,
      "epoch": 11.91,
      "learning_rate": 1.144646211646838e-05,
      "loss": 0.4773,
      "step": 14089,
      "task_loss": 0.07424473762512207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42359814047813416,
      "epoch": 11.91,
      "learning_rate": 1.1443331246086413e-05,
      "loss": 0.501,
      "step": 14090,
      "task_loss": 0.13800688087940216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3048666715621948,
      "epoch": 11.91,
      "learning_rate": 1.1440200375704446e-05,
      "loss": 0.3337,
      "step": 14091,
      "task_loss": 0.8555279970169067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46800732612609863,
      "epoch": 11.91,
      "learning_rate": 1.143706950532248e-05,
      "loss": 0.5763,
      "step": 14092,
      "task_loss": 1.6677497625350952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5930626392364502,
      "epoch": 11.91,
      "learning_rate": 1.1433938634940513e-05,
      "loss": 0.4529,
      "step": 14093,
      "task_loss": 1.2000788450241089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33532434701919556,
      "epoch": 11.91,
      "learning_rate": 1.1430807764558547e-05,
      "loss": 0.4408,
      "step": 14094,
      "task_loss": 0.42725637555122375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2988957166671753,
      "epoch": 11.91,
      "learning_rate": 1.142767689417658e-05,
      "loss": 0.4382,
      "step": 14095,
      "task_loss": 0.18539078533649445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5585975050926208,
      "epoch": 11.91,
      "learning_rate": 1.1424546023794615e-05,
      "loss": 0.4056,
      "step": 14096,
      "task_loss": 0.6409057378768921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7001733779907227,
      "epoch": 11.92,
      "learning_rate": 1.142141515341265e-05,
      "loss": 0.7904,
      "step": 14097,
      "task_loss": 0.5791674256324768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5364475846290588,
      "epoch": 11.92,
      "learning_rate": 1.1418284283030684e-05,
      "loss": 0.4435,
      "step": 14098,
      "task_loss": 0.7109691500663757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6491963863372803,
      "epoch": 11.92,
      "learning_rate": 1.1415153412648718e-05,
      "loss": 0.539,
      "step": 14099,
      "task_loss": 0.7367326021194458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5911850333213806,
      "epoch": 11.92,
      "learning_rate": 1.1412022542266751e-05,
      "loss": 0.406,
      "step": 14100,
      "task_loss": 0.5156306028366089
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49337947368621826,
      "epoch": 11.92,
      "learning_rate": 1.1408891671884784e-05,
      "loss": 0.4616,
      "step": 14101,
      "task_loss": 0.7487035989761353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43597257137298584,
      "epoch": 11.92,
      "learning_rate": 1.1405760801502818e-05,
      "loss": 0.3469,
      "step": 14102,
      "task_loss": 0.31235241889953613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.330547958612442,
      "epoch": 11.92,
      "learning_rate": 1.1402629931120851e-05,
      "loss": 0.3958,
      "step": 14103,
      "task_loss": 1.0005849599838257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3485320806503296,
      "epoch": 11.92,
      "learning_rate": 1.1399499060738885e-05,
      "loss": 0.4812,
      "step": 14104,
      "task_loss": 0.5088470578193665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2830621898174286,
      "epoch": 11.92,
      "learning_rate": 1.139636819035692e-05,
      "loss": 0.4577,
      "step": 14105,
      "task_loss": 0.2867435812950134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5078609585762024,
      "epoch": 11.92,
      "learning_rate": 1.1393237319974954e-05,
      "loss": 0.5068,
      "step": 14106,
      "task_loss": 0.38532981276512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5647274255752563,
      "epoch": 11.92,
      "learning_rate": 1.1390106449592987e-05,
      "loss": 0.4902,
      "step": 14107,
      "task_loss": 0.5578709244728088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5091791749000549,
      "epoch": 11.93,
      "learning_rate": 1.138697557921102e-05,
      "loss": 0.5267,
      "step": 14108,
      "task_loss": 0.8869589567184448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.685789942741394,
      "epoch": 11.93,
      "learning_rate": 1.1383844708829056e-05,
      "loss": 0.438,
      "step": 14109,
      "task_loss": 0.31375905871391296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42736518383026123,
      "epoch": 11.93,
      "learning_rate": 1.1380713838447089e-05,
      "loss": 0.3974,
      "step": 14110,
      "task_loss": 0.5390063524246216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4880772829055786,
      "epoch": 11.93,
      "learning_rate": 1.1377582968065123e-05,
      "loss": 0.4982,
      "step": 14111,
      "task_loss": 0.2691528797149658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5196737051010132,
      "epoch": 11.93,
      "learning_rate": 1.1374452097683156e-05,
      "loss": 0.3591,
      "step": 14112,
      "task_loss": 0.31510722637176514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29379692673683167,
      "epoch": 11.93,
      "learning_rate": 1.1371321227301191e-05,
      "loss": 0.4442,
      "step": 14113,
      "task_loss": 0.6849684715270996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4686240255832672,
      "epoch": 11.93,
      "learning_rate": 1.1368190356919225e-05,
      "loss": 0.5037,
      "step": 14114,
      "task_loss": 0.39656272530555725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28596025705337524,
      "epoch": 11.93,
      "learning_rate": 1.1365059486537258e-05,
      "loss": 0.4516,
      "step": 14115,
      "task_loss": 0.6415674686431885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3501743674278259,
      "epoch": 11.93,
      "learning_rate": 1.1361928616155292e-05,
      "loss": 0.4452,
      "step": 14116,
      "task_loss": 0.11694861948490143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34857651591300964,
      "epoch": 11.93,
      "learning_rate": 1.1358797745773325e-05,
      "loss": 0.6226,
      "step": 14117,
      "task_loss": 0.08919744938611984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.654544472694397,
      "epoch": 11.93,
      "learning_rate": 1.1355666875391359e-05,
      "loss": 0.5002,
      "step": 14118,
      "task_loss": 1.076307773590088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4778223931789398,
      "epoch": 11.93,
      "learning_rate": 1.1352536005009392e-05,
      "loss": 0.4477,
      "step": 14119,
      "task_loss": 0.483521431684494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3070007562637329,
      "epoch": 11.94,
      "learning_rate": 1.1349405134627426e-05,
      "loss": 0.425,
      "step": 14120,
      "task_loss": 0.5958427786827087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4029087424278259,
      "epoch": 11.94,
      "learning_rate": 1.134627426424546e-05,
      "loss": 0.3786,
      "step": 14121,
      "task_loss": 0.1012999415397644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21922729909420013,
      "epoch": 11.94,
      "learning_rate": 1.1343143393863496e-05,
      "loss": 0.3873,
      "step": 14122,
      "task_loss": 0.44507160782814026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48073649406433105,
      "epoch": 11.94,
      "learning_rate": 1.134001252348153e-05,
      "loss": 0.4792,
      "step": 14123,
      "task_loss": 0.6179108619689941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6126859188079834,
      "epoch": 11.94,
      "learning_rate": 1.1336881653099563e-05,
      "loss": 0.5577,
      "step": 14124,
      "task_loss": 0.40132203698158264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5327641367912292,
      "epoch": 11.94,
      "learning_rate": 1.1333750782717596e-05,
      "loss": 0.5641,
      "step": 14125,
      "task_loss": 0.5882784128189087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4086203873157501,
      "epoch": 11.94,
      "learning_rate": 1.133061991233563e-05,
      "loss": 0.3972,
      "step": 14126,
      "task_loss": 0.19627012312412262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34759262204170227,
      "epoch": 11.94,
      "learning_rate": 1.1327489041953663e-05,
      "loss": 0.4045,
      "step": 14127,
      "task_loss": 0.5331326127052307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4908328056335449,
      "epoch": 11.94,
      "learning_rate": 1.1324358171571697e-05,
      "loss": 0.4977,
      "step": 14128,
      "task_loss": 1.0184108018875122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8306559324264526,
      "epoch": 11.94,
      "learning_rate": 1.132122730118973e-05,
      "loss": 0.5929,
      "step": 14129,
      "task_loss": 0.6208680272102356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3476760685443878,
      "epoch": 11.94,
      "learning_rate": 1.1318096430807765e-05,
      "loss": 0.4368,
      "step": 14130,
      "task_loss": 0.6090332865715027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24943187832832336,
      "epoch": 11.94,
      "learning_rate": 1.1314965560425799e-05,
      "loss": 0.357,
      "step": 14131,
      "task_loss": 0.1685677319765091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5146100521087646,
      "epoch": 11.95,
      "learning_rate": 1.1311834690043832e-05,
      "loss": 0.3426,
      "step": 14132,
      "task_loss": 0.7761980295181274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30009204149246216,
      "epoch": 11.95,
      "learning_rate": 1.1308703819661868e-05,
      "loss": 0.5083,
      "step": 14133,
      "task_loss": 0.5420651435852051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6317131519317627,
      "epoch": 11.95,
      "learning_rate": 1.1305572949279901e-05,
      "loss": 0.5305,
      "step": 14134,
      "task_loss": 0.22156094014644623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6958804726600647,
      "epoch": 11.95,
      "learning_rate": 1.1302442078897934e-05,
      "loss": 0.4744,
      "step": 14135,
      "task_loss": 0.6222507953643799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3346426486968994,
      "epoch": 11.95,
      "learning_rate": 1.1299311208515968e-05,
      "loss": 0.4191,
      "step": 14136,
      "task_loss": 0.6121584177017212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3797474503517151,
      "epoch": 11.95,
      "learning_rate": 1.1296180338134001e-05,
      "loss": 0.4797,
      "step": 14137,
      "task_loss": 0.367134690284729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.551867663860321,
      "epoch": 11.95,
      "learning_rate": 1.1293049467752035e-05,
      "loss": 0.5414,
      "step": 14138,
      "task_loss": 0.9826722741127014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45689529180526733,
      "epoch": 11.95,
      "learning_rate": 1.128991859737007e-05,
      "loss": 0.4077,
      "step": 14139,
      "task_loss": 0.5176029205322266
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5585969686508179,
      "epoch": 11.95,
      "learning_rate": 1.1286787726988104e-05,
      "loss": 0.4843,
      "step": 14140,
      "task_loss": 1.7756552696228027
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5632709860801697,
      "epoch": 11.95,
      "learning_rate": 1.1283656856606137e-05,
      "loss": 0.4686,
      "step": 14141,
      "task_loss": 0.26255109906196594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.437765896320343,
      "epoch": 11.95,
      "learning_rate": 1.128052598622417e-05,
      "loss": 0.6168,
      "step": 14142,
      "task_loss": 0.528969943523407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41433876752853394,
      "epoch": 11.95,
      "learning_rate": 1.1277395115842204e-05,
      "loss": 0.4801,
      "step": 14143,
      "task_loss": 0.34797897934913635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5485647916793823,
      "epoch": 11.96,
      "learning_rate": 1.1274264245460237e-05,
      "loss": 0.4473,
      "step": 14144,
      "task_loss": 0.40979883074760437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5869049429893494,
      "epoch": 11.96,
      "learning_rate": 1.1271133375078271e-05,
      "loss": 0.4179,
      "step": 14145,
      "task_loss": 0.6739272475242615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5571236610412598,
      "epoch": 11.96,
      "learning_rate": 1.1268002504696306e-05,
      "loss": 0.5035,
      "step": 14146,
      "task_loss": 0.40978139638900757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30242735147476196,
      "epoch": 11.96,
      "learning_rate": 1.126487163431434e-05,
      "loss": 0.3561,
      "step": 14147,
      "task_loss": 0.16240473091602325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5501389503479004,
      "epoch": 11.96,
      "learning_rate": 1.1261740763932375e-05,
      "loss": 0.4749,
      "step": 14148,
      "task_loss": 1.0502768754959106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4084145426750183,
      "epoch": 11.96,
      "learning_rate": 1.1258609893550408e-05,
      "loss": 0.3452,
      "step": 14149,
      "task_loss": 0.4511638283729553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3953613042831421,
      "epoch": 11.96,
      "learning_rate": 1.1255479023168442e-05,
      "loss": 0.384,
      "step": 14150,
      "task_loss": 1.201457142829895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2616533637046814,
      "epoch": 11.96,
      "learning_rate": 1.1252348152786475e-05,
      "loss": 0.3595,
      "step": 14151,
      "task_loss": 0.13949108123779297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5346006751060486,
      "epoch": 11.96,
      "learning_rate": 1.1249217282404509e-05,
      "loss": 0.5591,
      "step": 14152,
      "task_loss": 0.9566660523414612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0577802658081055,
      "epoch": 11.96,
      "learning_rate": 1.1246086412022542e-05,
      "loss": 0.6228,
      "step": 14153,
      "task_loss": 0.6702136993408203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4979538917541504,
      "epoch": 11.96,
      "learning_rate": 1.1242955541640576e-05,
      "loss": 0.5088,
      "step": 14154,
      "task_loss": 0.6704326868057251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4179975390434265,
      "epoch": 11.96,
      "learning_rate": 1.123982467125861e-05,
      "loss": 0.5259,
      "step": 14155,
      "task_loss": 0.23027609288692474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5619025230407715,
      "epoch": 11.97,
      "learning_rate": 1.1236693800876644e-05,
      "loss": 0.4937,
      "step": 14156,
      "task_loss": 0.7528891563415527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8830852508544922,
      "epoch": 11.97,
      "learning_rate": 1.1233562930494678e-05,
      "loss": 0.6394,
      "step": 14157,
      "task_loss": 0.7761714458465576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49472489953041077,
      "epoch": 11.97,
      "learning_rate": 1.1230432060112713e-05,
      "loss": 0.4333,
      "step": 14158,
      "task_loss": 0.402646005153656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34189867973327637,
      "epoch": 11.97,
      "learning_rate": 1.1227301189730746e-05,
      "loss": 0.4843,
      "step": 14159,
      "task_loss": 0.8466321229934692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36767059564590454,
      "epoch": 11.97,
      "learning_rate": 1.122417031934878e-05,
      "loss": 0.3864,
      "step": 14160,
      "task_loss": 0.2211342751979828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5131309032440186,
      "epoch": 11.97,
      "learning_rate": 1.1221039448966813e-05,
      "loss": 0.4377,
      "step": 14161,
      "task_loss": 1.5922114849090576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3733234703540802,
      "epoch": 11.97,
      "learning_rate": 1.1217908578584847e-05,
      "loss": 0.5026,
      "step": 14162,
      "task_loss": 0.6322461366653442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8497600555419922,
      "epoch": 11.97,
      "learning_rate": 1.121477770820288e-05,
      "loss": 0.4805,
      "step": 14163,
      "task_loss": 0.6220279335975647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33336928486824036,
      "epoch": 11.97,
      "learning_rate": 1.1211646837820915e-05,
      "loss": 0.4357,
      "step": 14164,
      "task_loss": 1.4859349727630615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7664539813995361,
      "epoch": 11.97,
      "learning_rate": 1.1208515967438949e-05,
      "loss": 0.627,
      "step": 14165,
      "task_loss": 0.5557132959365845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37607890367507935,
      "epoch": 11.97,
      "learning_rate": 1.1205385097056982e-05,
      "loss": 0.5064,
      "step": 14166,
      "task_loss": 1.0498559474945068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.501200258731842,
      "epoch": 11.97,
      "learning_rate": 1.1202254226675016e-05,
      "loss": 0.3752,
      "step": 14167,
      "task_loss": 0.5042843818664551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2790474593639374,
      "epoch": 11.98,
      "learning_rate": 1.119912335629305e-05,
      "loss": 0.3516,
      "step": 14168,
      "task_loss": 0.8728694915771484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4573880732059479,
      "epoch": 11.98,
      "learning_rate": 1.1195992485911083e-05,
      "loss": 0.4232,
      "step": 14169,
      "task_loss": 0.8858767151832581
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43039435148239136,
      "epoch": 11.98,
      "learning_rate": 1.1192861615529118e-05,
      "loss": 0.4146,
      "step": 14170,
      "task_loss": 0.27731919288635254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3306029438972473,
      "epoch": 11.98,
      "learning_rate": 1.1189730745147151e-05,
      "loss": 0.3626,
      "step": 14171,
      "task_loss": 0.4907364547252655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40307170152664185,
      "epoch": 11.98,
      "learning_rate": 1.1186599874765185e-05,
      "loss": 0.4418,
      "step": 14172,
      "task_loss": 0.813574492931366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27920714020729065,
      "epoch": 11.98,
      "learning_rate": 1.118346900438322e-05,
      "loss": 0.3924,
      "step": 14173,
      "task_loss": 0.19262337684631348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45210689306259155,
      "epoch": 11.98,
      "learning_rate": 1.1180338134001254e-05,
      "loss": 0.5583,
      "step": 14174,
      "task_loss": 0.25380030274391174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.348021924495697,
      "epoch": 11.98,
      "learning_rate": 1.1177207263619287e-05,
      "loss": 0.3892,
      "step": 14175,
      "task_loss": 0.888351321220398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39710021018981934,
      "epoch": 11.98,
      "learning_rate": 1.117407639323732e-05,
      "loss": 0.3624,
      "step": 14176,
      "task_loss": 0.28361454606056213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43794405460357666,
      "epoch": 11.98,
      "learning_rate": 1.1170945522855354e-05,
      "loss": 0.6463,
      "step": 14177,
      "task_loss": 0.9212139248847961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3844129741191864,
      "epoch": 11.98,
      "learning_rate": 1.1167814652473387e-05,
      "loss": 0.3635,
      "step": 14178,
      "task_loss": 0.30763182044029236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3024844527244568,
      "epoch": 11.99,
      "learning_rate": 1.1164683782091421e-05,
      "loss": 0.4412,
      "step": 14179,
      "task_loss": 0.10105758160352707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15265776216983795,
      "epoch": 11.99,
      "learning_rate": 1.1161552911709454e-05,
      "loss": 0.4674,
      "step": 14180,
      "task_loss": 0.18544183671474457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5587944388389587,
      "epoch": 11.99,
      "learning_rate": 1.115842204132749e-05,
      "loss": 0.5647,
      "step": 14181,
      "task_loss": 0.7205062508583069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4327270984649658,
      "epoch": 11.99,
      "learning_rate": 1.1155291170945525e-05,
      "loss": 0.4592,
      "step": 14182,
      "task_loss": 0.250076025724411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4514155685901642,
      "epoch": 11.99,
      "learning_rate": 1.1152160300563558e-05,
      "loss": 0.5151,
      "step": 14183,
      "task_loss": 0.969456672668457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3812023401260376,
      "epoch": 11.99,
      "learning_rate": 1.1149029430181592e-05,
      "loss": 0.4463,
      "step": 14184,
      "task_loss": 0.292491614818573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2548711895942688,
      "epoch": 11.99,
      "learning_rate": 1.1145898559799625e-05,
      "loss": 0.4257,
      "step": 14185,
      "task_loss": 0.30036109685897827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3774791657924652,
      "epoch": 11.99,
      "learning_rate": 1.1142767689417659e-05,
      "loss": 0.4723,
      "step": 14186,
      "task_loss": 0.07497508823871613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27018439769744873,
      "epoch": 11.99,
      "learning_rate": 1.1139636819035692e-05,
      "loss": 0.4292,
      "step": 14187,
      "task_loss": 0.3746761381626129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4645305275917053,
      "epoch": 11.99,
      "learning_rate": 1.1136505948653726e-05,
      "loss": 0.5486,
      "step": 14188,
      "task_loss": 0.5372028946876526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29389113187789917,
      "epoch": 11.99,
      "learning_rate": 1.113337507827176e-05,
      "loss": 0.4172,
      "step": 14189,
      "task_loss": 0.8306737542152405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22406159341335297,
      "epoch": 11.99,
      "learning_rate": 1.1130244207889794e-05,
      "loss": 0.4499,
      "step": 14190,
      "task_loss": 0.41328105330467224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5417648553848267,
      "epoch": 12.0,
      "learning_rate": 1.1127113337507828e-05,
      "loss": 0.4135,
      "step": 14191,
      "task_loss": 0.8563370704650879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43708065152168274,
      "epoch": 12.0,
      "learning_rate": 1.1123982467125861e-05,
      "loss": 0.4537,
      "step": 14192,
      "task_loss": 0.7050898671150208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3205282986164093,
      "epoch": 12.0,
      "learning_rate": 1.1120851596743895e-05,
      "loss": 0.508,
      "step": 14193,
      "task_loss": 0.9095473885536194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4731139540672302,
      "epoch": 12.0,
      "learning_rate": 1.1117720726361928e-05,
      "loss": 0.4433,
      "step": 14194,
      "task_loss": 0.25788235664367676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2677261233329773,
      "epoch": 12.0,
      "learning_rate": 1.1114589855979963e-05,
      "loss": 0.4301,
      "step": 14195,
      "task_loss": 0.19115126132965088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3660587668418884,
      "epoch": 12.0,
      "learning_rate": 1.1111458985597997e-05,
      "loss": 0.427,
      "step": 14196,
      "task_loss": 0.42662206292152405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46143245697021484,
      "epoch": 12.0,
      "learning_rate": 1.110832811521603e-05,
      "loss": 1.001,
      "step": 14197,
      "task_loss": 1.2178093194961548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44622349739074707,
      "epoch": 12.0,
      "learning_rate": 1.1105197244834065e-05,
      "loss": 0.5728,
      "step": 14198,
      "task_loss": 0.7843007445335388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4885210692882538,
      "epoch": 12.0,
      "learning_rate": 1.1102066374452099e-05,
      "loss": 0.3999,
      "step": 14199,
      "task_loss": 0.28947150707244873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4270339608192444,
      "epoch": 12.0,
      "learning_rate": 1.1098935504070132e-05,
      "loss": 0.4577,
      "step": 14200,
      "task_loss": 0.95258629322052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2998239994049072,
      "epoch": 12.0,
      "learning_rate": 1.1095804633688166e-05,
      "loss": 0.3592,
      "step": 14201,
      "task_loss": 0.6210178136825562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4757399559020996,
      "epoch": 12.01,
      "learning_rate": 1.10926737633062e-05,
      "loss": 0.5112,
      "step": 14202,
      "task_loss": 1.1321845054626465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19947952032089233,
      "epoch": 12.01,
      "learning_rate": 1.1089542892924233e-05,
      "loss": 0.5531,
      "step": 14203,
      "task_loss": 0.35529401898384094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281033515930176,
      "epoch": 12.01,
      "learning_rate": 1.1086412022542266e-05,
      "loss": 0.379,
      "step": 14204,
      "task_loss": 0.6861400008201599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4210466742515564,
      "epoch": 12.01,
      "learning_rate": 1.10832811521603e-05,
      "loss": 0.5983,
      "step": 14205,
      "task_loss": 0.27876660227775574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2725776731967926,
      "epoch": 12.01,
      "learning_rate": 1.1080150281778335e-05,
      "loss": 0.4203,
      "step": 14206,
      "task_loss": 0.4947453737258911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23578771948814392,
      "epoch": 12.01,
      "learning_rate": 1.107701941139637e-05,
      "loss": 0.3923,
      "step": 14207,
      "task_loss": 0.8739140033721924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6395652294158936,
      "epoch": 12.01,
      "learning_rate": 1.1073888541014404e-05,
      "loss": 0.497,
      "step": 14208,
      "task_loss": 0.3625721335411072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.50965416431427,
      "epoch": 12.01,
      "learning_rate": 1.1070757670632437e-05,
      "loss": 0.4012,
      "step": 14209,
      "task_loss": 1.0040594339370728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.505757749080658,
      "epoch": 12.01,
      "learning_rate": 1.106762680025047e-05,
      "loss": 0.3497,
      "step": 14210,
      "task_loss": 0.9642729759216309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4411538243293762,
      "epoch": 12.01,
      "learning_rate": 1.1064495929868504e-05,
      "loss": 0.4643,
      "step": 14211,
      "task_loss": 0.5487423539161682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7081422805786133,
      "epoch": 12.01,
      "learning_rate": 1.1061365059486537e-05,
      "loss": 0.5527,
      "step": 14212,
      "task_loss": 0.781170666217804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5413951277732849,
      "epoch": 12.01,
      "learning_rate": 1.1058234189104571e-05,
      "loss": 0.5206,
      "step": 14213,
      "task_loss": 1.083329439163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3317584991455078,
      "epoch": 12.02,
      "learning_rate": 1.1055103318722604e-05,
      "loss": 0.5067,
      "step": 14214,
      "task_loss": 0.24890664219856262
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5413247346878052,
      "epoch": 12.02,
      "learning_rate": 1.105197244834064e-05,
      "loss": 0.5267,
      "step": 14215,
      "task_loss": 1.3765324354171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3127034902572632,
      "epoch": 12.02,
      "learning_rate": 1.1048841577958673e-05,
      "loss": 0.4396,
      "step": 14216,
      "task_loss": 0.0790405198931694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5648461580276489,
      "epoch": 12.02,
      "learning_rate": 1.1045710707576707e-05,
      "loss": 0.414,
      "step": 14217,
      "task_loss": 0.6009764075279236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45241838693618774,
      "epoch": 12.02,
      "learning_rate": 1.104257983719474e-05,
      "loss": 0.4041,
      "step": 14218,
      "task_loss": 0.08922677487134933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4369577169418335,
      "epoch": 12.02,
      "learning_rate": 1.1039448966812775e-05,
      "loss": 0.547,
      "step": 14219,
      "task_loss": 0.24126578867435455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6147549152374268,
      "epoch": 12.02,
      "learning_rate": 1.1036318096430809e-05,
      "loss": 0.4835,
      "step": 14220,
      "task_loss": 0.5615859031677246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3159685432910919,
      "epoch": 12.02,
      "learning_rate": 1.1033187226048842e-05,
      "loss": 0.3737,
      "step": 14221,
      "task_loss": 0.6526374220848083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31359145045280457,
      "epoch": 12.02,
      "learning_rate": 1.1030056355666876e-05,
      "loss": 0.4578,
      "step": 14222,
      "task_loss": 0.37861669063568115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3326275646686554,
      "epoch": 12.02,
      "learning_rate": 1.1026925485284909e-05,
      "loss": 0.3379,
      "step": 14223,
      "task_loss": 0.7693266868591309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8344820141792297,
      "epoch": 12.02,
      "learning_rate": 1.1023794614902944e-05,
      "loss": 0.4885,
      "step": 14224,
      "task_loss": 1.4750574827194214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7007253766059875,
      "epoch": 12.02,
      "learning_rate": 1.1020663744520978e-05,
      "loss": 0.5546,
      "step": 14225,
      "task_loss": 0.8010768890380859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2694801390171051,
      "epoch": 12.03,
      "learning_rate": 1.1017532874139011e-05,
      "loss": 0.3895,
      "step": 14226,
      "task_loss": 0.7884275317192078
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6044503450393677,
      "epoch": 12.03,
      "learning_rate": 1.1014402003757045e-05,
      "loss": 0.4407,
      "step": 14227,
      "task_loss": 1.2006651163101196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23918114602565765,
      "epoch": 12.03,
      "learning_rate": 1.1011271133375078e-05,
      "loss": 0.3195,
      "step": 14228,
      "task_loss": 0.5358859896659851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5844542980194092,
      "epoch": 12.03,
      "learning_rate": 1.1008140262993112e-05,
      "loss": 0.5705,
      "step": 14229,
      "task_loss": 0.4277006685733795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6004002094268799,
      "epoch": 12.03,
      "learning_rate": 1.1005009392611145e-05,
      "loss": 0.4484,
      "step": 14230,
      "task_loss": 0.6471752524375916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3404162526130676,
      "epoch": 12.03,
      "learning_rate": 1.100187852222918e-05,
      "loss": 0.5192,
      "step": 14231,
      "task_loss": 0.3209749758243561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5395246744155884,
      "epoch": 12.03,
      "learning_rate": 1.0998747651847214e-05,
      "loss": 0.4967,
      "step": 14232,
      "task_loss": 0.9758056402206421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3660319447517395,
      "epoch": 12.03,
      "learning_rate": 1.0995616781465249e-05,
      "loss": 0.4473,
      "step": 14233,
      "task_loss": 0.5816670060157776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7154187560081482,
      "epoch": 12.03,
      "learning_rate": 1.0992485911083282e-05,
      "loss": 0.5353,
      "step": 14234,
      "task_loss": 0.7811766862869263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32804369926452637,
      "epoch": 12.03,
      "learning_rate": 1.0989355040701316e-05,
      "loss": 0.5241,
      "step": 14235,
      "task_loss": 1.4386229515075684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45010650157928467,
      "epoch": 12.03,
      "learning_rate": 1.098622417031935e-05,
      "loss": 0.3643,
      "step": 14236,
      "task_loss": 0.5852500200271606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4467324912548065,
      "epoch": 12.03,
      "learning_rate": 1.0983093299937383e-05,
      "loss": 0.3611,
      "step": 14237,
      "task_loss": 0.5976445078849792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7055814862251282,
      "epoch": 12.04,
      "learning_rate": 1.0979962429555416e-05,
      "loss": 0.5114,
      "step": 14238,
      "task_loss": 1.5821348428726196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42524588108062744,
      "epoch": 12.04,
      "learning_rate": 1.097683155917345e-05,
      "loss": 0.3576,
      "step": 14239,
      "task_loss": 0.3623480498790741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5565593838691711,
      "epoch": 12.04,
      "learning_rate": 1.0973700688791485e-05,
      "loss": 0.6081,
      "step": 14240,
      "task_loss": 0.4083707332611084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0115470886230469,
      "epoch": 12.04,
      "learning_rate": 1.0970569818409518e-05,
      "loss": 0.7285,
      "step": 14241,
      "task_loss": 0.45061665773391724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3080175817012787,
      "epoch": 12.04,
      "learning_rate": 1.0967438948027552e-05,
      "loss": 0.4029,
      "step": 14242,
      "task_loss": 0.5636217594146729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7094666957855225,
      "epoch": 12.04,
      "learning_rate": 1.0964308077645585e-05,
      "loss": 0.5111,
      "step": 14243,
      "task_loss": 1.2744858264923096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47482830286026,
      "epoch": 12.04,
      "learning_rate": 1.096117720726362e-05,
      "loss": 0.487,
      "step": 14244,
      "task_loss": 0.31760817766189575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5039408206939697,
      "epoch": 12.04,
      "learning_rate": 1.0958046336881654e-05,
      "loss": 0.5399,
      "step": 14245,
      "task_loss": 0.3828793168067932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35840359330177307,
      "epoch": 12.04,
      "learning_rate": 1.0954915466499688e-05,
      "loss": 0.3867,
      "step": 14246,
      "task_loss": 0.07382551580667496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6817078590393066,
      "epoch": 12.04,
      "learning_rate": 1.0951784596117721e-05,
      "loss": 0.4502,
      "step": 14247,
      "task_loss": 0.7224633097648621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.629581093788147,
      "epoch": 12.04,
      "learning_rate": 1.0948653725735754e-05,
      "loss": 0.4649,
      "step": 14248,
      "task_loss": 0.4215214252471924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6054502725601196,
      "epoch": 12.04,
      "learning_rate": 1.094552285535379e-05,
      "loss": 0.4495,
      "step": 14249,
      "task_loss": 1.521333932876587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42624807357788086,
      "epoch": 12.05,
      "learning_rate": 1.0942391984971823e-05,
      "loss": 0.4531,
      "step": 14250,
      "task_loss": 0.4235699474811554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6088417768478394,
      "epoch": 12.05,
      "learning_rate": 1.0939261114589857e-05,
      "loss": 0.5225,
      "step": 14251,
      "task_loss": 1.1338647603988647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3476814329624176,
      "epoch": 12.05,
      "learning_rate": 1.093613024420789e-05,
      "loss": 0.491,
      "step": 14252,
      "task_loss": 0.34116607904434204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5123651027679443,
      "epoch": 12.05,
      "learning_rate": 1.0932999373825924e-05,
      "loss": 0.4621,
      "step": 14253,
      "task_loss": 1.141829490661621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44851160049438477,
      "epoch": 12.05,
      "learning_rate": 1.0929868503443957e-05,
      "loss": 0.4547,
      "step": 14254,
      "task_loss": 0.3347153663635254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28749024868011475,
      "epoch": 12.05,
      "learning_rate": 1.092673763306199e-05,
      "loss": 0.436,
      "step": 14255,
      "task_loss": 0.767422616481781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5188666582107544,
      "epoch": 12.05,
      "learning_rate": 1.0923606762680026e-05,
      "loss": 0.4395,
      "step": 14256,
      "task_loss": 1.103185772895813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41140660643577576,
      "epoch": 12.05,
      "learning_rate": 1.0920475892298059e-05,
      "loss": 0.4418,
      "step": 14257,
      "task_loss": 0.2961469888687134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2966407835483551,
      "epoch": 12.05,
      "learning_rate": 1.0917345021916094e-05,
      "loss": 0.3165,
      "step": 14258,
      "task_loss": 0.42115673422813416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6173520684242249,
      "epoch": 12.05,
      "learning_rate": 1.0914214151534128e-05,
      "loss": 0.4118,
      "step": 14259,
      "task_loss": 0.4481413960456848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30559107661247253,
      "epoch": 12.05,
      "learning_rate": 1.0911083281152161e-05,
      "loss": 0.4725,
      "step": 14260,
      "task_loss": 0.46276265382766724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4384281039237976,
      "epoch": 12.05,
      "learning_rate": 1.0907952410770195e-05,
      "loss": 0.3607,
      "step": 14261,
      "task_loss": 0.5512164831161499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7060815095901489,
      "epoch": 12.06,
      "learning_rate": 1.0904821540388228e-05,
      "loss": 0.4778,
      "step": 14262,
      "task_loss": 0.5307072401046753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38463109731674194,
      "epoch": 12.06,
      "learning_rate": 1.0901690670006262e-05,
      "loss": 0.4349,
      "step": 14263,
      "task_loss": 0.9843781590461731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5911178588867188,
      "epoch": 12.06,
      "learning_rate": 1.0898559799624295e-05,
      "loss": 0.5374,
      "step": 14264,
      "task_loss": 0.9166448712348938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3865102231502533,
      "epoch": 12.06,
      "learning_rate": 1.089542892924233e-05,
      "loss": 0.4683,
      "step": 14265,
      "task_loss": 0.30350130796432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6467983722686768,
      "epoch": 12.06,
      "learning_rate": 1.0892298058860364e-05,
      "loss": 0.4592,
      "step": 14266,
      "task_loss": 0.6108946800231934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3300192654132843,
      "epoch": 12.06,
      "learning_rate": 1.0889167188478397e-05,
      "loss": 0.3935,
      "step": 14267,
      "task_loss": 0.2950390577316284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3907513916492462,
      "epoch": 12.06,
      "learning_rate": 1.0886036318096432e-05,
      "loss": 0.4281,
      "step": 14268,
      "task_loss": 0.09810105711221695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5121525526046753,
      "epoch": 12.06,
      "learning_rate": 1.0882905447714466e-05,
      "loss": 0.4423,
      "step": 14269,
      "task_loss": 0.9449127316474915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4978410601615906,
      "epoch": 12.06,
      "learning_rate": 1.08797745773325e-05,
      "loss": 0.5242,
      "step": 14270,
      "task_loss": 0.5769362449645996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28581905364990234,
      "epoch": 12.06,
      "learning_rate": 1.0876643706950533e-05,
      "loss": 0.3733,
      "step": 14271,
      "task_loss": 0.21184402704238892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24548637866973877,
      "epoch": 12.06,
      "learning_rate": 1.0873512836568566e-05,
      "loss": 0.4755,
      "step": 14272,
      "task_loss": 0.40707966685295105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6306463479995728,
      "epoch": 12.07,
      "learning_rate": 1.08703819661866e-05,
      "loss": 0.4695,
      "step": 14273,
      "task_loss": 0.24166853725910187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5560914278030396,
      "epoch": 12.07,
      "learning_rate": 1.0867251095804635e-05,
      "loss": 0.4575,
      "step": 14274,
      "task_loss": 1.642582893371582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7031424045562744,
      "epoch": 12.07,
      "learning_rate": 1.0864120225422668e-05,
      "loss": 0.525,
      "step": 14275,
      "task_loss": 0.8397018313407898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4573254883289337,
      "epoch": 12.07,
      "learning_rate": 1.0860989355040702e-05,
      "loss": 0.6095,
      "step": 14276,
      "task_loss": 1.9757424592971802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4128069579601288,
      "epoch": 12.07,
      "learning_rate": 1.0857858484658735e-05,
      "loss": 0.472,
      "step": 14277,
      "task_loss": 0.5330651998519897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5584495067596436,
      "epoch": 12.07,
      "learning_rate": 1.0854727614276769e-05,
      "loss": 0.4735,
      "step": 14278,
      "task_loss": 1.3222459554672241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4494805932044983,
      "epoch": 12.07,
      "learning_rate": 1.0851596743894802e-05,
      "loss": 0.541,
      "step": 14279,
      "task_loss": 1.2702590227127075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833054304122925,
      "epoch": 12.07,
      "learning_rate": 1.0848465873512838e-05,
      "loss": 0.476,
      "step": 14280,
      "task_loss": 0.6063472032546997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4197247624397278,
      "epoch": 12.07,
      "learning_rate": 1.0845335003130871e-05,
      "loss": 0.4073,
      "step": 14281,
      "task_loss": 0.8339488506317139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4904690384864807,
      "epoch": 12.07,
      "learning_rate": 1.0842204132748904e-05,
      "loss": 0.6244,
      "step": 14282,
      "task_loss": 0.5087635517120361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5838115811347961,
      "epoch": 12.07,
      "learning_rate": 1.083907326236694e-05,
      "loss": 0.4954,
      "step": 14283,
      "task_loss": 1.194712519645691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46960610151290894,
      "epoch": 12.07,
      "learning_rate": 1.0835942391984973e-05,
      "loss": 0.4771,
      "step": 14284,
      "task_loss": 0.9346461296081543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5106005072593689,
      "epoch": 12.08,
      "learning_rate": 1.0832811521603007e-05,
      "loss": 0.4374,
      "step": 14285,
      "task_loss": 1.2684897184371948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3431893289089203,
      "epoch": 12.08,
      "learning_rate": 1.082968065122104e-05,
      "loss": 0.5451,
      "step": 14286,
      "task_loss": 1.1898401975631714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3114050626754761,
      "epoch": 12.08,
      "learning_rate": 1.0826549780839074e-05,
      "loss": 0.3674,
      "step": 14287,
      "task_loss": 0.2262502759695053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32455191016197205,
      "epoch": 12.08,
      "learning_rate": 1.0823418910457107e-05,
      "loss": 0.2573,
      "step": 14288,
      "task_loss": 0.12605667114257812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.4302022457122803,
      "epoch": 12.08,
      "learning_rate": 1.082028804007514e-05,
      "loss": 0.7394,
      "step": 14289,
      "task_loss": 1.8735564947128296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24501660466194153,
      "epoch": 12.08,
      "learning_rate": 1.0817157169693174e-05,
      "loss": 0.4585,
      "step": 14290,
      "task_loss": 0.4140072166919708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30826854705810547,
      "epoch": 12.08,
      "learning_rate": 1.0814026299311209e-05,
      "loss": 0.4401,
      "step": 14291,
      "task_loss": 0.4043033719062805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.381248414516449,
      "epoch": 12.08,
      "learning_rate": 1.0810895428929243e-05,
      "loss": 0.3533,
      "step": 14292,
      "task_loss": 0.5500754714012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5700349807739258,
      "epoch": 12.08,
      "learning_rate": 1.0807764558547278e-05,
      "loss": 0.4283,
      "step": 14293,
      "task_loss": 1.1878700256347656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45606687664985657,
      "epoch": 12.08,
      "learning_rate": 1.0804633688165311e-05,
      "loss": 0.3845,
      "step": 14294,
      "task_loss": 0.6546815037727356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3108525276184082,
      "epoch": 12.08,
      "learning_rate": 1.0801502817783345e-05,
      "loss": 0.3706,
      "step": 14295,
      "task_loss": 0.46056726574897766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5195808410644531,
      "epoch": 12.08,
      "learning_rate": 1.0798371947401378e-05,
      "loss": 0.3805,
      "step": 14296,
      "task_loss": 0.3188391327857971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.516746997833252,
      "epoch": 12.09,
      "learning_rate": 1.0795241077019412e-05,
      "loss": 0.4503,
      "step": 14297,
      "task_loss": 0.9458262920379639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41447335481643677,
      "epoch": 12.09,
      "learning_rate": 1.0792110206637445e-05,
      "loss": 0.4743,
      "step": 14298,
      "task_loss": 0.21779371798038483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.377832293510437,
      "epoch": 12.09,
      "learning_rate": 1.0788979336255479e-05,
      "loss": 0.4524,
      "step": 14299,
      "task_loss": 0.6515744924545288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47972288727760315,
      "epoch": 12.09,
      "learning_rate": 1.0785848465873514e-05,
      "loss": 0.4477,
      "step": 14300,
      "task_loss": 0.8766074776649475
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4689141511917114,
      "epoch": 12.09,
      "learning_rate": 1.0782717595491547e-05,
      "loss": 0.5331,
      "step": 14301,
      "task_loss": 0.5298905968666077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27496352791786194,
      "epoch": 12.09,
      "learning_rate": 1.077958672510958e-05,
      "loss": 0.3061,
      "step": 14302,
      "task_loss": 0.05126400291919708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32177743315696716,
      "epoch": 12.09,
      "learning_rate": 1.0776455854727614e-05,
      "loss": 0.4423,
      "step": 14303,
      "task_loss": 0.17065125703811646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35393935441970825,
      "epoch": 12.09,
      "learning_rate": 1.0773324984345648e-05,
      "loss": 0.443,
      "step": 14304,
      "task_loss": 0.28802990913391113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.09740079939365387,
      "epoch": 12.09,
      "learning_rate": 1.0770194113963683e-05,
      "loss": 0.4218,
      "step": 14305,
      "task_loss": 0.004234001040458679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5315406322479248,
      "epoch": 12.09,
      "learning_rate": 1.0767063243581716e-05,
      "loss": 0.4673,
      "step": 14306,
      "task_loss": 1.1205406188964844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29441601037979126,
      "epoch": 12.09,
      "learning_rate": 1.076393237319975e-05,
      "loss": 0.5164,
      "step": 14307,
      "task_loss": 0.19648346304893494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.526677131652832,
      "epoch": 12.09,
      "learning_rate": 1.0760801502817783e-05,
      "loss": 0.4301,
      "step": 14308,
      "task_loss": 0.7646129727363586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36331820487976074,
      "epoch": 12.1,
      "learning_rate": 1.0757670632435818e-05,
      "loss": 0.361,
      "step": 14309,
      "task_loss": 0.9324651956558228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3327568769454956,
      "epoch": 12.1,
      "learning_rate": 1.0754539762053852e-05,
      "loss": 0.4555,
      "step": 14310,
      "task_loss": 0.637464165687561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22174501419067383,
      "epoch": 12.1,
      "learning_rate": 1.0751408891671885e-05,
      "loss": 0.3564,
      "step": 14311,
      "task_loss": 0.36637696623802185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5162281394004822,
      "epoch": 12.1,
      "learning_rate": 1.0748278021289919e-05,
      "loss": 0.5035,
      "step": 14312,
      "task_loss": 0.1608704775571823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5740127563476562,
      "epoch": 12.1,
      "learning_rate": 1.0745147150907952e-05,
      "loss": 0.5064,
      "step": 14313,
      "task_loss": 0.4751388132572174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28744786977767944,
      "epoch": 12.1,
      "learning_rate": 1.0742016280525986e-05,
      "loss": 0.3977,
      "step": 14314,
      "task_loss": 0.3980337679386139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6065167188644409,
      "epoch": 12.1,
      "learning_rate": 1.073888541014402e-05,
      "loss": 0.5846,
      "step": 14315,
      "task_loss": 1.0426876544952393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5903807878494263,
      "epoch": 12.1,
      "learning_rate": 1.0735754539762055e-05,
      "loss": 0.431,
      "step": 14316,
      "task_loss": 0.3804337680339813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221355557441711,
      "epoch": 12.1,
      "learning_rate": 1.073262366938009e-05,
      "loss": 0.4535,
      "step": 14317,
      "task_loss": 1.2695155143737793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4769640564918518,
      "epoch": 12.1,
      "learning_rate": 1.0729492798998123e-05,
      "loss": 0.5827,
      "step": 14318,
      "task_loss": 0.2655911147594452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3285027742385864,
      "epoch": 12.1,
      "learning_rate": 1.0726361928616157e-05,
      "loss": 0.3557,
      "step": 14319,
      "task_loss": 0.8144038319587708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2877611517906189,
      "epoch": 12.1,
      "learning_rate": 1.072323105823419e-05,
      "loss": 0.4061,
      "step": 14320,
      "task_loss": 0.5053623914718628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5474313497543335,
      "epoch": 12.11,
      "learning_rate": 1.0720100187852224e-05,
      "loss": 0.4885,
      "step": 14321,
      "task_loss": 0.9696460962295532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281748175621033,
      "epoch": 12.11,
      "learning_rate": 1.0716969317470257e-05,
      "loss": 0.5679,
      "step": 14322,
      "task_loss": 1.0944161415100098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39178144931793213,
      "epoch": 12.11,
      "learning_rate": 1.071383844708829e-05,
      "loss": 0.5145,
      "step": 14323,
      "task_loss": 0.5011078119277954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27589333057403564,
      "epoch": 12.11,
      "learning_rate": 1.0710707576706324e-05,
      "loss": 0.3972,
      "step": 14324,
      "task_loss": 0.6269230842590332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24151262640953064,
      "epoch": 12.11,
      "learning_rate": 1.070757670632436e-05,
      "loss": 0.34,
      "step": 14325,
      "task_loss": 0.3392014801502228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5283783674240112,
      "epoch": 12.11,
      "learning_rate": 1.0704445835942393e-05,
      "loss": 0.5247,
      "step": 14326,
      "task_loss": 0.8659906387329102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4650988280773163,
      "epoch": 12.11,
      "learning_rate": 1.0701314965560426e-05,
      "loss": 0.5887,
      "step": 14327,
      "task_loss": 1.0284438133239746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28769245743751526,
      "epoch": 12.11,
      "learning_rate": 1.069818409517846e-05,
      "loss": 0.3589,
      "step": 14328,
      "task_loss": 0.1659041941165924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18874487280845642,
      "epoch": 12.11,
      "learning_rate": 1.0695053224796495e-05,
      "loss": 0.3016,
      "step": 14329,
      "task_loss": 0.3652135133743286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8771164417266846,
      "epoch": 12.11,
      "learning_rate": 1.0691922354414528e-05,
      "loss": 0.5271,
      "step": 14330,
      "task_loss": 0.5827243328094482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4464137554168701,
      "epoch": 12.11,
      "learning_rate": 1.0688791484032562e-05,
      "loss": 0.4503,
      "step": 14331,
      "task_loss": 0.4676007330417633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24739885330200195,
      "epoch": 12.11,
      "learning_rate": 1.0685660613650595e-05,
      "loss": 0.3492,
      "step": 14332,
      "task_loss": 0.14592798054218292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.605164110660553,
      "epoch": 12.12,
      "learning_rate": 1.0682529743268629e-05,
      "loss": 0.6102,
      "step": 14333,
      "task_loss": 0.49635419249534607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4590044617652893,
      "epoch": 12.12,
      "learning_rate": 1.0679398872886664e-05,
      "loss": 0.4853,
      "step": 14334,
      "task_loss": 0.05645718425512314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5362765192985535,
      "epoch": 12.12,
      "learning_rate": 1.0676268002504697e-05,
      "loss": 0.6482,
      "step": 14335,
      "task_loss": 1.4737306833267212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4526323080062866,
      "epoch": 12.12,
      "learning_rate": 1.067313713212273e-05,
      "loss": 0.3027,
      "step": 14336,
      "task_loss": 0.2732606530189514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4897040128707886,
      "epoch": 12.12,
      "learning_rate": 1.0670006261740764e-05,
      "loss": 0.4027,
      "step": 14337,
      "task_loss": 0.47824376821517944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29795992374420166,
      "epoch": 12.12,
      "learning_rate": 1.0666875391358798e-05,
      "loss": 0.389,
      "step": 14338,
      "task_loss": 0.34079065918922424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46705082058906555,
      "epoch": 12.12,
      "learning_rate": 1.0663744520976831e-05,
      "loss": 0.5157,
      "step": 14339,
      "task_loss": 0.5222864151000977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3598610758781433,
      "epoch": 12.12,
      "learning_rate": 1.0660613650594865e-05,
      "loss": 0.5716,
      "step": 14340,
      "task_loss": 0.12275747209787369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38575804233551025,
      "epoch": 12.12,
      "learning_rate": 1.06574827802129e-05,
      "loss": 0.4274,
      "step": 14341,
      "task_loss": 1.2229626178741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24070696532726288,
      "epoch": 12.12,
      "learning_rate": 1.0654351909830933e-05,
      "loss": 0.3255,
      "step": 14342,
      "task_loss": 0.06829378008842468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5357925295829773,
      "epoch": 12.12,
      "learning_rate": 1.0651221039448969e-05,
      "loss": 0.4305,
      "step": 14343,
      "task_loss": 0.6143598556518555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3870159387588501,
      "epoch": 12.13,
      "learning_rate": 1.0648090169067002e-05,
      "loss": 0.5452,
      "step": 14344,
      "task_loss": 0.46229368448257446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6079191565513611,
      "epoch": 12.13,
      "learning_rate": 1.0644959298685035e-05,
      "loss": 0.564,
      "step": 14345,
      "task_loss": 0.7564048171043396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4514954686164856,
      "epoch": 12.13,
      "learning_rate": 1.0641828428303069e-05,
      "loss": 0.4368,
      "step": 14346,
      "task_loss": 0.42757710814476013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36132046580314636,
      "epoch": 12.13,
      "learning_rate": 1.0638697557921102e-05,
      "loss": 0.5186,
      "step": 14347,
      "task_loss": 0.72565096616745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5947951078414917,
      "epoch": 12.13,
      "learning_rate": 1.0635566687539136e-05,
      "loss": 0.5169,
      "step": 14348,
      "task_loss": 1.034671664237976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32464849948883057,
      "epoch": 12.13,
      "learning_rate": 1.063243581715717e-05,
      "loss": 0.4886,
      "step": 14349,
      "task_loss": 0.503749430179596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7351672649383545,
      "epoch": 12.13,
      "learning_rate": 1.0629304946775205e-05,
      "loss": 0.6231,
      "step": 14350,
      "task_loss": 0.6374776363372803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45760685205459595,
      "epoch": 12.13,
      "learning_rate": 1.0626174076393238e-05,
      "loss": 0.4587,
      "step": 14351,
      "task_loss": 0.17940083146095276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4162447452545166,
      "epoch": 12.13,
      "learning_rate": 1.0623043206011271e-05,
      "loss": 0.4031,
      "step": 14352,
      "task_loss": 0.5281674265861511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27064162492752075,
      "epoch": 12.13,
      "learning_rate": 1.0619912335629305e-05,
      "loss": 0.5011,
      "step": 14353,
      "task_loss": 0.09629122167825699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49322351813316345,
      "epoch": 12.13,
      "learning_rate": 1.061678146524734e-05,
      "loss": 0.4013,
      "step": 14354,
      "task_loss": 1.065155267715454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5707390308380127,
      "epoch": 12.13,
      "learning_rate": 1.0613650594865374e-05,
      "loss": 0.4506,
      "step": 14355,
      "task_loss": 1.1495569944381714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32197800278663635,
      "epoch": 12.14,
      "learning_rate": 1.0610519724483407e-05,
      "loss": 0.369,
      "step": 14356,
      "task_loss": 0.4552195072174072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36918556690216064,
      "epoch": 12.14,
      "learning_rate": 1.060738885410144e-05,
      "loss": 0.4555,
      "step": 14357,
      "task_loss": 0.17733369767665863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43694567680358887,
      "epoch": 12.14,
      "learning_rate": 1.0604257983719474e-05,
      "loss": 0.702,
      "step": 14358,
      "task_loss": 1.0117051601409912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3128105700016022,
      "epoch": 12.14,
      "learning_rate": 1.060112711333751e-05,
      "loss": 0.47,
      "step": 14359,
      "task_loss": 0.555210292339325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245579481124878,
      "epoch": 12.14,
      "learning_rate": 1.0597996242955543e-05,
      "loss": 0.5273,
      "step": 14360,
      "task_loss": 0.34215468168258667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5041369199752808,
      "epoch": 12.14,
      "learning_rate": 1.0594865372573576e-05,
      "loss": 0.4619,
      "step": 14361,
      "task_loss": 0.9245482087135315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030362606048584,
      "epoch": 12.14,
      "learning_rate": 1.059173450219161e-05,
      "loss": 0.4444,
      "step": 14362,
      "task_loss": 0.5341368317604065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39705395698547363,
      "epoch": 12.14,
      "learning_rate": 1.0588603631809643e-05,
      "loss": 0.5823,
      "step": 14363,
      "task_loss": 1.4101688861846924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4200749397277832,
      "epoch": 12.14,
      "learning_rate": 1.0585472761427677e-05,
      "loss": 0.5351,
      "step": 14364,
      "task_loss": 0.34908124804496765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4344818592071533,
      "epoch": 12.14,
      "learning_rate": 1.058234189104571e-05,
      "loss": 0.4765,
      "step": 14365,
      "task_loss": 0.9257472157478333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3961338996887207,
      "epoch": 12.14,
      "learning_rate": 1.0579211020663745e-05,
      "loss": 0.3881,
      "step": 14366,
      "task_loss": 1.5195409059524536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4841802716255188,
      "epoch": 12.14,
      "learning_rate": 1.0576080150281779e-05,
      "loss": 0.4542,
      "step": 14367,
      "task_loss": 0.4519163966178894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21970084309577942,
      "epoch": 12.15,
      "learning_rate": 1.0572949279899814e-05,
      "loss": 0.4601,
      "step": 14368,
      "task_loss": 0.25875866413116455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45513150095939636,
      "epoch": 12.15,
      "learning_rate": 1.0569818409517847e-05,
      "loss": 0.4271,
      "step": 14369,
      "task_loss": 0.5981289744377136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7893266677856445,
      "epoch": 12.15,
      "learning_rate": 1.056668753913588e-05,
      "loss": 0.6339,
      "step": 14370,
      "task_loss": 0.44379526376724243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40752536058425903,
      "epoch": 12.15,
      "learning_rate": 1.0563556668753914e-05,
      "loss": 0.5088,
      "step": 14371,
      "task_loss": 1.31508469581604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22788561880588531,
      "epoch": 12.15,
      "learning_rate": 1.0560425798371948e-05,
      "loss": 0.4118,
      "step": 14372,
      "task_loss": 0.6536576151847839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3483720123767853,
      "epoch": 12.15,
      "learning_rate": 1.0557294927989981e-05,
      "loss": 0.4358,
      "step": 14373,
      "task_loss": 0.2789776921272278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3046489357948303,
      "epoch": 12.15,
      "learning_rate": 1.0554164057608015e-05,
      "loss": 0.4685,
      "step": 14374,
      "task_loss": 0.598371148109436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.300214946269989,
      "epoch": 12.15,
      "learning_rate": 1.0551033187226048e-05,
      "loss": 0.444,
      "step": 14375,
      "task_loss": 0.49128979444503784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5397158265113831,
      "epoch": 12.15,
      "learning_rate": 1.0547902316844083e-05,
      "loss": 0.3875,
      "step": 14376,
      "task_loss": 0.8464384078979492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5021793842315674,
      "epoch": 12.15,
      "learning_rate": 1.0544771446462117e-05,
      "loss": 0.4205,
      "step": 14377,
      "task_loss": 0.23266632854938507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4545818567276001,
      "epoch": 12.15,
      "learning_rate": 1.054164057608015e-05,
      "loss": 0.5472,
      "step": 14378,
      "task_loss": 0.5537594556808472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.365557461977005,
      "epoch": 12.15,
      "learning_rate": 1.0538509705698185e-05,
      "loss": 0.3033,
      "step": 14379,
      "task_loss": 0.7085545063018799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4609684944152832,
      "epoch": 12.16,
      "learning_rate": 1.0535378835316219e-05,
      "loss": 0.5536,
      "step": 14380,
      "task_loss": 0.8451536893844604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32743537425994873,
      "epoch": 12.16,
      "learning_rate": 1.0532247964934252e-05,
      "loss": 0.4045,
      "step": 14381,
      "task_loss": 0.2836667597293854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3480837941169739,
      "epoch": 12.16,
      "learning_rate": 1.0529117094552286e-05,
      "loss": 0.3901,
      "step": 14382,
      "task_loss": 0.578345000743866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3884063959121704,
      "epoch": 12.16,
      "learning_rate": 1.052598622417032e-05,
      "loss": 0.4583,
      "step": 14383,
      "task_loss": 0.1885230839252472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5062903165817261,
      "epoch": 12.16,
      "learning_rate": 1.0522855353788353e-05,
      "loss": 0.4379,
      "step": 14384,
      "task_loss": 0.8300375938415527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44222140312194824,
      "epoch": 12.16,
      "learning_rate": 1.0519724483406388e-05,
      "loss": 0.4627,
      "step": 14385,
      "task_loss": 0.6230456829071045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33393535017967224,
      "epoch": 12.16,
      "learning_rate": 1.0516593613024421e-05,
      "loss": 0.3356,
      "step": 14386,
      "task_loss": 0.1344321221113205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3238874673843384,
      "epoch": 12.16,
      "learning_rate": 1.0513462742642455e-05,
      "loss": 0.426,
      "step": 14387,
      "task_loss": 0.672087550163269
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4814194440841675,
      "epoch": 12.16,
      "learning_rate": 1.0510331872260488e-05,
      "loss": 0.4728,
      "step": 14388,
      "task_loss": 0.6512962579727173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7607449889183044,
      "epoch": 12.16,
      "learning_rate": 1.0507201001878522e-05,
      "loss": 0.5312,
      "step": 14389,
      "task_loss": 0.9123091697692871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35607463121414185,
      "epoch": 12.16,
      "learning_rate": 1.0504070131496555e-05,
      "loss": 0.5937,
      "step": 14390,
      "task_loss": 0.7389654517173767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5289707183837891,
      "epoch": 12.16,
      "learning_rate": 1.050093926111459e-05,
      "loss": 0.6296,
      "step": 14391,
      "task_loss": 0.9860467314720154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3435077667236328,
      "epoch": 12.17,
      "learning_rate": 1.0497808390732624e-05,
      "loss": 0.4408,
      "step": 14392,
      "task_loss": 0.7003581523895264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2566436231136322,
      "epoch": 12.17,
      "learning_rate": 1.049467752035066e-05,
      "loss": 0.2118,
      "step": 14393,
      "task_loss": 0.15457573533058167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39128342270851135,
      "epoch": 12.17,
      "learning_rate": 1.0491546649968693e-05,
      "loss": 0.4746,
      "step": 14394,
      "task_loss": 0.8048794865608215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6222230195999146,
      "epoch": 12.17,
      "learning_rate": 1.0488415779586726e-05,
      "loss": 0.4665,
      "step": 14395,
      "task_loss": 0.7310325503349304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4979274868965149,
      "epoch": 12.17,
      "learning_rate": 1.048528490920476e-05,
      "loss": 0.6651,
      "step": 14396,
      "task_loss": 0.6782494187355042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3838594853878021,
      "epoch": 12.17,
      "learning_rate": 1.0482154038822793e-05,
      "loss": 0.5141,
      "step": 14397,
      "task_loss": 1.0308129787445068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6183660626411438,
      "epoch": 12.17,
      "learning_rate": 1.0479023168440827e-05,
      "loss": 0.4724,
      "step": 14398,
      "task_loss": 0.5613218545913696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28680115938186646,
      "epoch": 12.17,
      "learning_rate": 1.047589229805886e-05,
      "loss": 0.4948,
      "step": 14399,
      "task_loss": 0.15128111839294434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4225577414035797,
      "epoch": 12.17,
      "learning_rate": 1.0472761427676894e-05,
      "loss": 0.42,
      "step": 14400,
      "task_loss": 0.279283732175827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3566906452178955,
      "epoch": 12.17,
      "learning_rate": 1.0469630557294929e-05,
      "loss": 0.4476,
      "step": 14401,
      "task_loss": 1.2375667095184326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37281373143196106,
      "epoch": 12.17,
      "learning_rate": 1.0466499686912962e-05,
      "loss": 0.4644,
      "step": 14402,
      "task_loss": 0.8519936800003052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4349334239959717,
      "epoch": 12.17,
      "learning_rate": 1.0463368816530997e-05,
      "loss": 0.3353,
      "step": 14403,
      "task_loss": 0.6405240297317505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4354105591773987,
      "epoch": 12.18,
      "learning_rate": 1.046023794614903e-05,
      "loss": 0.378,
      "step": 14404,
      "task_loss": 1.1605160236358643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4261544346809387,
      "epoch": 12.18,
      "learning_rate": 1.0457107075767064e-05,
      "loss": 0.501,
      "step": 14405,
      "task_loss": 0.39255887269973755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2636262774467468,
      "epoch": 12.18,
      "learning_rate": 1.0453976205385098e-05,
      "loss": 0.4251,
      "step": 14406,
      "task_loss": 0.665710985660553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33147701621055603,
      "epoch": 12.18,
      "learning_rate": 1.0450845335003131e-05,
      "loss": 0.2957,
      "step": 14407,
      "task_loss": 0.581792414188385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39237579703330994,
      "epoch": 12.18,
      "learning_rate": 1.0447714464621165e-05,
      "loss": 0.5528,
      "step": 14408,
      "task_loss": 0.75770103931427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5021493434906006,
      "epoch": 12.18,
      "learning_rate": 1.0444583594239198e-05,
      "loss": 0.4694,
      "step": 14409,
      "task_loss": 1.0850639343261719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41866785287857056,
      "epoch": 12.18,
      "learning_rate": 1.0441452723857233e-05,
      "loss": 0.4007,
      "step": 14410,
      "task_loss": 0.30870091915130615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46387138962745667,
      "epoch": 12.18,
      "learning_rate": 1.0438321853475267e-05,
      "loss": 0.4722,
      "step": 14411,
      "task_loss": 0.15239259600639343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8393765091896057,
      "epoch": 12.18,
      "learning_rate": 1.04351909830933e-05,
      "loss": 0.6262,
      "step": 14412,
      "task_loss": 0.6006639003753662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6553009748458862,
      "epoch": 12.18,
      "learning_rate": 1.0432060112711334e-05,
      "loss": 0.6277,
      "step": 14413,
      "task_loss": 0.2514353394508362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0921969413757324,
      "epoch": 12.18,
      "learning_rate": 1.0428929242329367e-05,
      "loss": 0.7588,
      "step": 14414,
      "task_loss": 0.8854677677154541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4458732604980469,
      "epoch": 12.19,
      "learning_rate": 1.0425798371947402e-05,
      "loss": 0.3486,
      "step": 14415,
      "task_loss": 0.6304497718811035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36313730478286743,
      "epoch": 12.19,
      "learning_rate": 1.0422667501565436e-05,
      "loss": 0.492,
      "step": 14416,
      "task_loss": 1.4621870517730713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4968961179256439,
      "epoch": 12.19,
      "learning_rate": 1.041953663118347e-05,
      "loss": 0.4283,
      "step": 14417,
      "task_loss": 0.4673575758934021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5730973482131958,
      "epoch": 12.19,
      "learning_rate": 1.0416405760801503e-05,
      "loss": 0.6016,
      "step": 14418,
      "task_loss": 1.0135385990142822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4741082191467285,
      "epoch": 12.19,
      "learning_rate": 1.0413274890419538e-05,
      "loss": 0.3755,
      "step": 14419,
      "task_loss": 0.45772960782051086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3423520624637604,
      "epoch": 12.19,
      "learning_rate": 1.0410144020037572e-05,
      "loss": 0.4917,
      "step": 14420,
      "task_loss": 0.6133259534835815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.364510715007782,
      "epoch": 12.19,
      "learning_rate": 1.0407013149655605e-05,
      "loss": 0.3812,
      "step": 14421,
      "task_loss": 0.4161166548728943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4240012764930725,
      "epoch": 12.19,
      "learning_rate": 1.0403882279273638e-05,
      "loss": 0.4043,
      "step": 14422,
      "task_loss": 0.7641737461090088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44077232480049133,
      "epoch": 12.19,
      "learning_rate": 1.0400751408891672e-05,
      "loss": 0.4159,
      "step": 14423,
      "task_loss": 0.37722450494766235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4951172471046448,
      "epoch": 12.19,
      "learning_rate": 1.0397620538509705e-05,
      "loss": 0.6154,
      "step": 14424,
      "task_loss": 0.36513155698776245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.427529901266098,
      "epoch": 12.19,
      "learning_rate": 1.0394489668127739e-05,
      "loss": 0.3653,
      "step": 14425,
      "task_loss": 0.5739886164665222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5879110097885132,
      "epoch": 12.19,
      "learning_rate": 1.0391358797745774e-05,
      "loss": 0.497,
      "step": 14426,
      "task_loss": 0.022833621129393578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4721629023551941,
      "epoch": 12.2,
      "learning_rate": 1.0388227927363808e-05,
      "loss": 0.4277,
      "step": 14427,
      "task_loss": 1.0874279737472534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7417623400688171,
      "epoch": 12.2,
      "learning_rate": 1.0385097056981843e-05,
      "loss": 0.5856,
      "step": 14428,
      "task_loss": 1.193292498588562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6387940645217896,
      "epoch": 12.2,
      "learning_rate": 1.0381966186599876e-05,
      "loss": 0.4568,
      "step": 14429,
      "task_loss": 0.37833914160728455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8463840484619141,
      "epoch": 12.2,
      "learning_rate": 1.037883531621791e-05,
      "loss": 0.5878,
      "step": 14430,
      "task_loss": 0.8928154110908508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6879289150238037,
      "epoch": 12.2,
      "learning_rate": 1.0375704445835943e-05,
      "loss": 0.5606,
      "step": 14431,
      "task_loss": 1.822443962097168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36211714148521423,
      "epoch": 12.2,
      "learning_rate": 1.0372573575453977e-05,
      "loss": 0.3596,
      "step": 14432,
      "task_loss": 0.2147509753704071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35199254751205444,
      "epoch": 12.2,
      "learning_rate": 1.036944270507201e-05,
      "loss": 0.4398,
      "step": 14433,
      "task_loss": 0.21253979206085205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28367722034454346,
      "epoch": 12.2,
      "learning_rate": 1.0366311834690044e-05,
      "loss": 0.4001,
      "step": 14434,
      "task_loss": 0.08705613017082214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3618050217628479,
      "epoch": 12.2,
      "learning_rate": 1.0363180964308079e-05,
      "loss": 0.3575,
      "step": 14435,
      "task_loss": 1.080910325050354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45351630449295044,
      "epoch": 12.2,
      "learning_rate": 1.0360050093926112e-05,
      "loss": 0.3833,
      "step": 14436,
      "task_loss": 0.8203758001327515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8436499834060669,
      "epoch": 12.2,
      "learning_rate": 1.0356919223544146e-05,
      "loss": 0.5461,
      "step": 14437,
      "task_loss": 1.403106927871704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6357681155204773,
      "epoch": 12.2,
      "learning_rate": 1.0353788353162179e-05,
      "loss": 0.549,
      "step": 14438,
      "task_loss": 1.7529962062835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2131883203983307,
      "epoch": 12.21,
      "learning_rate": 1.0350657482780213e-05,
      "loss": 0.3929,
      "step": 14439,
      "task_loss": 0.14342816174030304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46421951055526733,
      "epoch": 12.21,
      "learning_rate": 1.0347526612398248e-05,
      "loss": 0.3891,
      "step": 14440,
      "task_loss": 1.053742527961731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40772315859794617,
      "epoch": 12.21,
      "learning_rate": 1.0344395742016281e-05,
      "loss": 0.531,
      "step": 14441,
      "task_loss": 0.33124926686286926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40094950795173645,
      "epoch": 12.21,
      "learning_rate": 1.0341264871634315e-05,
      "loss": 0.32,
      "step": 14442,
      "task_loss": 0.37712255120277405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30377310514450073,
      "epoch": 12.21,
      "learning_rate": 1.0338134001252348e-05,
      "loss": 0.2972,
      "step": 14443,
      "task_loss": 1.2096781730651855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7174099087715149,
      "epoch": 12.21,
      "learning_rate": 1.0335003130870383e-05,
      "loss": 0.496,
      "step": 14444,
      "task_loss": 1.5609568357467651
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39331623911857605,
      "epoch": 12.21,
      "learning_rate": 1.0331872260488417e-05,
      "loss": 0.5037,
      "step": 14445,
      "task_loss": 1.032792568206787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5183265209197998,
      "epoch": 12.21,
      "learning_rate": 1.032874139010645e-05,
      "loss": 0.4854,
      "step": 14446,
      "task_loss": 1.049506425857544
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47514277696609497,
      "epoch": 12.21,
      "learning_rate": 1.0325610519724484e-05,
      "loss": 0.6691,
      "step": 14447,
      "task_loss": 0.5313239097595215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47613683342933655,
      "epoch": 12.21,
      "learning_rate": 1.0322479649342517e-05,
      "loss": 0.4473,
      "step": 14448,
      "task_loss": 0.7659183144569397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4101937413215637,
      "epoch": 12.21,
      "learning_rate": 1.031934877896055e-05,
      "loss": 0.5418,
      "step": 14449,
      "task_loss": 0.7467595934867859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0098963975906372,
      "epoch": 12.21,
      "learning_rate": 1.0316217908578584e-05,
      "loss": 0.5889,
      "step": 14450,
      "task_loss": 1.2725436687469482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4754630923271179,
      "epoch": 12.22,
      "learning_rate": 1.0313087038196618e-05,
      "loss": 0.4132,
      "step": 14451,
      "task_loss": 0.6962178945541382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28643181920051575,
      "epoch": 12.22,
      "learning_rate": 1.0309956167814653e-05,
      "loss": 0.4898,
      "step": 14452,
      "task_loss": 0.5916834473609924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44634881615638733,
      "epoch": 12.22,
      "learning_rate": 1.0306825297432688e-05,
      "loss": 0.405,
      "step": 14453,
      "task_loss": 0.5861638784408569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4780642092227936,
      "epoch": 12.22,
      "learning_rate": 1.0303694427050722e-05,
      "loss": 0.4447,
      "step": 14454,
      "task_loss": 0.35493382811546326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28228139877319336,
      "epoch": 12.22,
      "learning_rate": 1.0300563556668755e-05,
      "loss": 0.3488,
      "step": 14455,
      "task_loss": 0.6362370848655701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.243242084980011,
      "epoch": 12.22,
      "learning_rate": 1.0297432686286788e-05,
      "loss": 0.4024,
      "step": 14456,
      "task_loss": 0.7034878134727478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3152490556240082,
      "epoch": 12.22,
      "learning_rate": 1.0294301815904822e-05,
      "loss": 0.3787,
      "step": 14457,
      "task_loss": 0.27997326850891113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49571770429611206,
      "epoch": 12.22,
      "learning_rate": 1.0291170945522855e-05,
      "loss": 0.4362,
      "step": 14458,
      "task_loss": 0.8413154482841492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43845507502555847,
      "epoch": 12.22,
      "learning_rate": 1.0288040075140889e-05,
      "loss": 0.4176,
      "step": 14459,
      "task_loss": 0.7176029682159424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30476614832878113,
      "epoch": 12.22,
      "learning_rate": 1.0284909204758922e-05,
      "loss": 0.3924,
      "step": 14460,
      "task_loss": 0.7703454494476318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2649594247341156,
      "epoch": 12.22,
      "learning_rate": 1.0281778334376958e-05,
      "loss": 0.3718,
      "step": 14461,
      "task_loss": 0.438680499792099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6323792934417725,
      "epoch": 12.22,
      "learning_rate": 1.0278647463994991e-05,
      "loss": 0.521,
      "step": 14462,
      "task_loss": 0.7026801109313965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34872913360595703,
      "epoch": 12.23,
      "learning_rate": 1.0275516593613024e-05,
      "loss": 0.4694,
      "step": 14463,
      "task_loss": 0.5214009881019592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4487060010433197,
      "epoch": 12.23,
      "learning_rate": 1.027238572323106e-05,
      "loss": 0.4283,
      "step": 14464,
      "task_loss": 0.4911840856075287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6098967790603638,
      "epoch": 12.23,
      "learning_rate": 1.0269254852849093e-05,
      "loss": 0.5077,
      "step": 14465,
      "task_loss": 0.9063931107521057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.611375093460083,
      "epoch": 12.23,
      "learning_rate": 1.0266123982467127e-05,
      "loss": 0.6204,
      "step": 14466,
      "task_loss": 1.1654434204101562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6288065910339355,
      "epoch": 12.23,
      "learning_rate": 1.026299311208516e-05,
      "loss": 0.498,
      "step": 14467,
      "task_loss": 0.7282651662826538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3574977517127991,
      "epoch": 12.23,
      "learning_rate": 1.0259862241703194e-05,
      "loss": 0.3804,
      "step": 14468,
      "task_loss": 0.4534858167171478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8085570335388184,
      "epoch": 12.23,
      "learning_rate": 1.0256731371321229e-05,
      "loss": 0.6034,
      "step": 14469,
      "task_loss": 1.3755818605422974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3932071626186371,
      "epoch": 12.23,
      "learning_rate": 1.0253600500939262e-05,
      "loss": 0.347,
      "step": 14470,
      "task_loss": 0.2860782742500305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3250789940357208,
      "epoch": 12.23,
      "learning_rate": 1.0250469630557296e-05,
      "loss": 0.3952,
      "step": 14471,
      "task_loss": 1.1748497486114502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3216533362865448,
      "epoch": 12.23,
      "learning_rate": 1.024733876017533e-05,
      "loss": 0.4293,
      "step": 14472,
      "task_loss": 0.4709009826183319
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2494492530822754,
      "epoch": 12.23,
      "learning_rate": 1.0244207889793363e-05,
      "loss": 0.3922,
      "step": 14473,
      "task_loss": 0.16961602866649628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9228334426879883,
      "epoch": 12.23,
      "learning_rate": 1.0241077019411396e-05,
      "loss": 0.5976,
      "step": 14474,
      "task_loss": 0.5621400475502014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5778192281723022,
      "epoch": 12.24,
      "learning_rate": 1.023794614902943e-05,
      "loss": 0.4593,
      "step": 14475,
      "task_loss": 1.3145537376403809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20948417484760284,
      "epoch": 12.24,
      "learning_rate": 1.0234815278647463e-05,
      "loss": 0.4539,
      "step": 14476,
      "task_loss": 0.057169362902641296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281665921211243,
      "epoch": 12.24,
      "learning_rate": 1.0231684408265498e-05,
      "loss": 0.5946,
      "step": 14477,
      "task_loss": 0.4867236316204071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4313843250274658,
      "epoch": 12.24,
      "learning_rate": 1.0228553537883533e-05,
      "loss": 0.4112,
      "step": 14478,
      "task_loss": 0.570667564868927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5530379414558411,
      "epoch": 12.24,
      "learning_rate": 1.0225422667501567e-05,
      "loss": 0.6289,
      "step": 14479,
      "task_loss": 0.07699833065271378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3982776999473572,
      "epoch": 12.24,
      "learning_rate": 1.02222917971196e-05,
      "loss": 0.5931,
      "step": 14480,
      "task_loss": 1.4724922180175781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5062803626060486,
      "epoch": 12.24,
      "learning_rate": 1.0219160926737634e-05,
      "loss": 0.4135,
      "step": 14481,
      "task_loss": 0.23322251439094543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43579232692718506,
      "epoch": 12.24,
      "learning_rate": 1.0216030056355667e-05,
      "loss": 0.383,
      "step": 14482,
      "task_loss": 0.1957930326461792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31929194927215576,
      "epoch": 12.24,
      "learning_rate": 1.02128991859737e-05,
      "loss": 0.4158,
      "step": 14483,
      "task_loss": 0.2037956714630127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31927573680877686,
      "epoch": 12.24,
      "learning_rate": 1.0209768315591734e-05,
      "loss": 0.4806,
      "step": 14484,
      "task_loss": 0.9961643218994141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38961637020111084,
      "epoch": 12.24,
      "learning_rate": 1.0206637445209768e-05,
      "loss": 0.4147,
      "step": 14485,
      "task_loss": 1.4935146570205688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.643234372138977,
      "epoch": 12.24,
      "learning_rate": 1.0203506574827803e-05,
      "loss": 0.506,
      "step": 14486,
      "task_loss": 0.8576134443283081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.284318745136261,
      "epoch": 12.25,
      "learning_rate": 1.0200375704445836e-05,
      "loss": 0.3256,
      "step": 14487,
      "task_loss": 0.528914213180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46164485812187195,
      "epoch": 12.25,
      "learning_rate": 1.019724483406387e-05,
      "loss": 0.4254,
      "step": 14488,
      "task_loss": 1.0491230487823486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6016682982444763,
      "epoch": 12.25,
      "learning_rate": 1.0194113963681905e-05,
      "loss": 0.6015,
      "step": 14489,
      "task_loss": 0.3544567823410034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48786869645118713,
      "epoch": 12.25,
      "learning_rate": 1.0190983093299938e-05,
      "loss": 0.4944,
      "step": 14490,
      "task_loss": 1.2955312728881836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4367653429508209,
      "epoch": 12.25,
      "learning_rate": 1.0187852222917972e-05,
      "loss": 0.4584,
      "step": 14491,
      "task_loss": 0.7390338182449341
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2372315675020218,
      "epoch": 12.25,
      "learning_rate": 1.0184721352536005e-05,
      "loss": 0.3915,
      "step": 14492,
      "task_loss": 0.38172993063926697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45365989208221436,
      "epoch": 12.25,
      "learning_rate": 1.0181590482154039e-05,
      "loss": 0.4072,
      "step": 14493,
      "task_loss": 0.9413063526153564
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4093652367591858,
      "epoch": 12.25,
      "learning_rate": 1.0178459611772072e-05,
      "loss": 0.4154,
      "step": 14494,
      "task_loss": 0.7636248469352722
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2721865177154541,
      "epoch": 12.25,
      "learning_rate": 1.0175328741390108e-05,
      "loss": 0.3386,
      "step": 14495,
      "task_loss": 0.5567446351051331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29463934898376465,
      "epoch": 12.25,
      "learning_rate": 1.0172197871008141e-05,
      "loss": 0.4281,
      "step": 14496,
      "task_loss": 0.21087147295475006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4380183517932892,
      "epoch": 12.25,
      "learning_rate": 1.0169067000626175e-05,
      "loss": 0.5474,
      "step": 14497,
      "task_loss": 0.3512466549873352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.521388828754425,
      "epoch": 12.26,
      "learning_rate": 1.0165936130244208e-05,
      "loss": 0.3964,
      "step": 14498,
      "task_loss": 0.41047433018684387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4540198743343353,
      "epoch": 12.26,
      "learning_rate": 1.0162805259862241e-05,
      "loss": 0.4496,
      "step": 14499,
      "task_loss": 0.5711773633956909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26952749490737915,
      "epoch": 12.26,
      "learning_rate": 1.0159674389480275e-05,
      "loss": 0.4984,
      "step": 14500,
      "task_loss": 0.2640037536621094
    },
    {
      "epoch": 12.26,
      "eval_accuracy": 0.9112079207920792,
      "eval_loss": 0.3230462074279785,
      "eval_runtime": 208.2584,
      "eval_samples_per_second": 121.244,
      "eval_steps_per_second": 0.951,
      "step": 14500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4598454236984253,
      "epoch": 12.26,
      "learning_rate": 1.015654351909831e-05,
      "loss": 0.4741,
      "step": 14501,
      "task_loss": 1.5084513425827026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26540422439575195,
      "epoch": 12.26,
      "learning_rate": 1.0153412648716344e-05,
      "loss": 0.5379,
      "step": 14502,
      "task_loss": 0.1507975459098816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766352415084839,
      "epoch": 12.26,
      "learning_rate": 1.0150281778334377e-05,
      "loss": 0.4105,
      "step": 14503,
      "task_loss": 0.9161078333854675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5222874879837036,
      "epoch": 12.26,
      "learning_rate": 1.0147150907952412e-05,
      "loss": 0.4917,
      "step": 14504,
      "task_loss": 0.809251606464386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20015108585357666,
      "epoch": 12.26,
      "learning_rate": 1.0144020037570446e-05,
      "loss": 0.3659,
      "step": 14505,
      "task_loss": 0.3396831154823303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4076424539089203,
      "epoch": 12.26,
      "learning_rate": 1.014088916718848e-05,
      "loss": 0.4445,
      "step": 14506,
      "task_loss": 0.5808071494102478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29095131158828735,
      "epoch": 12.26,
      "learning_rate": 1.0137758296806513e-05,
      "loss": 0.478,
      "step": 14507,
      "task_loss": 0.2254061996936798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42585915327072144,
      "epoch": 12.26,
      "learning_rate": 1.0134627426424546e-05,
      "loss": 0.5877,
      "step": 14508,
      "task_loss": 0.8663202524185181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46065250039100647,
      "epoch": 12.26,
      "learning_rate": 1.013149655604258e-05,
      "loss": 0.4709,
      "step": 14509,
      "task_loss": 0.3306494355201721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41879332065582275,
      "epoch": 12.27,
      "learning_rate": 1.0128365685660613e-05,
      "loss": 0.4667,
      "step": 14510,
      "task_loss": 1.2878303527832031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9931045770645142,
      "epoch": 12.27,
      "learning_rate": 1.0125234815278648e-05,
      "loss": 0.5188,
      "step": 14511,
      "task_loss": 1.2908979654312134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4835801422595978,
      "epoch": 12.27,
      "learning_rate": 1.0122103944896682e-05,
      "loss": 0.6321,
      "step": 14512,
      "task_loss": 1.3245409727096558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7034839391708374,
      "epoch": 12.27,
      "learning_rate": 1.0118973074514717e-05,
      "loss": 0.4971,
      "step": 14513,
      "task_loss": 0.9991678595542908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7045981884002686,
      "epoch": 12.27,
      "learning_rate": 1.011584220413275e-05,
      "loss": 0.555,
      "step": 14514,
      "task_loss": 0.40556567907333374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46041518449783325,
      "epoch": 12.27,
      "learning_rate": 1.0112711333750784e-05,
      "loss": 0.5213,
      "step": 14515,
      "task_loss": 0.09152089059352875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39552241563796997,
      "epoch": 12.27,
      "learning_rate": 1.0109580463368817e-05,
      "loss": 0.414,
      "step": 14516,
      "task_loss": 0.2587932050228119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47272050380706787,
      "epoch": 12.27,
      "learning_rate": 1.010644959298685e-05,
      "loss": 0.4904,
      "step": 14517,
      "task_loss": 0.14127735793590546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2721254229545593,
      "epoch": 12.27,
      "learning_rate": 1.0103318722604884e-05,
      "loss": 0.4853,
      "step": 14518,
      "task_loss": 0.2894459664821625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4117918014526367,
      "epoch": 12.27,
      "learning_rate": 1.0100187852222918e-05,
      "loss": 0.3917,
      "step": 14519,
      "task_loss": 0.8198657631874084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4675142765045166,
      "epoch": 12.27,
      "learning_rate": 1.0097056981840953e-05,
      "loss": 0.3824,
      "step": 14520,
      "task_loss": 0.3673561215400696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4718136191368103,
      "epoch": 12.27,
      "learning_rate": 1.0093926111458986e-05,
      "loss": 0.5931,
      "step": 14521,
      "task_loss": 0.6957215666770935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.559131383895874,
      "epoch": 12.28,
      "learning_rate": 1.009079524107702e-05,
      "loss": 0.499,
      "step": 14522,
      "task_loss": 0.38375797867774963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28818973898887634,
      "epoch": 12.28,
      "learning_rate": 1.0087664370695053e-05,
      "loss": 0.3856,
      "step": 14523,
      "task_loss": 0.7117280960083008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32036256790161133,
      "epoch": 12.28,
      "learning_rate": 1.0084533500313087e-05,
      "loss": 0.3988,
      "step": 14524,
      "task_loss": 0.42993807792663574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.323172390460968,
      "epoch": 12.28,
      "learning_rate": 1.008140262993112e-05,
      "loss": 0.4493,
      "step": 14525,
      "task_loss": 0.8093869686126709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2789170742034912,
      "epoch": 12.28,
      "learning_rate": 1.0078271759549155e-05,
      "loss": 0.4002,
      "step": 14526,
      "task_loss": 0.7599226832389832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2773168087005615,
      "epoch": 12.28,
      "learning_rate": 1.0075140889167189e-05,
      "loss": 0.3809,
      "step": 14527,
      "task_loss": 0.376405268907547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5843798518180847,
      "epoch": 12.28,
      "learning_rate": 1.0072010018785222e-05,
      "loss": 0.6145,
      "step": 14528,
      "task_loss": 0.15840435028076172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4041118919849396,
      "epoch": 12.28,
      "learning_rate": 1.0068879148403258e-05,
      "loss": 0.3651,
      "step": 14529,
      "task_loss": 0.5558462738990784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21639998257160187,
      "epoch": 12.28,
      "learning_rate": 1.0065748278021291e-05,
      "loss": 0.4349,
      "step": 14530,
      "task_loss": 0.21574071049690247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3545726537704468,
      "epoch": 12.28,
      "learning_rate": 1.0062617407639325e-05,
      "loss": 0.5112,
      "step": 14531,
      "task_loss": 0.604895830154419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4155365228652954,
      "epoch": 12.28,
      "learning_rate": 1.0059486537257358e-05,
      "loss": 0.4905,
      "step": 14532,
      "task_loss": 1.0379302501678467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43529796600341797,
      "epoch": 12.28,
      "learning_rate": 1.0056355666875391e-05,
      "loss": 0.378,
      "step": 14533,
      "task_loss": 0.29578596353530884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5206825733184814,
      "epoch": 12.29,
      "learning_rate": 1.0053224796493425e-05,
      "loss": 0.3813,
      "step": 14534,
      "task_loss": 0.13575197756290436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42034369707107544,
      "epoch": 12.29,
      "learning_rate": 1.0050093926111458e-05,
      "loss": 0.383,
      "step": 14535,
      "task_loss": 0.7625797390937805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22533157467842102,
      "epoch": 12.29,
      "learning_rate": 1.0046963055729492e-05,
      "loss": 0.3299,
      "step": 14536,
      "task_loss": 0.4419572055339813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3773445188999176,
      "epoch": 12.29,
      "learning_rate": 1.0043832185347527e-05,
      "loss": 0.4431,
      "step": 14537,
      "task_loss": 0.5341012477874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49701938033103943,
      "epoch": 12.29,
      "learning_rate": 1.0040701314965562e-05,
      "loss": 0.3759,
      "step": 14538,
      "task_loss": 0.23090395331382751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4756737947463989,
      "epoch": 12.29,
      "learning_rate": 1.0037570444583596e-05,
      "loss": 0.4973,
      "step": 14539,
      "task_loss": 0.4227042496204376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.383512020111084,
      "epoch": 12.29,
      "learning_rate": 1.003443957420163e-05,
      "loss": 0.4834,
      "step": 14540,
      "task_loss": 1.7165206670761108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37886977195739746,
      "epoch": 12.29,
      "learning_rate": 1.0031308703819663e-05,
      "loss": 0.4667,
      "step": 14541,
      "task_loss": 0.3031805455684662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4949953556060791,
      "epoch": 12.29,
      "learning_rate": 1.0028177833437696e-05,
      "loss": 0.4329,
      "step": 14542,
      "task_loss": 0.8752137422561646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.597128689289093,
      "epoch": 12.29,
      "learning_rate": 1.002504696305573e-05,
      "loss": 0.4312,
      "step": 14543,
      "task_loss": 1.1711857318878174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47389185428619385,
      "epoch": 12.29,
      "learning_rate": 1.0021916092673763e-05,
      "loss": 0.4419,
      "step": 14544,
      "task_loss": 0.5139250159263611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6570245623588562,
      "epoch": 12.29,
      "learning_rate": 1.0018785222291798e-05,
      "loss": 0.3866,
      "step": 14545,
      "task_loss": 0.9047538638114929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.10478439927101135,
      "epoch": 12.3,
      "learning_rate": 1.0015654351909832e-05,
      "loss": 0.393,
      "step": 14546,
      "task_loss": 0.01945769041776657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6854181289672852,
      "epoch": 12.3,
      "learning_rate": 1.0012523481527865e-05,
      "loss": 0.5266,
      "step": 14547,
      "task_loss": 1.1572860479354858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3705092668533325,
      "epoch": 12.3,
      "learning_rate": 1.0009392611145899e-05,
      "loss": 0.4064,
      "step": 14548,
      "task_loss": 0.480216383934021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22455236315727234,
      "epoch": 12.3,
      "learning_rate": 1.0006261740763932e-05,
      "loss": 0.3449,
      "step": 14549,
      "task_loss": 0.3555169105529785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6217678785324097,
      "epoch": 12.3,
      "learning_rate": 1.0003130870381967e-05,
      "loss": 0.5418,
      "step": 14550,
      "task_loss": 0.5852357149124146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7339543104171753,
      "epoch": 12.3,
      "learning_rate": 1e-05,
      "loss": 0.5388,
      "step": 14551,
      "task_loss": 0.4038277566432953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25761958956718445,
      "epoch": 12.3,
      "learning_rate": 9.996869129618034e-06,
      "loss": 0.3845,
      "step": 14552,
      "task_loss": 0.524608850479126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5937647819519043,
      "epoch": 12.3,
      "learning_rate": 9.993738259236068e-06,
      "loss": 0.4743,
      "step": 14553,
      "task_loss": 0.4629884958267212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33379894495010376,
      "epoch": 12.3,
      "learning_rate": 9.990607388854103e-06,
      "loss": 0.5206,
      "step": 14554,
      "task_loss": 0.6865701675415039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5873088240623474,
      "epoch": 12.3,
      "learning_rate": 9.987476518472136e-06,
      "loss": 0.4887,
      "step": 14555,
      "task_loss": 0.2607617676258087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5039251446723938,
      "epoch": 12.3,
      "learning_rate": 9.98434564809017e-06,
      "loss": 0.4543,
      "step": 14556,
      "task_loss": 0.8605638742446899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3878421485424042,
      "epoch": 12.3,
      "learning_rate": 9.981214777708203e-06,
      "loss": 0.4731,
      "step": 14557,
      "task_loss": 0.15139126777648926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5210468769073486,
      "epoch": 12.31,
      "learning_rate": 9.978083907326237e-06,
      "loss": 0.5839,
      "step": 14558,
      "task_loss": 1.6660962104797363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3442641496658325,
      "epoch": 12.31,
      "learning_rate": 9.97495303694427e-06,
      "loss": 0.4902,
      "step": 14559,
      "task_loss": 1.0411878824234009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3128277361392975,
      "epoch": 12.31,
      "learning_rate": 9.971822166562304e-06,
      "loss": 0.413,
      "step": 14560,
      "task_loss": 0.7111147046089172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.11822091042995453,
      "epoch": 12.31,
      "learning_rate": 9.968691296180337e-06,
      "loss": 0.2784,
      "step": 14561,
      "task_loss": 0.0031592899467796087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.356578528881073,
      "epoch": 12.31,
      "learning_rate": 9.965560425798372e-06,
      "loss": 0.4729,
      "step": 14562,
      "task_loss": 0.054770659655332565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7153518199920654,
      "epoch": 12.31,
      "learning_rate": 9.962429555416408e-06,
      "loss": 0.4567,
      "step": 14563,
      "task_loss": 0.29447317123413086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4403454661369324,
      "epoch": 12.31,
      "learning_rate": 9.959298685034441e-06,
      "loss": 0.402,
      "step": 14564,
      "task_loss": 0.2333456128835678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4258449077606201,
      "epoch": 12.31,
      "learning_rate": 9.956167814652475e-06,
      "loss": 0.4475,
      "step": 14565,
      "task_loss": 0.7003014087677002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47005489468574524,
      "epoch": 12.31,
      "learning_rate": 9.953036944270508e-06,
      "loss": 0.3921,
      "step": 14566,
      "task_loss": 0.863681435585022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37751859426498413,
      "epoch": 12.31,
      "learning_rate": 9.949906073888542e-06,
      "loss": 0.5719,
      "step": 14567,
      "task_loss": 0.7533006072044373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3518124222755432,
      "epoch": 12.31,
      "learning_rate": 9.946775203506575e-06,
      "loss": 0.4626,
      "step": 14568,
      "task_loss": 0.23398379981517792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44701969623565674,
      "epoch": 12.32,
      "learning_rate": 9.943644333124608e-06,
      "loss": 0.3892,
      "step": 14569,
      "task_loss": 0.5345175266265869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5175586938858032,
      "epoch": 12.32,
      "learning_rate": 9.940513462742642e-06,
      "loss": 0.3743,
      "step": 14570,
      "task_loss": 0.4404710531234741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3737456202507019,
      "epoch": 12.32,
      "learning_rate": 9.937382592360677e-06,
      "loss": 0.3649,
      "step": 14571,
      "task_loss": 0.9470277428627014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33431363105773926,
      "epoch": 12.32,
      "learning_rate": 9.93425172197871e-06,
      "loss": 0.5677,
      "step": 14572,
      "task_loss": 0.8039200901985168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4713023006916046,
      "epoch": 12.32,
      "learning_rate": 9.931120851596744e-06,
      "loss": 0.536,
      "step": 14573,
      "task_loss": 0.9152107834815979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27370917797088623,
      "epoch": 12.32,
      "learning_rate": 9.927989981214778e-06,
      "loss": 0.3755,
      "step": 14574,
      "task_loss": 0.44634807109832764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4038134813308716,
      "epoch": 12.32,
      "learning_rate": 9.924859110832813e-06,
      "loss": 0.3457,
      "step": 14575,
      "task_loss": 0.5954149961471558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5326566100120544,
      "epoch": 12.32,
      "learning_rate": 9.921728240450846e-06,
      "loss": 0.5033,
      "step": 14576,
      "task_loss": 0.2707122564315796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8373572826385498,
      "epoch": 12.32,
      "learning_rate": 9.91859737006888e-06,
      "loss": 0.5419,
      "step": 14577,
      "task_loss": 0.4740775227546692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42720848321914673,
      "epoch": 12.32,
      "learning_rate": 9.915466499686913e-06,
      "loss": 0.4782,
      "step": 14578,
      "task_loss": 0.7127529382705688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2603372037410736,
      "epoch": 12.32,
      "learning_rate": 9.912335629304947e-06,
      "loss": 0.5209,
      "step": 14579,
      "task_loss": 0.6596167683601379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5580909848213196,
      "epoch": 12.32,
      "learning_rate": 9.909204758922982e-06,
      "loss": 0.3527,
      "step": 14580,
      "task_loss": 0.779138445854187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6649438142776489,
      "epoch": 12.33,
      "learning_rate": 9.906073888541015e-06,
      "loss": 0.588,
      "step": 14581,
      "task_loss": 0.2990189790725708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41873130202293396,
      "epoch": 12.33,
      "learning_rate": 9.902943018159049e-06,
      "loss": 0.5219,
      "step": 14582,
      "task_loss": 1.1253660917282104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6432522535324097,
      "epoch": 12.33,
      "learning_rate": 9.899812147777082e-06,
      "loss": 0.3857,
      "step": 14583,
      "task_loss": 1.027683973312378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6593071818351746,
      "epoch": 12.33,
      "learning_rate": 9.896681277395116e-06,
      "loss": 0.4572,
      "step": 14584,
      "task_loss": 0.4214004576206207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7980611324310303,
      "epoch": 12.33,
      "learning_rate": 9.893550407013149e-06,
      "loss": 0.5813,
      "step": 14585,
      "task_loss": 1.0225154161453247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.377458393573761,
      "epoch": 12.33,
      "learning_rate": 9.890419536631183e-06,
      "loss": 0.4359,
      "step": 14586,
      "task_loss": 0.3142402470111847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4010908901691437,
      "epoch": 12.33,
      "learning_rate": 9.887288666249218e-06,
      "loss": 0.5282,
      "step": 14587,
      "task_loss": 1.1308616399765015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4228366017341614,
      "epoch": 12.33,
      "learning_rate": 9.884157795867251e-06,
      "loss": 0.4432,
      "step": 14588,
      "task_loss": 0.6235272884368896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2651147246360779,
      "epoch": 12.33,
      "learning_rate": 9.881026925485286e-06,
      "loss": 0.3333,
      "step": 14589,
      "task_loss": 0.358211874961853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46205854415893555,
      "epoch": 12.33,
      "learning_rate": 9.87789605510332e-06,
      "loss": 0.472,
      "step": 14590,
      "task_loss": 1.241190791130066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3688144087791443,
      "epoch": 12.33,
      "learning_rate": 9.874765184721353e-06,
      "loss": 0.452,
      "step": 14591,
      "task_loss": 0.5442970395088196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7647260427474976,
      "epoch": 12.33,
      "learning_rate": 9.871634314339387e-06,
      "loss": 0.459,
      "step": 14592,
      "task_loss": 0.497050017118454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8304710984230042,
      "epoch": 12.34,
      "learning_rate": 9.86850344395742e-06,
      "loss": 0.4615,
      "step": 14593,
      "task_loss": 0.9980489015579224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22805802524089813,
      "epoch": 12.34,
      "learning_rate": 9.865372573575454e-06,
      "loss": 0.322,
      "step": 14594,
      "task_loss": 0.4270934760570526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5816479921340942,
      "epoch": 12.34,
      "learning_rate": 9.862241703193487e-06,
      "loss": 0.5357,
      "step": 14595,
      "task_loss": 0.7955360412597656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4684339761734009,
      "epoch": 12.34,
      "learning_rate": 9.859110832811522e-06,
      "loss": 0.5133,
      "step": 14596,
      "task_loss": 0.4916442334651947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5337986350059509,
      "epoch": 12.34,
      "learning_rate": 9.855979962429556e-06,
      "loss": 0.4422,
      "step": 14597,
      "task_loss": 0.7394416928291321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6985774040222168,
      "epoch": 12.34,
      "learning_rate": 9.85284909204759e-06,
      "loss": 0.5568,
      "step": 14598,
      "task_loss": 0.7867944836616516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6276285648345947,
      "epoch": 12.34,
      "learning_rate": 9.849718221665625e-06,
      "loss": 0.4848,
      "step": 14599,
      "task_loss": 1.0783599615097046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5108577013015747,
      "epoch": 12.34,
      "learning_rate": 9.846587351283658e-06,
      "loss": 0.3603,
      "step": 14600,
      "task_loss": 0.4007719159126282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5835545063018799,
      "epoch": 12.34,
      "learning_rate": 9.843456480901692e-06,
      "loss": 0.5057,
      "step": 14601,
      "task_loss": 0.33065810799598694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385329723358154,
      "epoch": 12.34,
      "learning_rate": 9.840325610519725e-06,
      "loss": 0.4444,
      "step": 14602,
      "task_loss": 0.8973146080970764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5698426961898804,
      "epoch": 12.34,
      "learning_rate": 9.837194740137758e-06,
      "loss": 0.4618,
      "step": 14603,
      "task_loss": 0.7909348607063293
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42060238122940063,
      "epoch": 12.34,
      "learning_rate": 9.834063869755792e-06,
      "loss": 0.4997,
      "step": 14604,
      "task_loss": 1.2903310060501099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4480874538421631,
      "epoch": 12.35,
      "learning_rate": 9.830932999373827e-06,
      "loss": 0.4441,
      "step": 14605,
      "task_loss": 0.7152438163757324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2684760093688965,
      "epoch": 12.35,
      "learning_rate": 9.82780212899186e-06,
      "loss": 0.4421,
      "step": 14606,
      "task_loss": 0.9044064879417419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41207993030548096,
      "epoch": 12.35,
      "learning_rate": 9.824671258609894e-06,
      "loss": 0.4526,
      "step": 14607,
      "task_loss": 0.6082610487937927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35425013303756714,
      "epoch": 12.35,
      "learning_rate": 9.821540388227928e-06,
      "loss": 0.4158,
      "step": 14608,
      "task_loss": 0.7137708067893982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4714858829975128,
      "epoch": 12.35,
      "learning_rate": 9.818409517845961e-06,
      "loss": 0.4742,
      "step": 14609,
      "task_loss": 0.5835442543029785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6468356847763062,
      "epoch": 12.35,
      "learning_rate": 9.815278647463994e-06,
      "loss": 0.5564,
      "step": 14610,
      "task_loss": 1.0354785919189453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5841670632362366,
      "epoch": 12.35,
      "learning_rate": 9.812147777082028e-06,
      "loss": 0.4216,
      "step": 14611,
      "task_loss": 0.20871593058109283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4072497487068176,
      "epoch": 12.35,
      "learning_rate": 9.809016906700063e-06,
      "loss": 0.4143,
      "step": 14612,
      "task_loss": 0.6521146297454834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3376009166240692,
      "epoch": 12.35,
      "learning_rate": 9.805886036318097e-06,
      "loss": 0.3141,
      "step": 14613,
      "task_loss": 0.027771824970841408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8500915765762329,
      "epoch": 12.35,
      "learning_rate": 9.802755165936132e-06,
      "loss": 0.519,
      "step": 14614,
      "task_loss": 1.1849905252456665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5400584936141968,
      "epoch": 12.35,
      "learning_rate": 9.799624295554165e-06,
      "loss": 0.4575,
      "step": 14615,
      "task_loss": 0.5619030594825745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2888426184654236,
      "epoch": 12.35,
      "learning_rate": 9.796493425172199e-06,
      "loss": 0.4069,
      "step": 14616,
      "task_loss": 0.43865859508514404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.63481605052948,
      "epoch": 12.36,
      "learning_rate": 9.793362554790232e-06,
      "loss": 0.636,
      "step": 14617,
      "task_loss": 0.46654075384140015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5162043571472168,
      "epoch": 12.36,
      "learning_rate": 9.790231684408266e-06,
      "loss": 0.4059,
      "step": 14618,
      "task_loss": 0.23441144824028015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4185490608215332,
      "epoch": 12.36,
      "learning_rate": 9.7871008140263e-06,
      "loss": 0.4573,
      "step": 14619,
      "task_loss": 0.7340905070304871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3354703485965729,
      "epoch": 12.36,
      "learning_rate": 9.783969943644333e-06,
      "loss": 0.3415,
      "step": 14620,
      "task_loss": 0.5071995854377747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32242971658706665,
      "epoch": 12.36,
      "learning_rate": 9.780839073262368e-06,
      "loss": 0.3711,
      "step": 14621,
      "task_loss": 0.5025303363800049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46094629168510437,
      "epoch": 12.36,
      "learning_rate": 9.777708202880401e-06,
      "loss": 0.4942,
      "step": 14622,
      "task_loss": 0.9212746620178223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31681114435195923,
      "epoch": 12.36,
      "learning_rate": 9.774577332498435e-06,
      "loss": 0.382,
      "step": 14623,
      "task_loss": 0.29950857162475586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44357356429100037,
      "epoch": 12.36,
      "learning_rate": 9.77144646211647e-06,
      "loss": 0.4232,
      "step": 14624,
      "task_loss": 1.4854581356048584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5406948328018188,
      "epoch": 12.36,
      "learning_rate": 9.768315591734503e-06,
      "loss": 0.539,
      "step": 14625,
      "task_loss": 0.9739474058151245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.630133867263794,
      "epoch": 12.36,
      "learning_rate": 9.765184721352537e-06,
      "loss": 0.5127,
      "step": 14626,
      "task_loss": 0.7882195115089417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5098047852516174,
      "epoch": 12.36,
      "learning_rate": 9.76205385097057e-06,
      "loss": 0.4591,
      "step": 14627,
      "task_loss": 0.6528857946395874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5079978704452515,
      "epoch": 12.36,
      "learning_rate": 9.758922980588604e-06,
      "loss": 0.448,
      "step": 14628,
      "task_loss": 0.6099722385406494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22728562355041504,
      "epoch": 12.37,
      "learning_rate": 9.755792110206637e-06,
      "loss": 0.3307,
      "step": 14629,
      "task_loss": 0.1330343782901764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4112245440483093,
      "epoch": 12.37,
      "learning_rate": 9.752661239824672e-06,
      "loss": 0.5032,
      "step": 14630,
      "task_loss": 0.11709866672754288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22041966021060944,
      "epoch": 12.37,
      "learning_rate": 9.749530369442706e-06,
      "loss": 0.3527,
      "step": 14631,
      "task_loss": 0.2695468068122864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31472906470298767,
      "epoch": 12.37,
      "learning_rate": 9.74639949906074e-06,
      "loss": 0.4248,
      "step": 14632,
      "task_loss": 0.711920440196991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463173389434814,
      "epoch": 12.37,
      "learning_rate": 9.743268628678773e-06,
      "loss": 0.4901,
      "step": 14633,
      "task_loss": 0.45144322514533997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4406052529811859,
      "epoch": 12.37,
      "learning_rate": 9.740137758296806e-06,
      "loss": 0.6242,
      "step": 14634,
      "task_loss": 0.21091362833976746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42399442195892334,
      "epoch": 12.37,
      "learning_rate": 9.73700688791484e-06,
      "loss": 0.5736,
      "step": 14635,
      "task_loss": 0.8575429916381836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47509512305259705,
      "epoch": 12.37,
      "learning_rate": 9.733876017532875e-06,
      "loss": 0.5562,
      "step": 14636,
      "task_loss": 0.4169047772884369
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3030160963535309,
      "epoch": 12.37,
      "learning_rate": 9.730745147150908e-06,
      "loss": 0.3903,
      "step": 14637,
      "task_loss": 0.06099078431725502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6846891045570374,
      "epoch": 12.37,
      "learning_rate": 9.727614276768942e-06,
      "loss": 0.4957,
      "step": 14638,
      "task_loss": 0.1715846061706543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30436769127845764,
      "epoch": 12.37,
      "learning_rate": 9.724483406386977e-06,
      "loss": 0.3328,
      "step": 14639,
      "task_loss": 0.6216034889221191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5342002511024475,
      "epoch": 12.38,
      "learning_rate": 9.72135253600501e-06,
      "loss": 0.4352,
      "step": 14640,
      "task_loss": 1.5380922555923462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5149276256561279,
      "epoch": 12.38,
      "learning_rate": 9.718221665623044e-06,
      "loss": 0.7101,
      "step": 14641,
      "task_loss": 1.1941050291061401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.305865079164505,
      "epoch": 12.38,
      "learning_rate": 9.715090795241078e-06,
      "loss": 0.448,
      "step": 14642,
      "task_loss": 0.20444296300411224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5604305267333984,
      "epoch": 12.38,
      "learning_rate": 9.711959924859111e-06,
      "loss": 0.5486,
      "step": 14643,
      "task_loss": 1.3393365144729614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2830623686313629,
      "epoch": 12.38,
      "learning_rate": 9.708829054477145e-06,
      "loss": 0.3578,
      "step": 14644,
      "task_loss": 0.20703378319740295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5267239212989807,
      "epoch": 12.38,
      "learning_rate": 9.705698184095178e-06,
      "loss": 0.5139,
      "step": 14645,
      "task_loss": 1.1764203310012817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5067201256752014,
      "epoch": 12.38,
      "learning_rate": 9.702567313713211e-06,
      "loss": 0.4035,
      "step": 14646,
      "task_loss": 0.6470180153846741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25027093291282654,
      "epoch": 12.38,
      "learning_rate": 9.699436443331247e-06,
      "loss": 0.2157,
      "step": 14647,
      "task_loss": 0.47575843334198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6212410926818848,
      "epoch": 12.38,
      "learning_rate": 9.696305572949282e-06,
      "loss": 0.468,
      "step": 14648,
      "task_loss": 1.1924700736999512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41332608461380005,
      "epoch": 12.38,
      "learning_rate": 9.693174702567315e-06,
      "loss": 0.5759,
      "step": 14649,
      "task_loss": 0.39004701375961304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4155759811401367,
      "epoch": 12.38,
      "learning_rate": 9.690043832185349e-06,
      "loss": 0.3627,
      "step": 14650,
      "task_loss": 0.6793668866157532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20191055536270142,
      "epoch": 12.38,
      "learning_rate": 9.686912961803382e-06,
      "loss": 0.294,
      "step": 14651,
      "task_loss": 0.03252948075532913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7466074824333191,
      "epoch": 12.39,
      "learning_rate": 9.683782091421416e-06,
      "loss": 0.5315,
      "step": 14652,
      "task_loss": 0.720479428768158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4304879903793335,
      "epoch": 12.39,
      "learning_rate": 9.68065122103945e-06,
      "loss": 0.5743,
      "step": 14653,
      "task_loss": 0.35586726665496826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6512069702148438,
      "epoch": 12.39,
      "learning_rate": 9.677520350657483e-06,
      "loss": 0.4158,
      "step": 14654,
      "task_loss": 1.739267110824585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6301002502441406,
      "epoch": 12.39,
      "learning_rate": 9.674389480275516e-06,
      "loss": 0.5386,
      "step": 14655,
      "task_loss": 0.9066369533538818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42994415760040283,
      "epoch": 12.39,
      "learning_rate": 9.671258609893551e-06,
      "loss": 0.4305,
      "step": 14656,
      "task_loss": 1.2509936094284058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6233416795730591,
      "epoch": 12.39,
      "learning_rate": 9.668127739511585e-06,
      "loss": 0.6312,
      "step": 14657,
      "task_loss": 0.9718807339668274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1944746971130371,
      "epoch": 12.39,
      "learning_rate": 9.664996869129618e-06,
      "loss": 0.2846,
      "step": 14658,
      "task_loss": 0.02547280117869377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34370681643486023,
      "epoch": 12.39,
      "learning_rate": 9.661865998747652e-06,
      "loss": 0.3827,
      "step": 14659,
      "task_loss": 0.4276195466518402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4661281704902649,
      "epoch": 12.39,
      "learning_rate": 9.658735128365685e-06,
      "loss": 0.4538,
      "step": 14660,
      "task_loss": 0.5934279561042786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42902278900146484,
      "epoch": 12.39,
      "learning_rate": 9.65560425798372e-06,
      "loss": 0.4271,
      "step": 14661,
      "task_loss": 0.25998833775520325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6767672300338745,
      "epoch": 12.39,
      "learning_rate": 9.652473387601754e-06,
      "loss": 0.505,
      "step": 14662,
      "task_loss": 0.37933090329170227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36435651779174805,
      "epoch": 12.39,
      "learning_rate": 9.649342517219787e-06,
      "loss": 0.4812,
      "step": 14663,
      "task_loss": 0.4493657946586609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24385309219360352,
      "epoch": 12.4,
      "learning_rate": 9.64621164683782e-06,
      "loss": 0.3649,
      "step": 14664,
      "task_loss": 0.09016034007072449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7486042976379395,
      "epoch": 12.4,
      "learning_rate": 9.643080776455856e-06,
      "loss": 0.4724,
      "step": 14665,
      "task_loss": 1.1427284479141235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2991369366645813,
      "epoch": 12.4,
      "learning_rate": 9.63994990607389e-06,
      "loss": 0.4384,
      "step": 14666,
      "task_loss": 0.1348358690738678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34151312708854675,
      "epoch": 12.4,
      "learning_rate": 9.636819035691923e-06,
      "loss": 0.3716,
      "step": 14667,
      "task_loss": 0.3809586763381958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5027100443840027,
      "epoch": 12.4,
      "learning_rate": 9.633688165309956e-06,
      "loss": 0.4536,
      "step": 14668,
      "task_loss": 0.6628871560096741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39671826362609863,
      "epoch": 12.4,
      "learning_rate": 9.63055729492799e-06,
      "loss": 0.3783,
      "step": 14669,
      "task_loss": 0.7762985825538635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5504164099693298,
      "epoch": 12.4,
      "learning_rate": 9.627426424546023e-06,
      "loss": 0.5058,
      "step": 14670,
      "task_loss": 0.5127440094947815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5288217067718506,
      "epoch": 12.4,
      "learning_rate": 9.624295554164057e-06,
      "loss": 0.5149,
      "step": 14671,
      "task_loss": 0.4127315580844879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.13443197309970856,
      "epoch": 12.4,
      "learning_rate": 9.621164683782092e-06,
      "loss": 0.3777,
      "step": 14672,
      "task_loss": 0.038654591888189316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31835269927978516,
      "epoch": 12.4,
      "learning_rate": 9.618033813400127e-06,
      "loss": 0.3828,
      "step": 14673,
      "task_loss": 0.48988431692123413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19893494248390198,
      "epoch": 12.4,
      "learning_rate": 9.61490294301816e-06,
      "loss": 0.4096,
      "step": 14674,
      "task_loss": 0.38575831055641174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5929683446884155,
      "epoch": 12.4,
      "learning_rate": 9.611772072636194e-06,
      "loss": 0.6687,
      "step": 14675,
      "task_loss": 1.1739789247512817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3107295632362366,
      "epoch": 12.41,
      "learning_rate": 9.608641202254228e-06,
      "loss": 0.3805,
      "step": 14676,
      "task_loss": 0.16289593279361725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20965439081192017,
      "epoch": 12.41,
      "learning_rate": 9.605510331872261e-06,
      "loss": 0.2337,
      "step": 14677,
      "task_loss": 0.20043714344501495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5195056796073914,
      "epoch": 12.41,
      "learning_rate": 9.602379461490295e-06,
      "loss": 0.5476,
      "step": 14678,
      "task_loss": 0.3178323805332184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5218809843063354,
      "epoch": 12.41,
      "learning_rate": 9.599248591108328e-06,
      "loss": 0.5445,
      "step": 14679,
      "task_loss": 0.9357633590698242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6424537897109985,
      "epoch": 12.41,
      "learning_rate": 9.596117720726361e-06,
      "loss": 0.4427,
      "step": 14680,
      "task_loss": 0.2480962574481964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1660028100013733,
      "epoch": 12.41,
      "learning_rate": 9.592986850344397e-06,
      "loss": 0.3356,
      "step": 14681,
      "task_loss": 0.08022197335958481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2944008409976959,
      "epoch": 12.41,
      "learning_rate": 9.58985597996243e-06,
      "loss": 0.3327,
      "step": 14682,
      "task_loss": 0.19394458830356598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4209335744380951,
      "epoch": 12.41,
      "learning_rate": 9.586725109580464e-06,
      "loss": 0.5712,
      "step": 14683,
      "task_loss": 0.23998570442199707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5634985566139221,
      "epoch": 12.41,
      "learning_rate": 9.583594239198497e-06,
      "loss": 0.4619,
      "step": 14684,
      "task_loss": 0.7807695269584656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15960168838500977,
      "epoch": 12.41,
      "learning_rate": 9.580463368816532e-06,
      "loss": 0.2972,
      "step": 14685,
      "task_loss": 0.03930402174592018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2224849909543991,
      "epoch": 12.41,
      "learning_rate": 9.577332498434566e-06,
      "loss": 0.4644,
      "step": 14686,
      "task_loss": 0.34739094972610474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40588581562042236,
      "epoch": 12.41,
      "learning_rate": 9.5742016280526e-06,
      "loss": 0.5299,
      "step": 14687,
      "task_loss": 0.2770046293735504
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40965020656585693,
      "epoch": 12.42,
      "learning_rate": 9.571070757670633e-06,
      "loss": 0.4455,
      "step": 14688,
      "task_loss": 0.6112362146377563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3977915048599243,
      "epoch": 12.42,
      "learning_rate": 9.567939887288666e-06,
      "loss": 0.4702,
      "step": 14689,
      "task_loss": 0.3116898238658905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3956308960914612,
      "epoch": 12.42,
      "learning_rate": 9.564809016906701e-06,
      "loss": 0.4802,
      "step": 14690,
      "task_loss": 0.5766125917434692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.280308336019516,
      "epoch": 12.42,
      "learning_rate": 9.561678146524735e-06,
      "loss": 0.5091,
      "step": 14691,
      "task_loss": 0.5423598885536194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2877221405506134,
      "epoch": 12.42,
      "learning_rate": 9.558547276142768e-06,
      "loss": 0.5014,
      "step": 14692,
      "task_loss": 0.3525705337524414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25418004393577576,
      "epoch": 12.42,
      "learning_rate": 9.555416405760802e-06,
      "loss": 0.3708,
      "step": 14693,
      "task_loss": 0.47025999426841736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3530370593070984,
      "epoch": 12.42,
      "learning_rate": 9.552285535378835e-06,
      "loss": 0.519,
      "step": 14694,
      "task_loss": 0.5205552577972412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40140771865844727,
      "epoch": 12.42,
      "learning_rate": 9.549154664996869e-06,
      "loss": 0.5383,
      "step": 14695,
      "task_loss": 0.8942793011665344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0197367668151855,
      "epoch": 12.42,
      "learning_rate": 9.546023794614902e-06,
      "loss": 0.6198,
      "step": 14696,
      "task_loss": 0.9088011980056763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34911832213401794,
      "epoch": 12.42,
      "learning_rate": 9.542892924232937e-06,
      "loss": 0.393,
      "step": 14697,
      "task_loss": 1.264119029045105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3217768967151642,
      "epoch": 12.42,
      "learning_rate": 9.53976205385097e-06,
      "loss": 0.5089,
      "step": 14698,
      "task_loss": 0.7098134756088257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49779653549194336,
      "epoch": 12.42,
      "learning_rate": 9.536631183469006e-06,
      "loss": 0.4197,
      "step": 14699,
      "task_loss": 0.2708057463169098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48438316583633423,
      "epoch": 12.43,
      "learning_rate": 9.53350031308704e-06,
      "loss": 0.3927,
      "step": 14700,
      "task_loss": 0.16387489438056946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7375249266624451,
      "epoch": 12.43,
      "learning_rate": 9.530369442705073e-06,
      "loss": 0.7019,
      "step": 14701,
      "task_loss": 0.7715138792991638
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4997698962688446,
      "epoch": 12.43,
      "learning_rate": 9.527238572323106e-06,
      "loss": 0.5343,
      "step": 14702,
      "task_loss": 0.8951702117919922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41002216935157776,
      "epoch": 12.43,
      "learning_rate": 9.52410770194114e-06,
      "loss": 0.5324,
      "step": 14703,
      "task_loss": 0.1820056289434433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47828397154808044,
      "epoch": 12.43,
      "learning_rate": 9.520976831559173e-06,
      "loss": 0.4476,
      "step": 14704,
      "task_loss": 0.5142514109611511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33517986536026,
      "epoch": 12.43,
      "learning_rate": 9.517845961177207e-06,
      "loss": 0.5345,
      "step": 14705,
      "task_loss": 0.30157166719436646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33635851740837097,
      "epoch": 12.43,
      "learning_rate": 9.514715090795242e-06,
      "loss": 0.4317,
      "step": 14706,
      "task_loss": 0.3909105360507965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.658149003982544,
      "epoch": 12.43,
      "learning_rate": 9.511584220413275e-06,
      "loss": 0.4768,
      "step": 14707,
      "task_loss": 0.49377384781837463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4715956449508667,
      "epoch": 12.43,
      "learning_rate": 9.508453350031309e-06,
      "loss": 0.4893,
      "step": 14708,
      "task_loss": 0.5213782787322998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6918294429779053,
      "epoch": 12.43,
      "learning_rate": 9.505322479649342e-06,
      "loss": 0.4636,
      "step": 14709,
      "task_loss": 1.0169475078582764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4416685700416565,
      "epoch": 12.43,
      "learning_rate": 9.502191609267378e-06,
      "loss": 0.4828,
      "step": 14710,
      "task_loss": 1.2408461570739746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6740844249725342,
      "epoch": 12.44,
      "learning_rate": 9.499060738885411e-06,
      "loss": 0.5616,
      "step": 14711,
      "task_loss": 0.4483846426010132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.555360734462738,
      "epoch": 12.44,
      "learning_rate": 9.495929868503445e-06,
      "loss": 0.4829,
      "step": 14712,
      "task_loss": 1.0016950368881226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3836659789085388,
      "epoch": 12.44,
      "learning_rate": 9.492798998121478e-06,
      "loss": 0.4405,
      "step": 14713,
      "task_loss": 0.1776493638753891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3667300343513489,
      "epoch": 12.44,
      "learning_rate": 9.489668127739511e-06,
      "loss": 0.4547,
      "step": 14714,
      "task_loss": 1.446820855140686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34350311756134033,
      "epoch": 12.44,
      "learning_rate": 9.486537257357547e-06,
      "loss": 0.3629,
      "step": 14715,
      "task_loss": 0.9705151915550232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9336172938346863,
      "epoch": 12.44,
      "learning_rate": 9.48340638697558e-06,
      "loss": 0.5345,
      "step": 14716,
      "task_loss": 1.4975101947784424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3528476059436798,
      "epoch": 12.44,
      "learning_rate": 9.480275516593614e-06,
      "loss": 0.4568,
      "step": 14717,
      "task_loss": 0.6302543878555298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5202656984329224,
      "epoch": 12.44,
      "learning_rate": 9.477144646211647e-06,
      "loss": 0.5818,
      "step": 14718,
      "task_loss": 0.303771436214447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3514782786369324,
      "epoch": 12.44,
      "learning_rate": 9.47401377582968e-06,
      "loss": 0.4715,
      "step": 14719,
      "task_loss": 0.1686304807662964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29416295886039734,
      "epoch": 12.44,
      "learning_rate": 9.470882905447714e-06,
      "loss": 0.5413,
      "step": 14720,
      "task_loss": 0.7457135319709778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29905009269714355,
      "epoch": 12.44,
      "learning_rate": 9.467752035065748e-06,
      "loss": 0.4541,
      "step": 14721,
      "task_loss": 0.40872201323509216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4388824999332428,
      "epoch": 12.44,
      "learning_rate": 9.464621164683783e-06,
      "loss": 0.4521,
      "step": 14722,
      "task_loss": 0.3378850221633911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37401193380355835,
      "epoch": 12.45,
      "learning_rate": 9.461490294301816e-06,
      "loss": 0.4141,
      "step": 14723,
      "task_loss": 0.5091358423233032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5174989700317383,
      "epoch": 12.45,
      "learning_rate": 9.458359423919851e-06,
      "loss": 0.445,
      "step": 14724,
      "task_loss": 0.7709438800811768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4937956929206848,
      "epoch": 12.45,
      "learning_rate": 9.455228553537885e-06,
      "loss": 0.3895,
      "step": 14725,
      "task_loss": 1.0100135803222656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1652224361896515,
      "epoch": 12.45,
      "learning_rate": 9.452097683155918e-06,
      "loss": 0.3328,
      "step": 14726,
      "task_loss": 0.11145079135894775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828906178474426,
      "epoch": 12.45,
      "learning_rate": 9.448966812773952e-06,
      "loss": 0.5431,
      "step": 14727,
      "task_loss": 0.7964751124382019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3485608398914337,
      "epoch": 12.45,
      "learning_rate": 9.445835942391985e-06,
      "loss": 0.4946,
      "step": 14728,
      "task_loss": 0.7106661796569824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19091659784317017,
      "epoch": 12.45,
      "learning_rate": 9.442705072010019e-06,
      "loss": 0.3139,
      "step": 14729,
      "task_loss": 0.0290604867041111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49220603704452515,
      "epoch": 12.45,
      "learning_rate": 9.439574201628052e-06,
      "loss": 0.5273,
      "step": 14730,
      "task_loss": 0.9913598299026489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28971412777900696,
      "epoch": 12.45,
      "learning_rate": 9.436443331246086e-06,
      "loss": 0.3745,
      "step": 14731,
      "task_loss": 0.4848233163356781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4716796576976776,
      "epoch": 12.45,
      "learning_rate": 9.43331246086412e-06,
      "loss": 0.4201,
      "step": 14732,
      "task_loss": 2.1291587352752686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33806532621383667,
      "epoch": 12.45,
      "learning_rate": 9.430181590482154e-06,
      "loss": 0.4063,
      "step": 14733,
      "task_loss": 0.27196282148361206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42938530445098877,
      "epoch": 12.45,
      "learning_rate": 9.42705072010019e-06,
      "loss": 0.4614,
      "step": 14734,
      "task_loss": 0.6874755620956421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5388944745063782,
      "epoch": 12.46,
      "learning_rate": 9.423919849718223e-06,
      "loss": 0.4367,
      "step": 14735,
      "task_loss": 0.5549059510231018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2121753692626953,
      "epoch": 12.46,
      "learning_rate": 9.420788979336256e-06,
      "loss": 0.3498,
      "step": 14736,
      "task_loss": 0.3075242340564728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3643001317977905,
      "epoch": 12.46,
      "learning_rate": 9.41765810895429e-06,
      "loss": 0.4602,
      "step": 14737,
      "task_loss": 0.3658583462238312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4629366993904114,
      "epoch": 12.46,
      "learning_rate": 9.414527238572323e-06,
      "loss": 0.4913,
      "step": 14738,
      "task_loss": 0.41415727138519287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48514366149902344,
      "epoch": 12.46,
      "learning_rate": 9.411396368190357e-06,
      "loss": 0.5198,
      "step": 14739,
      "task_loss": 0.5795744061470032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29062122106552124,
      "epoch": 12.46,
      "learning_rate": 9.40826549780839e-06,
      "loss": 0.3481,
      "step": 14740,
      "task_loss": 0.662377655506134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5343993902206421,
      "epoch": 12.46,
      "learning_rate": 9.405134627426425e-06,
      "loss": 0.419,
      "step": 14741,
      "task_loss": 0.5455877780914307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28928765654563904,
      "epoch": 12.46,
      "learning_rate": 9.402003757044459e-06,
      "loss": 0.4293,
      "step": 14742,
      "task_loss": 0.43869298696517944
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4269055426120758,
      "epoch": 12.46,
      "learning_rate": 9.398872886662492e-06,
      "loss": 0.3969,
      "step": 14743,
      "task_loss": 0.8294216990470886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9751777648925781,
      "epoch": 12.46,
      "learning_rate": 9.395742016280526e-06,
      "loss": 0.4931,
      "step": 14744,
      "task_loss": 1.0532697439193726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6504216194152832,
      "epoch": 12.46,
      "learning_rate": 9.39261114589856e-06,
      "loss": 0.5575,
      "step": 14745,
      "task_loss": 0.8153703212738037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6969987154006958,
      "epoch": 12.46,
      "learning_rate": 9.389480275516593e-06,
      "loss": 0.3946,
      "step": 14746,
      "task_loss": 1.3281341791152954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7146795988082886,
      "epoch": 12.47,
      "learning_rate": 9.386349405134628e-06,
      "loss": 0.5695,
      "step": 14747,
      "task_loss": 1.8197622299194336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2572377622127533,
      "epoch": 12.47,
      "learning_rate": 9.383218534752662e-06,
      "loss": 0.3668,
      "step": 14748,
      "task_loss": 0.1913469135761261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5378312468528748,
      "epoch": 12.47,
      "learning_rate": 9.380087664370697e-06,
      "loss": 0.4284,
      "step": 14749,
      "task_loss": 1.1747208833694458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.619360089302063,
      "epoch": 12.47,
      "learning_rate": 9.37695679398873e-06,
      "loss": 0.5563,
      "step": 14750,
      "task_loss": 0.41669991612434387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2337883710861206,
      "epoch": 12.47,
      "learning_rate": 9.373825923606764e-06,
      "loss": 0.4426,
      "step": 14751,
      "task_loss": 0.3589722216129303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3447960615158081,
      "epoch": 12.47,
      "learning_rate": 9.370695053224797e-06,
      "loss": 0.4329,
      "step": 14752,
      "task_loss": 0.28791600465774536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31859976053237915,
      "epoch": 12.47,
      "learning_rate": 9.36756418284283e-06,
      "loss": 0.3042,
      "step": 14753,
      "task_loss": 0.3572631776332855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608527660369873,
      "epoch": 12.47,
      "learning_rate": 9.364433312460864e-06,
      "loss": 0.4605,
      "step": 14754,
      "task_loss": 0.37427449226379395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4765760600566864,
      "epoch": 12.47,
      "learning_rate": 9.361302442078898e-06,
      "loss": 0.4275,
      "step": 14755,
      "task_loss": 0.4654463529586792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5343742370605469,
      "epoch": 12.47,
      "learning_rate": 9.358171571696931e-06,
      "loss": 0.5094,
      "step": 14756,
      "task_loss": 1.0607335567474365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4404110312461853,
      "epoch": 12.47,
      "learning_rate": 9.355040701314966e-06,
      "loss": 0.4531,
      "step": 14757,
      "task_loss": 0.6221530437469482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3925117552280426,
      "epoch": 12.47,
      "learning_rate": 9.351909830933e-06,
      "loss": 0.4115,
      "step": 14758,
      "task_loss": 0.31641948223114014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.314395546913147,
      "epoch": 12.48,
      "learning_rate": 9.348778960551035e-06,
      "loss": 0.3065,
      "step": 14759,
      "task_loss": 0.13915862143039703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2686830759048462,
      "epoch": 12.48,
      "learning_rate": 9.345648090169068e-06,
      "loss": 0.4494,
      "step": 14760,
      "task_loss": 0.27264153957366943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4587165117263794,
      "epoch": 12.48,
      "learning_rate": 9.342517219787102e-06,
      "loss": 0.4427,
      "step": 14761,
      "task_loss": 1.1759498119354248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25527793169021606,
      "epoch": 12.48,
      "learning_rate": 9.339386349405135e-06,
      "loss": 0.5057,
      "step": 14762,
      "task_loss": 1.2347959280014038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5503698587417603,
      "epoch": 12.48,
      "learning_rate": 9.336255479023169e-06,
      "loss": 0.5601,
      "step": 14763,
      "task_loss": 1.3858389854431152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 1.0298269987106323,
      "epoch": 12.48,
      "learning_rate": 9.333124608641202e-06,
      "loss": 0.5806,
      "step": 14764,
      "task_loss": 0.20229163765907288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42258068919181824,
      "epoch": 12.48,
      "learning_rate": 9.329993738259236e-06,
      "loss": 0.4469,
      "step": 14765,
      "task_loss": 0.32776740193367004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46958276629447937,
      "epoch": 12.48,
      "learning_rate": 9.326862867877271e-06,
      "loss": 0.5523,
      "step": 14766,
      "task_loss": 0.969241738319397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6538046598434448,
      "epoch": 12.48,
      "learning_rate": 9.323731997495304e-06,
      "loss": 0.5552,
      "step": 14767,
      "task_loss": 0.8257696032524109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3902484178543091,
      "epoch": 12.48,
      "learning_rate": 9.320601127113338e-06,
      "loss": 0.4234,
      "step": 14768,
      "task_loss": 0.29135861992836
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5277549624443054,
      "epoch": 12.48,
      "learning_rate": 9.317470256731371e-06,
      "loss": 0.5901,
      "step": 14769,
      "task_loss": 0.5943080186843872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18280300498008728,
      "epoch": 12.48,
      "learning_rate": 9.314339386349405e-06,
      "loss": 0.389,
      "step": 14770,
      "task_loss": 0.4441087543964386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47903358936309814,
      "epoch": 12.49,
      "learning_rate": 9.31120851596744e-06,
      "loss": 0.3376,
      "step": 14771,
      "task_loss": 0.6071392297744751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27390629053115845,
      "epoch": 12.49,
      "learning_rate": 9.308077645585473e-06,
      "loss": 0.4219,
      "step": 14772,
      "task_loss": 0.8729051947593689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2938857674598694,
      "epoch": 12.49,
      "learning_rate": 9.304946775203507e-06,
      "loss": 0.3999,
      "step": 14773,
      "task_loss": 0.5005175471305847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27590954303741455,
      "epoch": 12.49,
      "learning_rate": 9.30181590482154e-06,
      "loss": 0.4467,
      "step": 14774,
      "task_loss": 0.3048876225948334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6292552351951599,
      "epoch": 12.49,
      "learning_rate": 9.298685034439576e-06,
      "loss": 0.5503,
      "step": 14775,
      "task_loss": 1.0168445110321045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3161303699016571,
      "epoch": 12.49,
      "learning_rate": 9.295554164057609e-06,
      "loss": 0.4623,
      "step": 14776,
      "task_loss": 0.1794702559709549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4448234438896179,
      "epoch": 12.49,
      "learning_rate": 9.292423293675642e-06,
      "loss": 0.5079,
      "step": 14777,
      "task_loss": 0.2850111722946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38823816180229187,
      "epoch": 12.49,
      "learning_rate": 9.289292423293676e-06,
      "loss": 0.4297,
      "step": 14778,
      "task_loss": 0.7041850090026855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5654295682907104,
      "epoch": 12.49,
      "learning_rate": 9.28616155291171e-06,
      "loss": 0.5877,
      "step": 14779,
      "task_loss": 0.39959582686424255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3978337049484253,
      "epoch": 12.49,
      "learning_rate": 9.283030682529743e-06,
      "loss": 0.4826,
      "step": 14780,
      "task_loss": 0.28038275241851807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3381667137145996,
      "epoch": 12.49,
      "learning_rate": 9.279899812147776e-06,
      "loss": 0.4336,
      "step": 14781,
      "task_loss": 0.8681100606918335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20870530605316162,
      "epoch": 12.5,
      "learning_rate": 9.276768941765812e-06,
      "loss": 0.4858,
      "step": 14782,
      "task_loss": 0.731257438659668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4148085117340088,
      "epoch": 12.5,
      "learning_rate": 9.273638071383845e-06,
      "loss": 0.4073,
      "step": 14783,
      "task_loss": 1.3033674955368042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7664452791213989,
      "epoch": 12.5,
      "learning_rate": 9.27050720100188e-06,
      "loss": 0.5217,
      "step": 14784,
      "task_loss": 0.20467814803123474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35447439551353455,
      "epoch": 12.5,
      "learning_rate": 9.267376330619914e-06,
      "loss": 0.3945,
      "step": 14785,
      "task_loss": 0.4034945070743561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5855526924133301,
      "epoch": 12.5,
      "learning_rate": 9.264245460237947e-06,
      "loss": 0.6158,
      "step": 14786,
      "task_loss": 2.5622410774230957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5133451223373413,
      "epoch": 12.5,
      "learning_rate": 9.26111458985598e-06,
      "loss": 0.3883,
      "step": 14787,
      "task_loss": 1.1576846837997437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36307042837142944,
      "epoch": 12.5,
      "learning_rate": 9.257983719474014e-06,
      "loss": 0.4625,
      "step": 14788,
      "task_loss": 0.17004548013210297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26710015535354614,
      "epoch": 12.5,
      "learning_rate": 9.254852849092048e-06,
      "loss": 0.3527,
      "step": 14789,
      "task_loss": 0.3383556604385376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3150787353515625,
      "epoch": 12.5,
      "learning_rate": 9.251721978710081e-06,
      "loss": 0.3632,
      "step": 14790,
      "task_loss": 0.46556973457336426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4971507787704468,
      "epoch": 12.5,
      "learning_rate": 9.248591108328116e-06,
      "loss": 0.3812,
      "step": 14791,
      "task_loss": 0.4647805392742157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5970168113708496,
      "epoch": 12.5,
      "learning_rate": 9.24546023794615e-06,
      "loss": 0.5116,
      "step": 14792,
      "task_loss": 0.7078662514686584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31826290488243103,
      "epoch": 12.5,
      "learning_rate": 9.242329367564183e-06,
      "loss": 0.4577,
      "step": 14793,
      "task_loss": 0.43603435158729553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5124253630638123,
      "epoch": 12.51,
      "learning_rate": 9.239198497182217e-06,
      "loss": 0.4393,
      "step": 14794,
      "task_loss": 0.6310442090034485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49633485078811646,
      "epoch": 12.51,
      "learning_rate": 9.23606762680025e-06,
      "loss": 0.4703,
      "step": 14795,
      "task_loss": 0.7685193419456482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4141228199005127,
      "epoch": 12.51,
      "learning_rate": 9.232936756418285e-06,
      "loss": 0.4991,
      "step": 14796,
      "task_loss": 0.6475130319595337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5477544665336609,
      "epoch": 12.51,
      "learning_rate": 9.229805886036319e-06,
      "loss": 0.5954,
      "step": 14797,
      "task_loss": 1.1237543821334839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31644219160079956,
      "epoch": 12.51,
      "learning_rate": 9.226675015654352e-06,
      "loss": 0.3543,
      "step": 14798,
      "task_loss": 0.020511195063591003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5590564012527466,
      "epoch": 12.51,
      "learning_rate": 9.223544145272386e-06,
      "loss": 0.4516,
      "step": 14799,
      "task_loss": 0.26460370421409607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3406335115432739,
      "epoch": 12.51,
      "learning_rate": 9.220413274890421e-06,
      "loss": 0.5747,
      "step": 14800,
      "task_loss": 0.5486583709716797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19640100002288818,
      "epoch": 12.51,
      "learning_rate": 9.217282404508454e-06,
      "loss": 0.3582,
      "step": 14801,
      "task_loss": 0.18767358362674713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6727412343025208,
      "epoch": 12.51,
      "learning_rate": 9.214151534126488e-06,
      "loss": 0.502,
      "step": 14802,
      "task_loss": 1.3470044136047363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30053409934043884,
      "epoch": 12.51,
      "learning_rate": 9.211020663744521e-06,
      "loss": 0.3873,
      "step": 14803,
      "task_loss": 0.7502648830413818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38175174593925476,
      "epoch": 12.51,
      "learning_rate": 9.207889793362555e-06,
      "loss": 0.4816,
      "step": 14804,
      "task_loss": 1.0261878967285156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27959558367729187,
      "epoch": 12.51,
      "learning_rate": 9.204758922980588e-06,
      "loss": 0.4181,
      "step": 14805,
      "task_loss": 0.7289585471153259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39650458097457886,
      "epoch": 12.52,
      "learning_rate": 9.201628052598622e-06,
      "loss": 0.5371,
      "step": 14806,
      "task_loss": 0.7591821551322937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30708885192871094,
      "epoch": 12.52,
      "learning_rate": 9.198497182216655e-06,
      "loss": 0.3903,
      "step": 14807,
      "task_loss": 0.8028452396392822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30306535959243774,
      "epoch": 12.52,
      "learning_rate": 9.19536631183469e-06,
      "loss": 0.4364,
      "step": 14808,
      "task_loss": 0.20523175597190857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.524661660194397,
      "epoch": 12.52,
      "learning_rate": 9.192235441452726e-06,
      "loss": 0.4571,
      "step": 14809,
      "task_loss": 0.4419706463813782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6500345468521118,
      "epoch": 12.52,
      "learning_rate": 9.189104571070759e-06,
      "loss": 0.4295,
      "step": 14810,
      "task_loss": 0.2693732976913452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4778960347175598,
      "epoch": 12.52,
      "learning_rate": 9.185973700688792e-06,
      "loss": 0.4775,
      "step": 14811,
      "task_loss": 0.7072603106498718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5730737447738647,
      "epoch": 12.52,
      "learning_rate": 9.182842830306826e-06,
      "loss": 0.4864,
      "step": 14812,
      "task_loss": 0.9676092267036438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46137577295303345,
      "epoch": 12.52,
      "learning_rate": 9.17971195992486e-06,
      "loss": 0.4563,
      "step": 14813,
      "task_loss": 0.9787250757217407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7786381244659424,
      "epoch": 12.52,
      "learning_rate": 9.176581089542893e-06,
      "loss": 0.528,
      "step": 14814,
      "task_loss": 0.8841501474380493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7144179344177246,
      "epoch": 12.52,
      "learning_rate": 9.173450219160926e-06,
      "loss": 0.4977,
      "step": 14815,
      "task_loss": 0.6124595403671265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4053078293800354,
      "epoch": 12.52,
      "learning_rate": 9.17031934877896e-06,
      "loss": 0.3875,
      "step": 14816,
      "task_loss": 1.1427698135375977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34539926052093506,
      "epoch": 12.52,
      "learning_rate": 9.167188478396995e-06,
      "loss": 0.457,
      "step": 14817,
      "task_loss": 0.885179877281189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2574256360530853,
      "epoch": 12.53,
      "learning_rate": 9.164057608015029e-06,
      "loss": 0.4714,
      "step": 14818,
      "task_loss": 0.06290093064308167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4153746962547302,
      "epoch": 12.53,
      "learning_rate": 9.160926737633062e-06,
      "loss": 0.3892,
      "step": 14819,
      "task_loss": 0.6476618647575378
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6739339232444763,
      "epoch": 12.53,
      "learning_rate": 9.157795867251097e-06,
      "loss": 0.6893,
      "step": 14820,
      "task_loss": 0.6069790720939636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4405362010002136,
      "epoch": 12.53,
      "learning_rate": 9.15466499686913e-06,
      "loss": 0.4039,
      "step": 14821,
      "task_loss": 0.7054619789123535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42134663462638855,
      "epoch": 12.53,
      "learning_rate": 9.151534126487164e-06,
      "loss": 0.5107,
      "step": 14822,
      "task_loss": 1.0117172002792358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37993183732032776,
      "epoch": 12.53,
      "learning_rate": 9.148403256105198e-06,
      "loss": 0.4709,
      "step": 14823,
      "task_loss": 0.23894810676574707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6472810506820679,
      "epoch": 12.53,
      "learning_rate": 9.145272385723231e-06,
      "loss": 0.4472,
      "step": 14824,
      "task_loss": 0.3982540965080261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4686659574508667,
      "epoch": 12.53,
      "learning_rate": 9.142141515341266e-06,
      "loss": 0.4767,
      "step": 14825,
      "task_loss": 0.06919242441654205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5461742281913757,
      "epoch": 12.53,
      "learning_rate": 9.1390106449593e-06,
      "loss": 0.5926,
      "step": 14826,
      "task_loss": 0.6300997734069824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4741583466529846,
      "epoch": 12.53,
      "learning_rate": 9.135879774577333e-06,
      "loss": 0.3444,
      "step": 14827,
      "task_loss": 0.25290846824645996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2842337489128113,
      "epoch": 12.53,
      "learning_rate": 9.132748904195367e-06,
      "loss": 0.4933,
      "step": 14828,
      "task_loss": 0.906880259513855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2514612078666687,
      "epoch": 12.53,
      "learning_rate": 9.1296180338134e-06,
      "loss": 0.3341,
      "step": 14829,
      "task_loss": 0.6692126989364624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4997767508029938,
      "epoch": 12.54,
      "learning_rate": 9.126487163431434e-06,
      "loss": 0.5567,
      "step": 14830,
      "task_loss": 1.0277732610702515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2992899417877197,
      "epoch": 12.54,
      "learning_rate": 9.123356293049467e-06,
      "loss": 0.3704,
      "step": 14831,
      "task_loss": 0.5155743956565857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4006918966770172,
      "epoch": 12.54,
      "learning_rate": 9.120225422667502e-06,
      "loss": 0.4708,
      "step": 14832,
      "task_loss": 0.5859904885292053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31008055806159973,
      "epoch": 12.54,
      "learning_rate": 9.117094552285536e-06,
      "loss": 0.4545,
      "step": 14833,
      "task_loss": 1.403303623199463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3254470229148865,
      "epoch": 12.54,
      "learning_rate": 9.113963681903571e-06,
      "loss": 0.4906,
      "step": 14834,
      "task_loss": 0.5497162938117981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3262040913105011,
      "epoch": 12.54,
      "learning_rate": 9.110832811521604e-06,
      "loss": 0.3102,
      "step": 14835,
      "task_loss": 0.5727691650390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5231195092201233,
      "epoch": 12.54,
      "learning_rate": 9.107701941139638e-06,
      "loss": 0.4676,
      "step": 14836,
      "task_loss": 0.32439523935317993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.410333514213562,
      "epoch": 12.54,
      "learning_rate": 9.104571070757671e-06,
      "loss": 0.3882,
      "step": 14837,
      "task_loss": 0.921076238155365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15760651230812073,
      "epoch": 12.54,
      "learning_rate": 9.101440200375705e-06,
      "loss": 0.3978,
      "step": 14838,
      "task_loss": 0.32616233825683594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42282819747924805,
      "epoch": 12.54,
      "learning_rate": 9.098309329993738e-06,
      "loss": 0.4338,
      "step": 14839,
      "task_loss": 0.5304746031761169
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.210385262966156,
      "epoch": 12.54,
      "learning_rate": 9.095178459611772e-06,
      "loss": 0.4242,
      "step": 14840,
      "task_loss": 0.40476536750793457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.570370614528656,
      "epoch": 12.54,
      "learning_rate": 9.092047589229805e-06,
      "loss": 0.4641,
      "step": 14841,
      "task_loss": 0.9843732118606567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4609305262565613,
      "epoch": 12.55,
      "learning_rate": 9.08891671884784e-06,
      "loss": 0.4279,
      "step": 14842,
      "task_loss": 0.43809637427330017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3463022708892822,
      "epoch": 12.55,
      "learning_rate": 9.085785848465874e-06,
      "loss": 0.5245,
      "step": 14843,
      "task_loss": 1.1386363506317139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3915640115737915,
      "epoch": 12.55,
      "learning_rate": 9.082654978083907e-06,
      "loss": 0.3639,
      "step": 14844,
      "task_loss": 0.3761036694049835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2670002579689026,
      "epoch": 12.55,
      "learning_rate": 9.079524107701943e-06,
      "loss": 0.3845,
      "step": 14845,
      "task_loss": 0.4945778250694275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37853819131851196,
      "epoch": 12.55,
      "learning_rate": 9.076393237319976e-06,
      "loss": 0.6093,
      "step": 14846,
      "task_loss": 0.3354540169239044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245522260665894,
      "epoch": 12.55,
      "learning_rate": 9.07326236693801e-06,
      "loss": 0.4019,
      "step": 14847,
      "task_loss": 0.7204300165176392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5145204067230225,
      "epoch": 12.55,
      "learning_rate": 9.070131496556043e-06,
      "loss": 0.5326,
      "step": 14848,
      "task_loss": 0.8969506025314331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23125410079956055,
      "epoch": 12.55,
      "learning_rate": 9.067000626174076e-06,
      "loss": 0.3388,
      "step": 14849,
      "task_loss": 0.18930307030677795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23507562279701233,
      "epoch": 12.55,
      "learning_rate": 9.06386975579211e-06,
      "loss": 0.4336,
      "step": 14850,
      "task_loss": 0.0729483887553215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29923492670059204,
      "epoch": 12.55,
      "learning_rate": 9.060738885410145e-06,
      "loss": 0.371,
      "step": 14851,
      "task_loss": 0.30405858159065247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4804536700248718,
      "epoch": 12.55,
      "learning_rate": 9.057608015028179e-06,
      "loss": 0.4415,
      "step": 14852,
      "task_loss": 0.6187456846237183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39918583631515503,
      "epoch": 12.56,
      "learning_rate": 9.054477144646212e-06,
      "loss": 0.4267,
      "step": 14853,
      "task_loss": 0.8656633496284485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30365490913391113,
      "epoch": 12.56,
      "learning_rate": 9.051346274264245e-06,
      "loss": 0.3913,
      "step": 14854,
      "task_loss": 0.3493107259273529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2962064743041992,
      "epoch": 12.56,
      "learning_rate": 9.048215403882279e-06,
      "loss": 0.4499,
      "step": 14855,
      "task_loss": 0.6856915950775146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5198525190353394,
      "epoch": 12.56,
      "learning_rate": 9.045084533500312e-06,
      "loss": 0.4222,
      "step": 14856,
      "task_loss": 0.3112236261367798
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5841454267501831,
      "epoch": 12.56,
      "learning_rate": 9.041953663118348e-06,
      "loss": 0.5336,
      "step": 14857,
      "task_loss": 0.4352759122848511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36045849323272705,
      "epoch": 12.56,
      "learning_rate": 9.038822792736381e-06,
      "loss": 0.4059,
      "step": 14858,
      "task_loss": 0.7454867362976074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30854836106300354,
      "epoch": 12.56,
      "learning_rate": 9.035691922354415e-06,
      "loss": 0.3545,
      "step": 14859,
      "task_loss": 0.5559686422348022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4939218759536743,
      "epoch": 12.56,
      "learning_rate": 9.03256105197245e-06,
      "loss": 0.507,
      "step": 14860,
      "task_loss": 0.27223098278045654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42527633905410767,
      "epoch": 12.56,
      "learning_rate": 9.029430181590483e-06,
      "loss": 0.3733,
      "step": 14861,
      "task_loss": 0.23771452903747559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7278570532798767,
      "epoch": 12.56,
      "learning_rate": 9.026299311208517e-06,
      "loss": 0.5247,
      "step": 14862,
      "task_loss": 1.6112620830535889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6096972823143005,
      "epoch": 12.56,
      "learning_rate": 9.02316844082655e-06,
      "loss": 0.5183,
      "step": 14863,
      "task_loss": 0.8716512322425842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44267725944519043,
      "epoch": 12.56,
      "learning_rate": 9.020037570444584e-06,
      "loss": 0.5377,
      "step": 14864,
      "task_loss": 1.2528915405273438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5987818241119385,
      "epoch": 12.57,
      "learning_rate": 9.016906700062617e-06,
      "loss": 0.4573,
      "step": 14865,
      "task_loss": 1.374953269958496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21130748093128204,
      "epoch": 12.57,
      "learning_rate": 9.01377582968065e-06,
      "loss": 0.4418,
      "step": 14866,
      "task_loss": 0.8155895471572876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3173671364784241,
      "epoch": 12.57,
      "learning_rate": 9.010644959298686e-06,
      "loss": 0.4484,
      "step": 14867,
      "task_loss": 1.8693255186080933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3460475206375122,
      "epoch": 12.57,
      "learning_rate": 9.00751408891672e-06,
      "loss": 0.4166,
      "step": 14868,
      "task_loss": 0.7854889631271362
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47989988327026367,
      "epoch": 12.57,
      "learning_rate": 9.004383218534754e-06,
      "loss": 0.6576,
      "step": 14869,
      "task_loss": 0.681489109992981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20407040417194366,
      "epoch": 12.57,
      "learning_rate": 9.001252348152788e-06,
      "loss": 0.6076,
      "step": 14870,
      "task_loss": 0.5795115828514099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7606086730957031,
      "epoch": 12.57,
      "learning_rate": 8.998121477770821e-06,
      "loss": 0.5839,
      "step": 14871,
      "task_loss": 1.3302158117294312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46591681241989136,
      "epoch": 12.57,
      "learning_rate": 8.994990607388855e-06,
      "loss": 0.4886,
      "step": 14872,
      "task_loss": 0.9293614625930786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3414246439933777,
      "epoch": 12.57,
      "learning_rate": 8.991859737006888e-06,
      "loss": 0.3835,
      "step": 14873,
      "task_loss": 0.32577601075172424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32009774446487427,
      "epoch": 12.57,
      "learning_rate": 8.988728866624922e-06,
      "loss": 0.3894,
      "step": 14874,
      "task_loss": 0.29216548800468445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3869706988334656,
      "epoch": 12.57,
      "learning_rate": 8.985597996242955e-06,
      "loss": 0.3728,
      "step": 14875,
      "task_loss": 0.24032433331012726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3061337471008301,
      "epoch": 12.57,
      "learning_rate": 8.98246712586099e-06,
      "loss": 0.4532,
      "step": 14876,
      "task_loss": 0.7054287791252136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5846126079559326,
      "epoch": 12.58,
      "learning_rate": 8.979336255479024e-06,
      "loss": 0.4852,
      "step": 14877,
      "task_loss": 0.7050690650939941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6806417107582092,
      "epoch": 12.58,
      "learning_rate": 8.976205385097057e-06,
      "loss": 0.4388,
      "step": 14878,
      "task_loss": 0.4574021100997925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4445473551750183,
      "epoch": 12.58,
      "learning_rate": 8.97307451471509e-06,
      "loss": 0.4679,
      "step": 14879,
      "task_loss": 0.831595778465271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5354905128479004,
      "epoch": 12.58,
      "learning_rate": 8.969943644333124e-06,
      "loss": 0.3658,
      "step": 14880,
      "task_loss": 0.5835623145103455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4151933491230011,
      "epoch": 12.58,
      "learning_rate": 8.96681277395116e-06,
      "loss": 0.4481,
      "step": 14881,
      "task_loss": 0.8246848583221436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39621567726135254,
      "epoch": 12.58,
      "learning_rate": 8.963681903569193e-06,
      "loss": 0.5239,
      "step": 14882,
      "task_loss": 1.6599743366241455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5255345702171326,
      "epoch": 12.58,
      "learning_rate": 8.960551033187226e-06,
      "loss": 0.5195,
      "step": 14883,
      "task_loss": 0.6217733025550842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5051659345626831,
      "epoch": 12.58,
      "learning_rate": 8.95742016280526e-06,
      "loss": 0.4788,
      "step": 14884,
      "task_loss": 0.790012001991272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3009679615497589,
      "epoch": 12.58,
      "learning_rate": 8.954289292423295e-06,
      "loss": 0.3915,
      "step": 14885,
      "task_loss": 0.7301338911056519
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3211176097393036,
      "epoch": 12.58,
      "learning_rate": 8.951158422041329e-06,
      "loss": 0.3789,
      "step": 14886,
      "task_loss": 0.7887259125709534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3420470356941223,
      "epoch": 12.58,
      "learning_rate": 8.948027551659362e-06,
      "loss": 0.6004,
      "step": 14887,
      "task_loss": 0.8467986583709717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32181307673454285,
      "epoch": 12.58,
      "learning_rate": 8.944896681277395e-06,
      "loss": 0.4471,
      "step": 14888,
      "task_loss": 0.6851255893707275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6755098700523376,
      "epoch": 12.59,
      "learning_rate": 8.941765810895429e-06,
      "loss": 0.4483,
      "step": 14889,
      "task_loss": 0.7558509707450867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4806479811668396,
      "epoch": 12.59,
      "learning_rate": 8.938634940513462e-06,
      "loss": 0.4369,
      "step": 14890,
      "task_loss": 1.129317045211792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3778035640716553,
      "epoch": 12.59,
      "learning_rate": 8.935504070131496e-06,
      "loss": 0.3909,
      "step": 14891,
      "task_loss": 0.34499871730804443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47518977522850037,
      "epoch": 12.59,
      "learning_rate": 8.932373199749531e-06,
      "loss": 0.3996,
      "step": 14892,
      "task_loss": 0.3795377016067505
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4834267497062683,
      "epoch": 12.59,
      "learning_rate": 8.929242329367565e-06,
      "loss": 0.3894,
      "step": 14893,
      "task_loss": 0.5793136954307556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7098901271820068,
      "epoch": 12.59,
      "learning_rate": 8.9261114589856e-06,
      "loss": 0.4549,
      "step": 14894,
      "task_loss": 0.7222098112106323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5735839009284973,
      "epoch": 12.59,
      "learning_rate": 8.922980588603633e-06,
      "loss": 0.5961,
      "step": 14895,
      "task_loss": 0.46923232078552246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26213258504867554,
      "epoch": 12.59,
      "learning_rate": 8.919849718221667e-06,
      "loss": 0.3998,
      "step": 14896,
      "task_loss": 0.3808481991291046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3118307590484619,
      "epoch": 12.59,
      "learning_rate": 8.9167188478397e-06,
      "loss": 0.4835,
      "step": 14897,
      "task_loss": 0.45929980278015137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37938612699508667,
      "epoch": 12.59,
      "learning_rate": 8.913587977457734e-06,
      "loss": 0.4167,
      "step": 14898,
      "task_loss": 1.044651985168457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45125889778137207,
      "epoch": 12.59,
      "learning_rate": 8.910457107075767e-06,
      "loss": 0.4982,
      "step": 14899,
      "task_loss": 0.6281577944755554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45382773876190186,
      "epoch": 12.59,
      "learning_rate": 8.9073262366938e-06,
      "loss": 0.5269,
      "step": 14900,
      "task_loss": 0.6415404677391052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48325225710868835,
      "epoch": 12.6,
      "learning_rate": 8.904195366311836e-06,
      "loss": 0.4764,
      "step": 14901,
      "task_loss": 0.7526668310165405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24653780460357666,
      "epoch": 12.6,
      "learning_rate": 8.90106449592987e-06,
      "loss": 0.3515,
      "step": 14902,
      "task_loss": 0.15054550766944885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31439048051834106,
      "epoch": 12.6,
      "learning_rate": 8.897933625547903e-06,
      "loss": 0.467,
      "step": 14903,
      "task_loss": 0.23628124594688416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5740969181060791,
      "epoch": 12.6,
      "learning_rate": 8.894802755165936e-06,
      "loss": 0.4354,
      "step": 14904,
      "task_loss": 0.19161462783813477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34406524896621704,
      "epoch": 12.6,
      "learning_rate": 8.89167188478397e-06,
      "loss": 0.4207,
      "step": 14905,
      "task_loss": 0.820719838142395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7161105275154114,
      "epoch": 12.6,
      "learning_rate": 8.888541014402005e-06,
      "loss": 0.481,
      "step": 14906,
      "task_loss": 1.4422625303268433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3610774576663971,
      "epoch": 12.6,
      "learning_rate": 8.885410144020038e-06,
      "loss": 0.4467,
      "step": 14907,
      "task_loss": 0.16686297953128815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39500850439071655,
      "epoch": 12.6,
      "learning_rate": 8.882279273638072e-06,
      "loss": 0.4579,
      "step": 14908,
      "task_loss": 0.7884155511856079
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3458581566810608,
      "epoch": 12.6,
      "learning_rate": 8.879148403256105e-06,
      "loss": 0.5436,
      "step": 14909,
      "task_loss": 1.1006944179534912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31750744581222534,
      "epoch": 12.6,
      "learning_rate": 8.87601753287414e-06,
      "loss": 0.3039,
      "step": 14910,
      "task_loss": 0.4141862094402313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9385615587234497,
      "epoch": 12.6,
      "learning_rate": 8.872886662492174e-06,
      "loss": 0.5488,
      "step": 14911,
      "task_loss": 0.6118607521057129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6013718247413635,
      "epoch": 12.6,
      "learning_rate": 8.869755792110207e-06,
      "loss": 0.4875,
      "step": 14912,
      "task_loss": 0.6711826324462891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6636090278625488,
      "epoch": 12.61,
      "learning_rate": 8.86662492172824e-06,
      "loss": 0.5151,
      "step": 14913,
      "task_loss": 0.47691214084625244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4290599822998047,
      "epoch": 12.61,
      "learning_rate": 8.863494051346274e-06,
      "loss": 0.52,
      "step": 14914,
      "task_loss": 0.24055971205234528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42754459381103516,
      "epoch": 12.61,
      "learning_rate": 8.860363180964308e-06,
      "loss": 0.4045,
      "step": 14915,
      "task_loss": 0.7849160432815552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7903364896774292,
      "epoch": 12.61,
      "learning_rate": 8.857232310582341e-06,
      "loss": 0.5599,
      "step": 14916,
      "task_loss": 1.6914043426513672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5573076009750366,
      "epoch": 12.61,
      "learning_rate": 8.854101440200375e-06,
      "loss": 0.4696,
      "step": 14917,
      "task_loss": 0.5687537789344788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29863184690475464,
      "epoch": 12.61,
      "learning_rate": 8.85097056981841e-06,
      "loss": 0.4541,
      "step": 14918,
      "task_loss": 0.6171025633811951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34824633598327637,
      "epoch": 12.61,
      "learning_rate": 8.847839699436445e-06,
      "loss": 0.3202,
      "step": 14919,
      "task_loss": 0.6095053553581238
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5643831491470337,
      "epoch": 12.61,
      "learning_rate": 8.844708829054479e-06,
      "loss": 0.5015,
      "step": 14920,
      "task_loss": 0.6175873279571533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3126521110534668,
      "epoch": 12.61,
      "learning_rate": 8.841577958672512e-06,
      "loss": 0.4436,
      "step": 14921,
      "task_loss": 0.10836179554462433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9112505912780762,
      "epoch": 12.61,
      "learning_rate": 8.838447088290546e-06,
      "loss": 0.5502,
      "step": 14922,
      "task_loss": 0.9713506102561951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3166190981864929,
      "epoch": 12.61,
      "learning_rate": 8.835316217908579e-06,
      "loss": 0.4,
      "step": 14923,
      "task_loss": 1.2923506498336792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49920135736465454,
      "epoch": 12.61,
      "learning_rate": 8.832185347526612e-06,
      "loss": 0.6045,
      "step": 14924,
      "task_loss": 1.0267150402069092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4112991690635681,
      "epoch": 12.62,
      "learning_rate": 8.829054477144646e-06,
      "loss": 0.5515,
      "step": 14925,
      "task_loss": 0.8441474437713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4441414475440979,
      "epoch": 12.62,
      "learning_rate": 8.82592360676268e-06,
      "loss": 0.4459,
      "step": 14926,
      "task_loss": 0.6768850684165955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27627891302108765,
      "epoch": 12.62,
      "learning_rate": 8.822792736380715e-06,
      "loss": 0.4571,
      "step": 14927,
      "task_loss": 0.462390273809433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3476416766643524,
      "epoch": 12.62,
      "learning_rate": 8.819661865998748e-06,
      "loss": 0.4509,
      "step": 14928,
      "task_loss": 0.5561189651489258
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6250041127204895,
      "epoch": 12.62,
      "learning_rate": 8.816530995616782e-06,
      "loss": 0.6055,
      "step": 14929,
      "task_loss": 1.1451953649520874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3513980805873871,
      "epoch": 12.62,
      "learning_rate": 8.813400125234815e-06,
      "loss": 0.4151,
      "step": 14930,
      "task_loss": 0.6729755997657776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3823819160461426,
      "epoch": 12.62,
      "learning_rate": 8.81026925485285e-06,
      "loss": 0.4276,
      "step": 14931,
      "task_loss": 0.15493148565292358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5778601169586182,
      "epoch": 12.62,
      "learning_rate": 8.807138384470884e-06,
      "loss": 0.6624,
      "step": 14932,
      "task_loss": 0.6659271717071533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41028738021850586,
      "epoch": 12.62,
      "learning_rate": 8.804007514088917e-06,
      "loss": 0.536,
      "step": 14933,
      "task_loss": 1.0005998611450195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3477420508861542,
      "epoch": 12.62,
      "learning_rate": 8.80087664370695e-06,
      "loss": 0.4557,
      "step": 14934,
      "task_loss": 0.6053062677383423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28235718607902527,
      "epoch": 12.62,
      "learning_rate": 8.797745773324984e-06,
      "loss": 0.3911,
      "step": 14935,
      "task_loss": 0.41435712575912476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4828604459762573,
      "epoch": 12.63,
      "learning_rate": 8.79461490294302e-06,
      "loss": 0.4839,
      "step": 14936,
      "task_loss": 0.4614100754261017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7266366481781006,
      "epoch": 12.63,
      "learning_rate": 8.791484032561053e-06,
      "loss": 0.495,
      "step": 14937,
      "task_loss": 0.8454301357269287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24613283574581146,
      "epoch": 12.63,
      "learning_rate": 8.788353162179086e-06,
      "loss": 0.3982,
      "step": 14938,
      "task_loss": 0.40139010548591614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3832569122314453,
      "epoch": 12.63,
      "learning_rate": 8.78522229179712e-06,
      "loss": 0.451,
      "step": 14939,
      "task_loss": 0.7386264801025391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4367101788520813,
      "epoch": 12.63,
      "learning_rate": 8.782091421415153e-06,
      "loss": 0.6277,
      "step": 14940,
      "task_loss": 0.7650018930435181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3139549791812897,
      "epoch": 12.63,
      "learning_rate": 8.778960551033187e-06,
      "loss": 0.4034,
      "step": 14941,
      "task_loss": 0.3505925238132477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3821285367012024,
      "epoch": 12.63,
      "learning_rate": 8.77582968065122e-06,
      "loss": 0.5148,
      "step": 14942,
      "task_loss": 0.6908835768699646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2906680703163147,
      "epoch": 12.63,
      "learning_rate": 8.772698810269255e-06,
      "loss": 0.381,
      "step": 14943,
      "task_loss": 0.22858025133609772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.263770192861557,
      "epoch": 12.63,
      "learning_rate": 8.769567939887289e-06,
      "loss": 0.5299,
      "step": 14944,
      "task_loss": 0.25909313559532166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6255160570144653,
      "epoch": 12.63,
      "learning_rate": 8.766437069505324e-06,
      "loss": 0.5225,
      "step": 14945,
      "task_loss": 0.7047940492630005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39091822504997253,
      "epoch": 12.63,
      "learning_rate": 8.763306199123357e-06,
      "loss": 0.406,
      "step": 14946,
      "task_loss": 0.5998892188072205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5574036836624146,
      "epoch": 12.63,
      "learning_rate": 8.760175328741391e-06,
      "loss": 0.4638,
      "step": 14947,
      "task_loss": 0.6567528247833252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4889408349990845,
      "epoch": 12.64,
      "learning_rate": 8.757044458359424e-06,
      "loss": 0.3718,
      "step": 14948,
      "task_loss": 1.0475822687149048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42036545276641846,
      "epoch": 12.64,
      "learning_rate": 8.753913587977458e-06,
      "loss": 0.5009,
      "step": 14949,
      "task_loss": 0.6813563704490662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5711225867271423,
      "epoch": 12.64,
      "learning_rate": 8.750782717595491e-06,
      "loss": 0.5603,
      "step": 14950,
      "task_loss": 0.5468470454216003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42140138149261475,
      "epoch": 12.64,
      "learning_rate": 8.747651847213525e-06,
      "loss": 0.4752,
      "step": 14951,
      "task_loss": 0.8426974415779114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47556638717651367,
      "epoch": 12.64,
      "learning_rate": 8.74452097683156e-06,
      "loss": 0.5032,
      "step": 14952,
      "task_loss": 0.4180910289287567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5288169980049133,
      "epoch": 12.64,
      "learning_rate": 8.741390106449593e-06,
      "loss": 0.7492,
      "step": 14953,
      "task_loss": 0.6630289554595947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3038691580295563,
      "epoch": 12.64,
      "learning_rate": 8.738259236067627e-06,
      "loss": 0.5786,
      "step": 14954,
      "task_loss": 0.8012465238571167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27326661348342896,
      "epoch": 12.64,
      "learning_rate": 8.735128365685662e-06,
      "loss": 0.5251,
      "step": 14955,
      "task_loss": 0.6093032956123352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32037919759750366,
      "epoch": 12.64,
      "learning_rate": 8.731997495303696e-06,
      "loss": 0.3509,
      "step": 14956,
      "task_loss": 0.8187767863273621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5741370320320129,
      "epoch": 12.64,
      "learning_rate": 8.728866624921729e-06,
      "loss": 0.4343,
      "step": 14957,
      "task_loss": 0.9801803827285767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4221974313259125,
      "epoch": 12.64,
      "learning_rate": 8.725735754539762e-06,
      "loss": 0.5776,
      "step": 14958,
      "task_loss": 0.7329771518707275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37081044912338257,
      "epoch": 12.64,
      "learning_rate": 8.722604884157796e-06,
      "loss": 0.3724,
      "step": 14959,
      "task_loss": 0.4264255464076996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22438254952430725,
      "epoch": 12.65,
      "learning_rate": 8.71947401377583e-06,
      "loss": 0.4334,
      "step": 14960,
      "task_loss": 0.4466226398944855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37071657180786133,
      "epoch": 12.65,
      "learning_rate": 8.716343143393865e-06,
      "loss": 0.4792,
      "step": 14961,
      "task_loss": 0.41348642110824585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29575419425964355,
      "epoch": 12.65,
      "learning_rate": 8.713212273011898e-06,
      "loss": 0.3174,
      "step": 14962,
      "task_loss": 0.3414704501628876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45498210191726685,
      "epoch": 12.65,
      "learning_rate": 8.710081402629932e-06,
      "loss": 0.5149,
      "step": 14963,
      "task_loss": 0.5863996148109436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5624514818191528,
      "epoch": 12.65,
      "learning_rate": 8.706950532247965e-06,
      "loss": 0.5069,
      "step": 14964,
      "task_loss": 0.9843158721923828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5029947757720947,
      "epoch": 12.65,
      "learning_rate": 8.703819661865998e-06,
      "loss": 0.3941,
      "step": 14965,
      "task_loss": 0.8024125099182129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5880112648010254,
      "epoch": 12.65,
      "learning_rate": 8.700688791484032e-06,
      "loss": 0.3724,
      "step": 14966,
      "task_loss": 0.8361860513687134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.679474949836731,
      "epoch": 12.65,
      "learning_rate": 8.697557921102067e-06,
      "loss": 0.4487,
      "step": 14967,
      "task_loss": 0.971507728099823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3482791483402252,
      "epoch": 12.65,
      "learning_rate": 8.6944270507201e-06,
      "loss": 0.452,
      "step": 14968,
      "task_loss": 0.7911660075187683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4422319531440735,
      "epoch": 12.65,
      "learning_rate": 8.691296180338134e-06,
      "loss": 0.4749,
      "step": 14969,
      "task_loss": 0.5685135126113892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36695343255996704,
      "epoch": 12.65,
      "learning_rate": 8.68816530995617e-06,
      "loss": 0.3949,
      "step": 14970,
      "task_loss": 1.1965309381484985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4971216320991516,
      "epoch": 12.65,
      "learning_rate": 8.685034439574203e-06,
      "loss": 0.4771,
      "step": 14971,
      "task_loss": 0.9376870393753052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36114317178726196,
      "epoch": 12.66,
      "learning_rate": 8.681903569192236e-06,
      "loss": 0.4439,
      "step": 14972,
      "task_loss": 1.0273821353912354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6220627427101135,
      "epoch": 12.66,
      "learning_rate": 8.67877269881027e-06,
      "loss": 0.3869,
      "step": 14973,
      "task_loss": 0.6485153436660767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21099475026130676,
      "epoch": 12.66,
      "learning_rate": 8.675641828428303e-06,
      "loss": 0.3933,
      "step": 14974,
      "task_loss": 0.5774315595626831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41004353761672974,
      "epoch": 12.66,
      "learning_rate": 8.672510958046337e-06,
      "loss": 0.3929,
      "step": 14975,
      "task_loss": 0.6806992292404175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.326510488986969,
      "epoch": 12.66,
      "learning_rate": 8.66938008766437e-06,
      "loss": 0.51,
      "step": 14976,
      "task_loss": 0.27831995487213135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23943543434143066,
      "epoch": 12.66,
      "learning_rate": 8.666249217282405e-06,
      "loss": 0.4407,
      "step": 14977,
      "task_loss": 0.9112436175346375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.807584285736084,
      "epoch": 12.66,
      "learning_rate": 8.663118346900439e-06,
      "loss": 0.5566,
      "step": 14978,
      "task_loss": 1.2227028608322144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4104318916797638,
      "epoch": 12.66,
      "learning_rate": 8.659987476518472e-06,
      "loss": 0.4564,
      "step": 14979,
      "task_loss": 0.4504373371601105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4987604022026062,
      "epoch": 12.66,
      "learning_rate": 8.656856606136507e-06,
      "loss": 0.4816,
      "step": 14980,
      "task_loss": 0.30625608563423157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38612037897109985,
      "epoch": 12.66,
      "learning_rate": 8.653725735754541e-06,
      "loss": 0.3954,
      "step": 14981,
      "task_loss": 0.13562066853046417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6069244146347046,
      "epoch": 12.66,
      "learning_rate": 8.650594865372574e-06,
      "loss": 0.4238,
      "step": 14982,
      "task_loss": 0.6440811157226562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.498496413230896,
      "epoch": 12.66,
      "learning_rate": 8.647463994990608e-06,
      "loss": 0.4746,
      "step": 14983,
      "task_loss": 0.3945971429347992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.494968444108963,
      "epoch": 12.67,
      "learning_rate": 8.644333124608641e-06,
      "loss": 0.4522,
      "step": 14984,
      "task_loss": 0.5184865593910217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5119041204452515,
      "epoch": 12.67,
      "learning_rate": 8.641202254226675e-06,
      "loss": 0.5074,
      "step": 14985,
      "task_loss": 0.9071097373962402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43620777130126953,
      "epoch": 12.67,
      "learning_rate": 8.63807138384471e-06,
      "loss": 0.4099,
      "step": 14986,
      "task_loss": 0.340157151222229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29797831177711487,
      "epoch": 12.67,
      "learning_rate": 8.634940513462743e-06,
      "loss": 0.3369,
      "step": 14987,
      "task_loss": 0.6407220959663391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25314584374427795,
      "epoch": 12.67,
      "learning_rate": 8.631809643080777e-06,
      "loss": 0.3413,
      "step": 14988,
      "task_loss": 0.43689221143722534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3709731698036194,
      "epoch": 12.67,
      "learning_rate": 8.62867877269881e-06,
      "loss": 0.4353,
      "step": 14989,
      "task_loss": 0.841255784034729
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4508817195892334,
      "epoch": 12.67,
      "learning_rate": 8.625547902316844e-06,
      "loss": 0.4275,
      "step": 14990,
      "task_loss": 0.19127006828784943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39889663457870483,
      "epoch": 12.67,
      "learning_rate": 8.622417031934877e-06,
      "loss": 0.2793,
      "step": 14991,
      "task_loss": 0.2130555957555771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3514246344566345,
      "epoch": 12.67,
      "learning_rate": 8.619286161552912e-06,
      "loss": 0.5293,
      "step": 14992,
      "task_loss": 0.31811821460723877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42009270191192627,
      "epoch": 12.67,
      "learning_rate": 8.616155291170946e-06,
      "loss": 0.3934,
      "step": 14993,
      "task_loss": 0.13368967175483704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44955652952194214,
      "epoch": 12.67,
      "learning_rate": 8.61302442078898e-06,
      "loss": 0.3961,
      "step": 14994,
      "task_loss": 0.09357498586177826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5810348391532898,
      "epoch": 12.67,
      "learning_rate": 8.609893550407015e-06,
      "loss": 0.4516,
      "step": 14995,
      "task_loss": 0.28797656297683716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2958005666732788,
      "epoch": 12.68,
      "learning_rate": 8.606762680025048e-06,
      "loss": 0.3648,
      "step": 14996,
      "task_loss": 1.1024057865142822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21284520626068115,
      "epoch": 12.68,
      "learning_rate": 8.603631809643082e-06,
      "loss": 0.4757,
      "step": 14997,
      "task_loss": 0.6410262584686279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.588051438331604,
      "epoch": 12.68,
      "learning_rate": 8.600500939261115e-06,
      "loss": 0.5022,
      "step": 14998,
      "task_loss": 1.3106516599655151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5341254472732544,
      "epoch": 12.68,
      "learning_rate": 8.597370068879149e-06,
      "loss": 0.5114,
      "step": 14999,
      "task_loss": 0.2657007575035095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4458681344985962,
      "epoch": 12.68,
      "learning_rate": 8.594239198497182e-06,
      "loss": 0.4763,
      "step": 15000,
      "task_loss": 0.7662859559059143
    },
    {
      "epoch": 12.68,
      "eval_accuracy": 0.9108514851485149,
      "eval_loss": 0.31584760546684265,
      "eval_runtime": 207.0915,
      "eval_samples_per_second": 121.927,
      "eval_steps_per_second": 0.956,
      "step": 15000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2992781400680542,
      "epoch": 12.68,
      "learning_rate": 8.591108328115215e-06,
      "loss": 0.4955,
      "step": 15001,
      "task_loss": 0.6928538084030151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38270285725593567,
      "epoch": 12.68,
      "learning_rate": 8.587977457733249e-06,
      "loss": 0.3923,
      "step": 15002,
      "task_loss": 0.6056111454963684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3749743700027466,
      "epoch": 12.68,
      "learning_rate": 8.584846587351284e-06,
      "loss": 0.3126,
      "step": 15003,
      "task_loss": 1.0059964656829834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4838295578956604,
      "epoch": 12.68,
      "learning_rate": 8.58171571696932e-06,
      "loss": 0.4377,
      "step": 15004,
      "task_loss": 0.6992678046226501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4968317747116089,
      "epoch": 12.68,
      "learning_rate": 8.578584846587353e-06,
      "loss": 0.5219,
      "step": 15005,
      "task_loss": 0.588087797164917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4912208616733551,
      "epoch": 12.68,
      "learning_rate": 8.575453976205386e-06,
      "loss": 0.4412,
      "step": 15006,
      "task_loss": 0.6697782874107361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5966281890869141,
      "epoch": 12.69,
      "learning_rate": 8.57232310582342e-06,
      "loss": 0.4837,
      "step": 15007,
      "task_loss": 0.594540536403656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3577840030193329,
      "epoch": 12.69,
      "learning_rate": 8.569192235441453e-06,
      "loss": 0.4615,
      "step": 15008,
      "task_loss": 1.0611470937728882
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6294047236442566,
      "epoch": 12.69,
      "learning_rate": 8.566061365059487e-06,
      "loss": 0.4126,
      "step": 15009,
      "task_loss": 1.1358230113983154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5233056545257568,
      "epoch": 12.69,
      "learning_rate": 8.56293049467752e-06,
      "loss": 0.3816,
      "step": 15010,
      "task_loss": 1.2729169130325317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.304970383644104,
      "epoch": 12.69,
      "learning_rate": 8.559799624295554e-06,
      "loss": 0.3933,
      "step": 15011,
      "task_loss": 0.3947198987007141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3857519328594208,
      "epoch": 12.69,
      "learning_rate": 8.556668753913589e-06,
      "loss": 0.4002,
      "step": 15012,
      "task_loss": 0.7845688462257385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4348602294921875,
      "epoch": 12.69,
      "learning_rate": 8.553537883531622e-06,
      "loss": 0.4338,
      "step": 15013,
      "task_loss": 0.8083392381668091
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4202806353569031,
      "epoch": 12.69,
      "learning_rate": 8.550407013149656e-06,
      "loss": 0.3718,
      "step": 15014,
      "task_loss": 0.11979993432760239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5966145396232605,
      "epoch": 12.69,
      "learning_rate": 8.54727614276769e-06,
      "loss": 0.4411,
      "step": 15015,
      "task_loss": 0.49939852952957153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41635221242904663,
      "epoch": 12.69,
      "learning_rate": 8.544145272385724e-06,
      "loss": 0.4113,
      "step": 15016,
      "task_loss": 1.2755002975463867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3873010575771332,
      "epoch": 12.69,
      "learning_rate": 8.541014402003758e-06,
      "loss": 0.6276,
      "step": 15017,
      "task_loss": 0.33996373414993286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28069382905960083,
      "epoch": 12.69,
      "learning_rate": 8.537883531621791e-06,
      "loss": 0.4465,
      "step": 15018,
      "task_loss": 0.3020857870578766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16080352663993835,
      "epoch": 12.7,
      "learning_rate": 8.534752661239825e-06,
      "loss": 0.3865,
      "step": 15019,
      "task_loss": 0.046947963535785675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.14076992869377136,
      "epoch": 12.7,
      "learning_rate": 8.531621790857858e-06,
      "loss": 0.3075,
      "step": 15020,
      "task_loss": 0.012121761217713356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30893757939338684,
      "epoch": 12.7,
      "learning_rate": 8.528490920475893e-06,
      "loss": 0.3619,
      "step": 15021,
      "task_loss": 0.5024336576461792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28613483905792236,
      "epoch": 12.7,
      "learning_rate": 8.525360050093927e-06,
      "loss": 0.4245,
      "step": 15022,
      "task_loss": 0.1648285686969757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.590583860874176,
      "epoch": 12.7,
      "learning_rate": 8.52222917971196e-06,
      "loss": 0.5147,
      "step": 15023,
      "task_loss": 0.5786076188087463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5034299492835999,
      "epoch": 12.7,
      "learning_rate": 8.519098309329994e-06,
      "loss": 0.4489,
      "step": 15024,
      "task_loss": 0.6493264436721802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45695415139198303,
      "epoch": 12.7,
      "learning_rate": 8.515967438948027e-06,
      "loss": 0.5493,
      "step": 15025,
      "task_loss": 1.2891731262207031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42161285877227783,
      "epoch": 12.7,
      "learning_rate": 8.51283656856606e-06,
      "loss": 0.4461,
      "step": 15026,
      "task_loss": 0.8062981367111206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46077123284339905,
      "epoch": 12.7,
      "learning_rate": 8.509705698184094e-06,
      "loss": 0.3794,
      "step": 15027,
      "task_loss": 0.13389770686626434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6203373670578003,
      "epoch": 12.7,
      "learning_rate": 8.50657482780213e-06,
      "loss": 0.6002,
      "step": 15028,
      "task_loss": 0.47173383831977844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40667325258255005,
      "epoch": 12.7,
      "learning_rate": 8.503443957420165e-06,
      "loss": 0.4816,
      "step": 15029,
      "task_loss": 1.5712803602218628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5335782766342163,
      "epoch": 12.7,
      "learning_rate": 8.500313087038198e-06,
      "loss": 0.5265,
      "step": 15030,
      "task_loss": 0.48202869296073914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5498442649841309,
      "epoch": 12.71,
      "learning_rate": 8.497182216656232e-06,
      "loss": 0.4976,
      "step": 15031,
      "task_loss": 0.6282045245170593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2927628755569458,
      "epoch": 12.71,
      "learning_rate": 8.494051346274265e-06,
      "loss": 0.5468,
      "step": 15032,
      "task_loss": 0.47194430232048035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8482906818389893,
      "epoch": 12.71,
      "learning_rate": 8.490920475892299e-06,
      "loss": 0.5457,
      "step": 15033,
      "task_loss": 1.2491860389709473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4372267723083496,
      "epoch": 12.71,
      "learning_rate": 8.487789605510332e-06,
      "loss": 0.4818,
      "step": 15034,
      "task_loss": 0.33062660694122314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6873219013214111,
      "epoch": 12.71,
      "learning_rate": 8.484658735128365e-06,
      "loss": 0.477,
      "step": 15035,
      "task_loss": 1.012682318687439
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7454384565353394,
      "epoch": 12.71,
      "learning_rate": 8.481527864746399e-06,
      "loss": 0.5039,
      "step": 15036,
      "task_loss": 0.609855592250824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16595464944839478,
      "epoch": 12.71,
      "learning_rate": 8.478396994364434e-06,
      "loss": 0.3763,
      "step": 15037,
      "task_loss": 0.04033783823251724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4268585741519928,
      "epoch": 12.71,
      "learning_rate": 8.475266123982468e-06,
      "loss": 0.4309,
      "step": 15038,
      "task_loss": 0.5433082580566406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5056393146514893,
      "epoch": 12.71,
      "learning_rate": 8.472135253600501e-06,
      "loss": 0.4719,
      "step": 15039,
      "task_loss": 0.8161755204200745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.734204888343811,
      "epoch": 12.71,
      "learning_rate": 8.469004383218535e-06,
      "loss": 0.5386,
      "step": 15040,
      "task_loss": 1.6317133903503418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3977241516113281,
      "epoch": 12.71,
      "learning_rate": 8.46587351283657e-06,
      "loss": 0.4351,
      "step": 15041,
      "task_loss": 0.9748689532279968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3906921148300171,
      "epoch": 12.71,
      "learning_rate": 8.462742642454603e-06,
      "loss": 0.4876,
      "step": 15042,
      "task_loss": 0.39076122641563416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.641484260559082,
      "epoch": 12.72,
      "learning_rate": 8.459611772072637e-06,
      "loss": 0.5019,
      "step": 15043,
      "task_loss": 1.1150962114334106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7718719840049744,
      "epoch": 12.72,
      "learning_rate": 8.45648090169067e-06,
      "loss": 0.5943,
      "step": 15044,
      "task_loss": 1.0566012859344482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4358503222465515,
      "epoch": 12.72,
      "learning_rate": 8.453350031308704e-06,
      "loss": 0.4276,
      "step": 15045,
      "task_loss": 0.4601661264896393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26912760734558105,
      "epoch": 12.72,
      "learning_rate": 8.450219160926739e-06,
      "loss": 0.4132,
      "step": 15046,
      "task_loss": 1.4157288074493408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4863024055957794,
      "epoch": 12.72,
      "learning_rate": 8.447088290544772e-06,
      "loss": 0.4274,
      "step": 15047,
      "task_loss": 0.49509820342063904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1290842890739441,
      "epoch": 12.72,
      "learning_rate": 8.443957420162806e-06,
      "loss": 0.3337,
      "step": 15048,
      "task_loss": 0.06690125912427902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7423638105392456,
      "epoch": 12.72,
      "learning_rate": 8.44082654978084e-06,
      "loss": 0.4884,
      "step": 15049,
      "task_loss": 1.613747000694275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061672925949097,
      "epoch": 12.72,
      "learning_rate": 8.437695679398873e-06,
      "loss": 0.5902,
      "step": 15050,
      "task_loss": 0.6571119427680969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4697355031967163,
      "epoch": 12.72,
      "learning_rate": 8.434564809016906e-06,
      "loss": 0.594,
      "step": 15051,
      "task_loss": 0.3488698899745941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.390642911195755,
      "epoch": 12.72,
      "learning_rate": 8.43143393863494e-06,
      "loss": 0.453,
      "step": 15052,
      "task_loss": 0.3068805932998657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5271430611610413,
      "epoch": 12.72,
      "learning_rate": 8.428303068252975e-06,
      "loss": 0.3938,
      "step": 15053,
      "task_loss": 2.2373833656311035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3082345724105835,
      "epoch": 12.72,
      "learning_rate": 8.425172197871008e-06,
      "loss": 0.4888,
      "step": 15054,
      "task_loss": 0.5996771454811096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5031503438949585,
      "epoch": 12.73,
      "learning_rate": 8.422041327489043e-06,
      "loss": 0.4548,
      "step": 15055,
      "task_loss": 0.955868124961853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5646097660064697,
      "epoch": 12.73,
      "learning_rate": 8.418910457107077e-06,
      "loss": 0.4809,
      "step": 15056,
      "task_loss": 0.447252482175827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5505818128585815,
      "epoch": 12.73,
      "learning_rate": 8.41577958672511e-06,
      "loss": 0.5313,
      "step": 15057,
      "task_loss": 1.0125007629394531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3821646571159363,
      "epoch": 12.73,
      "learning_rate": 8.412648716343144e-06,
      "loss": 0.4221,
      "step": 15058,
      "task_loss": 0.8555232286453247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2605704367160797,
      "epoch": 12.73,
      "learning_rate": 8.409517845961177e-06,
      "loss": 0.386,
      "step": 15059,
      "task_loss": 0.14093275368213654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5707604289054871,
      "epoch": 12.73,
      "learning_rate": 8.40638697557921e-06,
      "loss": 0.4147,
      "step": 15060,
      "task_loss": 0.16486231982707977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30758675932884216,
      "epoch": 12.73,
      "learning_rate": 8.403256105197244e-06,
      "loss": 0.4744,
      "step": 15061,
      "task_loss": 1.019897222518921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4703580141067505,
      "epoch": 12.73,
      "learning_rate": 8.40012523481528e-06,
      "loss": 0.5051,
      "step": 15062,
      "task_loss": 0.8240983486175537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2263239473104477,
      "epoch": 12.73,
      "learning_rate": 8.396994364433313e-06,
      "loss": 0.3454,
      "step": 15063,
      "task_loss": 0.5318767428398132
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2875639796257019,
      "epoch": 12.73,
      "learning_rate": 8.393863494051346e-06,
      "loss": 0.4644,
      "step": 15064,
      "task_loss": 0.5164564847946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6147679090499878,
      "epoch": 12.73,
      "learning_rate": 8.390732623669382e-06,
      "loss": 0.4802,
      "step": 15065,
      "task_loss": 0.7188316583633423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4352780282497406,
      "epoch": 12.73,
      "learning_rate": 8.387601753287415e-06,
      "loss": 0.4443,
      "step": 15066,
      "task_loss": 0.9864170551300049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3694538474082947,
      "epoch": 12.74,
      "learning_rate": 8.384470882905449e-06,
      "loss": 0.4853,
      "step": 15067,
      "task_loss": 0.4424612820148468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3271103501319885,
      "epoch": 12.74,
      "learning_rate": 8.381340012523482e-06,
      "loss": 0.4768,
      "step": 15068,
      "task_loss": 0.29143452644348145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44124555587768555,
      "epoch": 12.74,
      "learning_rate": 8.378209142141516e-06,
      "loss": 0.577,
      "step": 15069,
      "task_loss": 0.8069020509719849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4634045958518982,
      "epoch": 12.74,
      "learning_rate": 8.375078271759549e-06,
      "loss": 0.4479,
      "step": 15070,
      "task_loss": 0.4777064919471741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6982874870300293,
      "epoch": 12.74,
      "learning_rate": 8.371947401377584e-06,
      "loss": 0.5415,
      "step": 15071,
      "task_loss": 0.7495650053024292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24343471229076385,
      "epoch": 12.74,
      "learning_rate": 8.368816530995618e-06,
      "loss": 0.4408,
      "step": 15072,
      "task_loss": 0.023372666910290718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47557100653648376,
      "epoch": 12.74,
      "learning_rate": 8.365685660613651e-06,
      "loss": 0.5045,
      "step": 15073,
      "task_loss": 1.2324203252792358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49406564235687256,
      "epoch": 12.74,
      "learning_rate": 8.362554790231685e-06,
      "loss": 0.4944,
      "step": 15074,
      "task_loss": 0.5806005001068115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39305564761161804,
      "epoch": 12.74,
      "learning_rate": 8.359423919849718e-06,
      "loss": 0.5138,
      "step": 15075,
      "task_loss": 0.4907389283180237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43902501463890076,
      "epoch": 12.74,
      "learning_rate": 8.356293049467752e-06,
      "loss": 0.4051,
      "step": 15076,
      "task_loss": 0.18382695317268372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3826756477355957,
      "epoch": 12.74,
      "learning_rate": 8.353162179085785e-06,
      "loss": 0.5751,
      "step": 15077,
      "task_loss": 0.2872302234172821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5986155271530151,
      "epoch": 12.75,
      "learning_rate": 8.35003130870382e-06,
      "loss": 0.4269,
      "step": 15078,
      "task_loss": 1.0268625020980835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7232465744018555,
      "epoch": 12.75,
      "learning_rate": 8.346900438321854e-06,
      "loss": 0.484,
      "step": 15079,
      "task_loss": 0.24175921082496643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4814614951610565,
      "epoch": 12.75,
      "learning_rate": 8.343769567939889e-06,
      "loss": 0.4896,
      "step": 15080,
      "task_loss": 0.8093700408935547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1947760283946991,
      "epoch": 12.75,
      "learning_rate": 8.340638697557922e-06,
      "loss": 0.3286,
      "step": 15081,
      "task_loss": 0.2038325071334839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3054892122745514,
      "epoch": 12.75,
      "learning_rate": 8.337507827175956e-06,
      "loss": 0.4254,
      "step": 15082,
      "task_loss": 1.113093614578247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7153237462043762,
      "epoch": 12.75,
      "learning_rate": 8.33437695679399e-06,
      "loss": 0.5236,
      "step": 15083,
      "task_loss": 1.1103063821792603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23369050025939941,
      "epoch": 12.75,
      "learning_rate": 8.331246086412023e-06,
      "loss": 0.4021,
      "step": 15084,
      "task_loss": 0.8393123745918274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46605896949768066,
      "epoch": 12.75,
      "learning_rate": 8.328115216030056e-06,
      "loss": 0.5551,
      "step": 15085,
      "task_loss": 0.7559438943862915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5458028316497803,
      "epoch": 12.75,
      "learning_rate": 8.32498434564809e-06,
      "loss": 0.5161,
      "step": 15086,
      "task_loss": 1.122238278388977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47603312134742737,
      "epoch": 12.75,
      "learning_rate": 8.321853475266123e-06,
      "loss": 0.4368,
      "step": 15087,
      "task_loss": 0.22567547857761383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38248762488365173,
      "epoch": 12.75,
      "learning_rate": 8.318722604884158e-06,
      "loss": 0.4277,
      "step": 15088,
      "task_loss": 0.4340163767337799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1996513307094574,
      "epoch": 12.75,
      "learning_rate": 8.315591734502192e-06,
      "loss": 0.4068,
      "step": 15089,
      "task_loss": 0.31379055976867676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37884488701820374,
      "epoch": 12.76,
      "learning_rate": 8.312460864120227e-06,
      "loss": 0.4144,
      "step": 15090,
      "task_loss": 0.7757403254508972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39560070633888245,
      "epoch": 12.76,
      "learning_rate": 8.30932999373826e-06,
      "loss": 0.3792,
      "step": 15091,
      "task_loss": 0.45480918884277344
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5417288541793823,
      "epoch": 12.76,
      "learning_rate": 8.306199123356294e-06,
      "loss": 0.5084,
      "step": 15092,
      "task_loss": 0.6813675165176392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27661001682281494,
      "epoch": 12.76,
      "learning_rate": 8.303068252974327e-06,
      "loss": 0.3833,
      "step": 15093,
      "task_loss": 0.5405244827270508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6737629175186157,
      "epoch": 12.76,
      "learning_rate": 8.299937382592361e-06,
      "loss": 0.4761,
      "step": 15094,
      "task_loss": 1.156436800956726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3934747576713562,
      "epoch": 12.76,
      "learning_rate": 8.296806512210394e-06,
      "loss": 0.4088,
      "step": 15095,
      "task_loss": 0.2633993625640869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.424890398979187,
      "epoch": 12.76,
      "learning_rate": 8.29367564182843e-06,
      "loss": 0.4158,
      "step": 15096,
      "task_loss": 0.6755290031433105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24059560894966125,
      "epoch": 12.76,
      "learning_rate": 8.290544771446463e-06,
      "loss": 0.337,
      "step": 15097,
      "task_loss": 0.21757838129997253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6875965595245361,
      "epoch": 12.76,
      "learning_rate": 8.287413901064496e-06,
      "loss": 0.56,
      "step": 15098,
      "task_loss": 0.9525506496429443
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6170996427536011,
      "epoch": 12.76,
      "learning_rate": 8.28428303068253e-06,
      "loss": 0.4781,
      "step": 15099,
      "task_loss": 0.09396238625049591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5607519149780273,
      "epoch": 12.76,
      "learning_rate": 8.281152160300563e-06,
      "loss": 0.5249,
      "step": 15100,
      "task_loss": 0.8779231309890747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.515758752822876,
      "epoch": 12.76,
      "learning_rate": 8.278021289918597e-06,
      "loss": 0.4727,
      "step": 15101,
      "task_loss": 0.39772865176200867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33578214049339294,
      "epoch": 12.77,
      "learning_rate": 8.274890419536632e-06,
      "loss": 0.3865,
      "step": 15102,
      "task_loss": 0.4746631383895874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5520968437194824,
      "epoch": 12.77,
      "learning_rate": 8.271759549154666e-06,
      "loss": 0.4515,
      "step": 15103,
      "task_loss": 0.3915548324584961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1831102967262268,
      "epoch": 12.77,
      "learning_rate": 8.268628678772699e-06,
      "loss": 0.3685,
      "step": 15104,
      "task_loss": 0.26154056191444397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32874640822410583,
      "epoch": 12.77,
      "learning_rate": 8.265497808390734e-06,
      "loss": 0.4037,
      "step": 15105,
      "task_loss": 0.38359662890434265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4311980903148651,
      "epoch": 12.77,
      "learning_rate": 8.262366938008768e-06,
      "loss": 0.3395,
      "step": 15106,
      "task_loss": 0.3332987427711487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27064216136932373,
      "epoch": 12.77,
      "learning_rate": 8.259236067626801e-06,
      "loss": 0.3097,
      "step": 15107,
      "task_loss": 0.3173295557498932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4113309979438782,
      "epoch": 12.77,
      "learning_rate": 8.256105197244835e-06,
      "loss": 0.5423,
      "step": 15108,
      "task_loss": 0.5051556825637817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3381524085998535,
      "epoch": 12.77,
      "learning_rate": 8.252974326862868e-06,
      "loss": 0.4481,
      "step": 15109,
      "task_loss": 0.793628454208374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5149365067481995,
      "epoch": 12.77,
      "learning_rate": 8.249843456480902e-06,
      "loss": 0.4406,
      "step": 15110,
      "task_loss": 0.636237382888794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.518126368522644,
      "epoch": 12.77,
      "learning_rate": 8.246712586098935e-06,
      "loss": 0.5662,
      "step": 15111,
      "task_loss": 0.6599653959274292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6060736179351807,
      "epoch": 12.77,
      "learning_rate": 8.243581715716968e-06,
      "loss": 0.5743,
      "step": 15112,
      "task_loss": 1.0623202323913574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3276849091053009,
      "epoch": 12.77,
      "learning_rate": 8.240450845335004e-06,
      "loss": 0.432,
      "step": 15113,
      "task_loss": 0.39427804946899414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40531426668167114,
      "epoch": 12.78,
      "learning_rate": 8.237319974953039e-06,
      "loss": 0.383,
      "step": 15114,
      "task_loss": 1.0292454957962036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3040403723716736,
      "epoch": 12.78,
      "learning_rate": 8.234189104571072e-06,
      "loss": 0.4426,
      "step": 15115,
      "task_loss": 0.2899932861328125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45941615104675293,
      "epoch": 12.78,
      "learning_rate": 8.231058234189106e-06,
      "loss": 0.4505,
      "step": 15116,
      "task_loss": 0.8208111524581909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48519062995910645,
      "epoch": 12.78,
      "learning_rate": 8.22792736380714e-06,
      "loss": 0.4647,
      "step": 15117,
      "task_loss": 0.41498520970344543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6094616055488586,
      "epoch": 12.78,
      "learning_rate": 8.224796493425173e-06,
      "loss": 0.4717,
      "step": 15118,
      "task_loss": 0.29686683416366577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6549577713012695,
      "epoch": 12.78,
      "learning_rate": 8.221665623043206e-06,
      "loss": 0.526,
      "step": 15119,
      "task_loss": 0.6501080393791199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49366435408592224,
      "epoch": 12.78,
      "learning_rate": 8.21853475266124e-06,
      "loss": 0.5402,
      "step": 15120,
      "task_loss": 1.0373622179031372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3885655999183655,
      "epoch": 12.78,
      "learning_rate": 8.215403882279273e-06,
      "loss": 0.4478,
      "step": 15121,
      "task_loss": 0.43641456961631775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5823874473571777,
      "epoch": 12.78,
      "learning_rate": 8.212273011897308e-06,
      "loss": 0.4149,
      "step": 15122,
      "task_loss": 0.2769356369972229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.461578369140625,
      "epoch": 12.78,
      "learning_rate": 8.209142141515342e-06,
      "loss": 0.4146,
      "step": 15123,
      "task_loss": 1.0345757007598877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28108373284339905,
      "epoch": 12.78,
      "learning_rate": 8.206011271133375e-06,
      "loss": 0.4598,
      "step": 15124,
      "task_loss": 0.7791920900344849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20075403153896332,
      "epoch": 12.78,
      "learning_rate": 8.202880400751409e-06,
      "loss": 0.3356,
      "step": 15125,
      "task_loss": 0.047646913677453995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.616647481918335,
      "epoch": 12.79,
      "learning_rate": 8.199749530369442e-06,
      "loss": 0.5844,
      "step": 15126,
      "task_loss": 1.0795977115631104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5026472210884094,
      "epoch": 12.79,
      "learning_rate": 8.196618659987477e-06,
      "loss": 0.473,
      "step": 15127,
      "task_loss": 0.6997684240341187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23186761140823364,
      "epoch": 12.79,
      "learning_rate": 8.193487789605511e-06,
      "loss": 0.4128,
      "step": 15128,
      "task_loss": 0.528324544429779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42913562059402466,
      "epoch": 12.79,
      "learning_rate": 8.190356919223544e-06,
      "loss": 0.4653,
      "step": 15129,
      "task_loss": 0.6621823906898499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47786372900009155,
      "epoch": 12.79,
      "learning_rate": 8.187226048841578e-06,
      "loss": 0.3448,
      "step": 15130,
      "task_loss": 0.28554415702819824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7372227907180786,
      "epoch": 12.79,
      "learning_rate": 8.184095178459613e-06,
      "loss": 0.5516,
      "step": 15131,
      "task_loss": 1.7815985679626465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4972548484802246,
      "epoch": 12.79,
      "learning_rate": 8.180964308077646e-06,
      "loss": 0.4451,
      "step": 15132,
      "task_loss": 1.0583202838897705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38560301065444946,
      "epoch": 12.79,
      "learning_rate": 8.17783343769568e-06,
      "loss": 0.5625,
      "step": 15133,
      "task_loss": 0.580557107925415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5026946067810059,
      "epoch": 12.79,
      "learning_rate": 8.174702567313713e-06,
      "loss": 0.39,
      "step": 15134,
      "task_loss": 0.3972512483596802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40198445320129395,
      "epoch": 12.79,
      "learning_rate": 8.171571696931747e-06,
      "loss": 0.332,
      "step": 15135,
      "task_loss": 0.12112169712781906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5274694561958313,
      "epoch": 12.79,
      "learning_rate": 8.16844082654978e-06,
      "loss": 0.4055,
      "step": 15136,
      "task_loss": 1.4157201051712036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21591629087924957,
      "epoch": 12.79,
      "learning_rate": 8.165309956167814e-06,
      "loss": 0.3752,
      "step": 15137,
      "task_loss": 0.12735731899738312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3008508086204529,
      "epoch": 12.8,
      "learning_rate": 8.162179085785849e-06,
      "loss": 0.445,
      "step": 15138,
      "task_loss": 0.1483256071805954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2397840917110443,
      "epoch": 12.8,
      "learning_rate": 8.159048215403882e-06,
      "loss": 0.3237,
      "step": 15139,
      "task_loss": 0.1954803764820099
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22094877064228058,
      "epoch": 12.8,
      "learning_rate": 8.155917345021918e-06,
      "loss": 0.3596,
      "step": 15140,
      "task_loss": 0.4163200855255127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3794596195220947,
      "epoch": 12.8,
      "learning_rate": 8.152786474639951e-06,
      "loss": 0.3924,
      "step": 15141,
      "task_loss": 0.7091025710105896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46666640043258667,
      "epoch": 12.8,
      "learning_rate": 8.149655604257985e-06,
      "loss": 0.4143,
      "step": 15142,
      "task_loss": 0.8894482851028442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26045793294906616,
      "epoch": 12.8,
      "learning_rate": 8.146524733876018e-06,
      "loss": 0.4092,
      "step": 15143,
      "task_loss": 0.2824817895889282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4233574867248535,
      "epoch": 12.8,
      "learning_rate": 8.143393863494052e-06,
      "loss": 0.4733,
      "step": 15144,
      "task_loss": 0.1280556619167328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6126713156700134,
      "epoch": 12.8,
      "learning_rate": 8.140262993112085e-06,
      "loss": 0.4199,
      "step": 15145,
      "task_loss": 0.37902507185935974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40584132075309753,
      "epoch": 12.8,
      "learning_rate": 8.137132122730119e-06,
      "loss": 0.4636,
      "step": 15146,
      "task_loss": 0.9270690679550171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6905832290649414,
      "epoch": 12.8,
      "learning_rate": 8.134001252348154e-06,
      "loss": 0.4238,
      "step": 15147,
      "task_loss": 1.7999076843261719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2989085912704468,
      "epoch": 12.8,
      "learning_rate": 8.130870381966187e-06,
      "loss": 0.4193,
      "step": 15148,
      "task_loss": 0.7128101587295532
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4741278886795044,
      "epoch": 12.81,
      "learning_rate": 8.12773951158422e-06,
      "loss": 0.383,
      "step": 15149,
      "task_loss": 0.704267680644989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6060717701911926,
      "epoch": 12.81,
      "learning_rate": 8.124608641202254e-06,
      "loss": 0.42,
      "step": 15150,
      "task_loss": 1.131994366645813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4544646739959717,
      "epoch": 12.81,
      "learning_rate": 8.12147777082029e-06,
      "loss": 0.4304,
      "step": 15151,
      "task_loss": 1.322706699371338
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30471694469451904,
      "epoch": 12.81,
      "learning_rate": 8.118346900438323e-06,
      "loss": 0.2955,
      "step": 15152,
      "task_loss": 0.43322035670280457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.575636625289917,
      "epoch": 12.81,
      "learning_rate": 8.115216030056356e-06,
      "loss": 0.6032,
      "step": 15153,
      "task_loss": 0.7624963521957397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31838279962539673,
      "epoch": 12.81,
      "learning_rate": 8.11208515967439e-06,
      "loss": 0.4201,
      "step": 15154,
      "task_loss": 0.3550806939601898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3913980722427368,
      "epoch": 12.81,
      "learning_rate": 8.108954289292423e-06,
      "loss": 0.4532,
      "step": 15155,
      "task_loss": 0.059252988547086716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.12242439389228821,
      "epoch": 12.81,
      "learning_rate": 8.105823418910458e-06,
      "loss": 0.4472,
      "step": 15156,
      "task_loss": 0.021395418792963028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3696136474609375,
      "epoch": 12.81,
      "learning_rate": 8.102692548528492e-06,
      "loss": 0.39,
      "step": 15157,
      "task_loss": 0.31781628727912903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4102433919906616,
      "epoch": 12.81,
      "learning_rate": 8.099561678146525e-06,
      "loss": 0.3616,
      "step": 15158,
      "task_loss": 0.34029918909072876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40863290429115295,
      "epoch": 12.81,
      "learning_rate": 8.096430807764559e-06,
      "loss": 0.5075,
      "step": 15159,
      "task_loss": 0.37557753920555115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4345672130584717,
      "epoch": 12.81,
      "learning_rate": 8.093299937382592e-06,
      "loss": 0.3638,
      "step": 15160,
      "task_loss": 0.23027805984020233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4722925126552582,
      "epoch": 12.82,
      "learning_rate": 8.090169067000626e-06,
      "loss": 0.5095,
      "step": 15161,
      "task_loss": 0.6217884421348572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.526729941368103,
      "epoch": 12.82,
      "learning_rate": 8.08703819661866e-06,
      "loss": 0.5348,
      "step": 15162,
      "task_loss": 0.7768153548240662
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36488547921180725,
      "epoch": 12.82,
      "learning_rate": 8.083907326236693e-06,
      "loss": 0.2728,
      "step": 15163,
      "task_loss": 0.6121854186058044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31790822744369507,
      "epoch": 12.82,
      "learning_rate": 8.080776455854728e-06,
      "loss": 0.3657,
      "step": 15164,
      "task_loss": 0.4479720890522003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2967868149280548,
      "epoch": 12.82,
      "learning_rate": 8.077645585472763e-06,
      "loss": 0.5848,
      "step": 15165,
      "task_loss": 0.42774778604507446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26563897728919983,
      "epoch": 12.82,
      "learning_rate": 8.074514715090796e-06,
      "loss": 0.3802,
      "step": 15166,
      "task_loss": 0.2908059358596802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5762462019920349,
      "epoch": 12.82,
      "learning_rate": 8.07138384470883e-06,
      "loss": 0.5221,
      "step": 15167,
      "task_loss": 1.0857816934585571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36670345067977905,
      "epoch": 12.82,
      "learning_rate": 8.068252974326863e-06,
      "loss": 0.4712,
      "step": 15168,
      "task_loss": 0.9931355714797974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3589041829109192,
      "epoch": 12.82,
      "learning_rate": 8.065122103944897e-06,
      "loss": 0.3605,
      "step": 15169,
      "task_loss": 0.2488766759634018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3501005172729492,
      "epoch": 12.82,
      "learning_rate": 8.06199123356293e-06,
      "loss": 0.3635,
      "step": 15170,
      "task_loss": 0.36642810702323914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3068643808364868,
      "epoch": 12.82,
      "learning_rate": 8.058860363180964e-06,
      "loss": 0.3888,
      "step": 15171,
      "task_loss": 0.27529123425483704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4399908781051636,
      "epoch": 12.82,
      "learning_rate": 8.055729492798999e-06,
      "loss": 0.4446,
      "step": 15172,
      "task_loss": 0.9912252426147461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4224013090133667,
      "epoch": 12.83,
      "learning_rate": 8.052598622417033e-06,
      "loss": 0.3992,
      "step": 15173,
      "task_loss": 0.2532173991203308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2874601483345032,
      "epoch": 12.83,
      "learning_rate": 8.049467752035066e-06,
      "loss": 0.4078,
      "step": 15174,
      "task_loss": 0.5967553853988647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5350997447967529,
      "epoch": 12.83,
      "learning_rate": 8.0463368816531e-06,
      "loss": 0.4497,
      "step": 15175,
      "task_loss": 1.5191155672073364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44628775119781494,
      "epoch": 12.83,
      "learning_rate": 8.043206011271135e-06,
      "loss": 0.3957,
      "step": 15176,
      "task_loss": 0.3648539185523987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17913776636123657,
      "epoch": 12.83,
      "learning_rate": 8.040075140889168e-06,
      "loss": 0.3824,
      "step": 15177,
      "task_loss": 0.35453081130981445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41314348578453064,
      "epoch": 12.83,
      "learning_rate": 8.036944270507202e-06,
      "loss": 0.4417,
      "step": 15178,
      "task_loss": 0.04466142877936363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30963993072509766,
      "epoch": 12.83,
      "learning_rate": 8.033813400125235e-06,
      "loss": 0.4834,
      "step": 15179,
      "task_loss": 0.4478282928466797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23368825018405914,
      "epoch": 12.83,
      "learning_rate": 8.030682529743269e-06,
      "loss": 0.2778,
      "step": 15180,
      "task_loss": 0.41587281227111816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6241939663887024,
      "epoch": 12.83,
      "learning_rate": 8.027551659361304e-06,
      "loss": 0.4262,
      "step": 15181,
      "task_loss": 0.4135003089904785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3891737163066864,
      "epoch": 12.83,
      "learning_rate": 8.024420788979337e-06,
      "loss": 0.5779,
      "step": 15182,
      "task_loss": 1.0710744857788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.320060133934021,
      "epoch": 12.83,
      "learning_rate": 8.02128991859737e-06,
      "loss": 0.4247,
      "step": 15183,
      "task_loss": 0.4308677017688751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24384525418281555,
      "epoch": 12.83,
      "learning_rate": 8.018159048215404e-06,
      "loss": 0.3946,
      "step": 15184,
      "task_loss": 1.0173413753509521
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39347389340400696,
      "epoch": 12.84,
      "learning_rate": 8.015028177833438e-06,
      "loss": 0.4491,
      "step": 15185,
      "task_loss": 1.0560331344604492
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5356789231300354,
      "epoch": 12.84,
      "learning_rate": 8.011897307451471e-06,
      "loss": 0.4058,
      "step": 15186,
      "task_loss": 0.7919492721557617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6641342043876648,
      "epoch": 12.84,
      "learning_rate": 8.008766437069505e-06,
      "loss": 0.4014,
      "step": 15187,
      "task_loss": 0.31703341007232666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6331648826599121,
      "epoch": 12.84,
      "learning_rate": 8.00563556668754e-06,
      "loss": 0.508,
      "step": 15188,
      "task_loss": 0.8470935225486755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4910878539085388,
      "epoch": 12.84,
      "learning_rate": 8.002504696305573e-06,
      "loss": 0.4993,
      "step": 15189,
      "task_loss": 0.18939638137817383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.494658887386322,
      "epoch": 12.84,
      "learning_rate": 7.999373825923608e-06,
      "loss": 0.5324,
      "step": 15190,
      "task_loss": 0.30864813923835754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3688880503177643,
      "epoch": 12.84,
      "learning_rate": 7.996242955541642e-06,
      "loss": 0.4139,
      "step": 15191,
      "task_loss": 0.5797186493873596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3158721923828125,
      "epoch": 12.84,
      "learning_rate": 7.993112085159675e-06,
      "loss": 0.4245,
      "step": 15192,
      "task_loss": 0.6146361827850342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.487257719039917,
      "epoch": 12.84,
      "learning_rate": 7.989981214777709e-06,
      "loss": 0.6994,
      "step": 15193,
      "task_loss": 0.6171837449073792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7400456070899963,
      "epoch": 12.84,
      "learning_rate": 7.986850344395742e-06,
      "loss": 0.5472,
      "step": 15194,
      "task_loss": 0.31951698660850525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3933796286582947,
      "epoch": 12.84,
      "learning_rate": 7.983719474013776e-06,
      "loss": 0.4742,
      "step": 15195,
      "task_loss": 0.1987144947052002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569505095481873,
      "epoch": 12.84,
      "learning_rate": 7.98058860363181e-06,
      "loss": 0.4856,
      "step": 15196,
      "task_loss": 0.3642317056655884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5024429559707642,
      "epoch": 12.85,
      "learning_rate": 7.977457733249843e-06,
      "loss": 0.4593,
      "step": 15197,
      "task_loss": 0.8055276870727539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35167714953422546,
      "epoch": 12.85,
      "learning_rate": 7.974326862867878e-06,
      "loss": 0.3425,
      "step": 15198,
      "task_loss": 0.09174197167158127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3416876792907715,
      "epoch": 12.85,
      "learning_rate": 7.971195992485911e-06,
      "loss": 0.3794,
      "step": 15199,
      "task_loss": 0.5483516454696655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245484709739685,
      "epoch": 12.85,
      "learning_rate": 7.968065122103947e-06,
      "loss": 0.5144,
      "step": 15200,
      "task_loss": 0.39217954874038696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4142347574234009,
      "epoch": 12.85,
      "learning_rate": 7.96493425172198e-06,
      "loss": 0.5101,
      "step": 15201,
      "task_loss": 1.0188331604003906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46882742643356323,
      "epoch": 12.85,
      "learning_rate": 7.961803381340013e-06,
      "loss": 0.4721,
      "step": 15202,
      "task_loss": 0.09661860018968582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3688562512397766,
      "epoch": 12.85,
      "learning_rate": 7.958672510958047e-06,
      "loss": 0.4287,
      "step": 15203,
      "task_loss": 1.338944673538208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33169177174568176,
      "epoch": 12.85,
      "learning_rate": 7.95554164057608e-06,
      "loss": 0.3804,
      "step": 15204,
      "task_loss": 0.8495321869850159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4540468454360962,
      "epoch": 12.85,
      "learning_rate": 7.952410770194114e-06,
      "loss": 0.4888,
      "step": 15205,
      "task_loss": 0.23345641791820526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3395997881889343,
      "epoch": 12.85,
      "learning_rate": 7.949279899812147e-06,
      "loss": 0.4309,
      "step": 15206,
      "task_loss": 0.25209423899650574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7066575884819031,
      "epoch": 12.85,
      "learning_rate": 7.946149029430183e-06,
      "loss": 0.5005,
      "step": 15207,
      "task_loss": 0.8855158090591431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3238891661167145,
      "epoch": 12.85,
      "learning_rate": 7.943018159048216e-06,
      "loss": 0.5097,
      "step": 15208,
      "task_loss": 0.9093174934387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44236817955970764,
      "epoch": 12.86,
      "learning_rate": 7.93988728866625e-06,
      "loss": 0.5763,
      "step": 15209,
      "task_loss": 1.2390238046646118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33615148067474365,
      "epoch": 12.86,
      "learning_rate": 7.936756418284283e-06,
      "loss": 0.5912,
      "step": 15210,
      "task_loss": 0.3758845627307892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5341407060623169,
      "epoch": 12.86,
      "learning_rate": 7.933625547902316e-06,
      "loss": 0.6009,
      "step": 15211,
      "task_loss": 0.9127920866012573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3309248983860016,
      "epoch": 12.86,
      "learning_rate": 7.93049467752035e-06,
      "loss": 0.5695,
      "step": 15212,
      "task_loss": 0.5305825471878052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40733739733695984,
      "epoch": 12.86,
      "learning_rate": 7.927363807138385e-06,
      "loss": 0.4253,
      "step": 15213,
      "task_loss": 0.7410995960235596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41072380542755127,
      "epoch": 12.86,
      "learning_rate": 7.924232936756419e-06,
      "loss": 0.4794,
      "step": 15214,
      "task_loss": 0.44091862440109253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.329230397939682,
      "epoch": 12.86,
      "learning_rate": 7.921102066374452e-06,
      "loss": 0.4278,
      "step": 15215,
      "task_loss": 0.10100438445806503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5159057378768921,
      "epoch": 12.86,
      "learning_rate": 7.917971195992487e-06,
      "loss": 0.5437,
      "step": 15216,
      "task_loss": 0.6670057773590088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6916142106056213,
      "epoch": 12.86,
      "learning_rate": 7.91484032561052e-06,
      "loss": 0.5287,
      "step": 15217,
      "task_loss": 0.4844367504119873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19014376401901245,
      "epoch": 12.86,
      "learning_rate": 7.911709455228554e-06,
      "loss": 0.4216,
      "step": 15218,
      "task_loss": 0.18856310844421387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3435025215148926,
      "epoch": 12.86,
      "learning_rate": 7.908578584846588e-06,
      "loss": 0.5397,
      "step": 15219,
      "task_loss": 0.8422865867614746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.267857164144516,
      "epoch": 12.87,
      "learning_rate": 7.905447714464621e-06,
      "loss": 0.4231,
      "step": 15220,
      "task_loss": 0.8602243065834045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5416452288627625,
      "epoch": 12.87,
      "learning_rate": 7.902316844082655e-06,
      "loss": 0.4758,
      "step": 15221,
      "task_loss": 0.6842418909072876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38208067417144775,
      "epoch": 12.87,
      "learning_rate": 7.899185973700688e-06,
      "loss": 0.3331,
      "step": 15222,
      "task_loss": 0.5484828948974609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4916917681694031,
      "epoch": 12.87,
      "learning_rate": 7.896055103318723e-06,
      "loss": 0.4583,
      "step": 15223,
      "task_loss": 0.8663843870162964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35101377964019775,
      "epoch": 12.87,
      "learning_rate": 7.892924232936757e-06,
      "loss": 0.4186,
      "step": 15224,
      "task_loss": 0.4190223813056946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5463391542434692,
      "epoch": 12.87,
      "learning_rate": 7.889793362554792e-06,
      "loss": 0.4317,
      "step": 15225,
      "task_loss": 0.538010835647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5483894348144531,
      "epoch": 12.87,
      "learning_rate": 7.886662492172825e-06,
      "loss": 0.4288,
      "step": 15226,
      "task_loss": 0.3964768350124359
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37194859981536865,
      "epoch": 12.87,
      "learning_rate": 7.883531621790859e-06,
      "loss": 0.5341,
      "step": 15227,
      "task_loss": 0.642602801322937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4046512246131897,
      "epoch": 12.87,
      "learning_rate": 7.880400751408892e-06,
      "loss": 0.5401,
      "step": 15228,
      "task_loss": 0.8445967435836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.426999568939209,
      "epoch": 12.87,
      "learning_rate": 7.877269881026926e-06,
      "loss": 0.5493,
      "step": 15229,
      "task_loss": 0.7257580161094666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4662858247756958,
      "epoch": 12.87,
      "learning_rate": 7.87413901064496e-06,
      "loss": 0.4378,
      "step": 15230,
      "task_loss": 0.5252858400344849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2679852545261383,
      "epoch": 12.87,
      "learning_rate": 7.871008140262993e-06,
      "loss": 0.47,
      "step": 15231,
      "task_loss": 1.5578557252883911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4135597050189972,
      "epoch": 12.88,
      "learning_rate": 7.867877269881028e-06,
      "loss": 0.3945,
      "step": 15232,
      "task_loss": 1.0302000045776367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569745302200317,
      "epoch": 12.88,
      "learning_rate": 7.864746399499061e-06,
      "loss": 0.4356,
      "step": 15233,
      "task_loss": 0.7342290282249451
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25607043504714966,
      "epoch": 12.88,
      "learning_rate": 7.861615529117095e-06,
      "loss": 0.3896,
      "step": 15234,
      "task_loss": 0.7711193561553955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45784619450569153,
      "epoch": 12.88,
      "learning_rate": 7.858484658735128e-06,
      "loss": 0.5141,
      "step": 15235,
      "task_loss": 1.2063376903533936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.371005117893219,
      "epoch": 12.88,
      "learning_rate": 7.855353788353162e-06,
      "loss": 0.4102,
      "step": 15236,
      "task_loss": 0.3092201054096222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19859810173511505,
      "epoch": 12.88,
      "learning_rate": 7.852222917971197e-06,
      "loss": 0.3669,
      "step": 15237,
      "task_loss": 0.49385368824005127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24509066343307495,
      "epoch": 12.88,
      "learning_rate": 7.84909204758923e-06,
      "loss": 0.4255,
      "step": 15238,
      "task_loss": 0.2668977379798889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2680928707122803,
      "epoch": 12.88,
      "learning_rate": 7.845961177207264e-06,
      "loss": 0.4098,
      "step": 15239,
      "task_loss": 0.16901789605617523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34642505645751953,
      "epoch": 12.88,
      "learning_rate": 7.842830306825297e-06,
      "loss": 0.4267,
      "step": 15240,
      "task_loss": 0.9716415405273438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31507277488708496,
      "epoch": 12.88,
      "learning_rate": 7.839699436443333e-06,
      "loss": 0.3277,
      "step": 15241,
      "task_loss": 0.6092053055763245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46610328555107117,
      "epoch": 12.88,
      "learning_rate": 7.836568566061366e-06,
      "loss": 0.4165,
      "step": 15242,
      "task_loss": 0.944611132144928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4540313482284546,
      "epoch": 12.88,
      "learning_rate": 7.8334376956794e-06,
      "loss": 0.4591,
      "step": 15243,
      "task_loss": 0.4704122841358185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23531608283519745,
      "epoch": 12.89,
      "learning_rate": 7.830306825297433e-06,
      "loss": 0.3304,
      "step": 15244,
      "task_loss": 0.10988514125347137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5617852210998535,
      "epoch": 12.89,
      "learning_rate": 7.827175954915466e-06,
      "loss": 0.4114,
      "step": 15245,
      "task_loss": 0.4992009103298187
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5601819753646851,
      "epoch": 12.89,
      "learning_rate": 7.8240450845335e-06,
      "loss": 0.3576,
      "step": 15246,
      "task_loss": 0.9130175113677979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4167180061340332,
      "epoch": 12.89,
      "learning_rate": 7.820914214151533e-06,
      "loss": 0.5038,
      "step": 15247,
      "task_loss": 0.7111597061157227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5416098833084106,
      "epoch": 12.89,
      "learning_rate": 7.817783343769569e-06,
      "loss": 0.4807,
      "step": 15248,
      "task_loss": 0.9027553200721741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5279645919799805,
      "epoch": 12.89,
      "learning_rate": 7.814652473387602e-06,
      "loss": 0.5202,
      "step": 15249,
      "task_loss": 0.40995079278945923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3399283289909363,
      "epoch": 12.89,
      "learning_rate": 7.811521603005637e-06,
      "loss": 0.2855,
      "step": 15250,
      "task_loss": 0.7613968849182129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5155447125434875,
      "epoch": 12.89,
      "learning_rate": 7.80839073262367e-06,
      "loss": 0.4282,
      "step": 15251,
      "task_loss": 0.17406253516674042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40457624197006226,
      "epoch": 12.89,
      "learning_rate": 7.805259862241704e-06,
      "loss": 0.4313,
      "step": 15252,
      "task_loss": 0.8109288215637207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6773537397384644,
      "epoch": 12.89,
      "learning_rate": 7.802128991859738e-06,
      "loss": 0.4758,
      "step": 15253,
      "task_loss": 0.910824179649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47935110330581665,
      "epoch": 12.89,
      "learning_rate": 7.798998121477771e-06,
      "loss": 0.5391,
      "step": 15254,
      "task_loss": 1.1123260259628296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191774964332581,
      "epoch": 12.89,
      "learning_rate": 7.795867251095805e-06,
      "loss": 0.5657,
      "step": 15255,
      "task_loss": 0.4282732307910919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5225976705551147,
      "epoch": 12.9,
      "learning_rate": 7.792736380713838e-06,
      "loss": 0.4671,
      "step": 15256,
      "task_loss": 1.6111301183700562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4163248538970947,
      "epoch": 12.9,
      "learning_rate": 7.789605510331873e-06,
      "loss": 0.3331,
      "step": 15257,
      "task_loss": 0.21828517317771912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3991513252258301,
      "epoch": 12.9,
      "learning_rate": 7.786474639949907e-06,
      "loss": 0.4062,
      "step": 15258,
      "task_loss": 0.6669830083847046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4054928421974182,
      "epoch": 12.9,
      "learning_rate": 7.78334376956794e-06,
      "loss": 0.4311,
      "step": 15259,
      "task_loss": 1.0585383176803589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3025341033935547,
      "epoch": 12.9,
      "learning_rate": 7.780212899185974e-06,
      "loss": 0.5465,
      "step": 15260,
      "task_loss": 0.1759706288576126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49994951486587524,
      "epoch": 12.9,
      "learning_rate": 7.777082028804007e-06,
      "loss": 0.4411,
      "step": 15261,
      "task_loss": 0.9649634957313538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24849379062652588,
      "epoch": 12.9,
      "learning_rate": 7.773951158422042e-06,
      "loss": 0.3343,
      "step": 15262,
      "task_loss": 0.35998034477233887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38301873207092285,
      "epoch": 12.9,
      "learning_rate": 7.770820288040076e-06,
      "loss": 0.4518,
      "step": 15263,
      "task_loss": 0.4017236530780792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46912863850593567,
      "epoch": 12.9,
      "learning_rate": 7.76768941765811e-06,
      "loss": 0.3951,
      "step": 15264,
      "task_loss": 0.4002848267555237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45375382900238037,
      "epoch": 12.9,
      "learning_rate": 7.764558547276143e-06,
      "loss": 0.5585,
      "step": 15265,
      "task_loss": 0.18672826886177063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24296584725379944,
      "epoch": 12.9,
      "learning_rate": 7.761427676894178e-06,
      "loss": 0.4316,
      "step": 15266,
      "task_loss": 0.24157153069972992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3325657844543457,
      "epoch": 12.9,
      "learning_rate": 7.758296806512211e-06,
      "loss": 0.4409,
      "step": 15267,
      "task_loss": 0.4601380527019501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4123963415622711,
      "epoch": 12.91,
      "learning_rate": 7.755165936130245e-06,
      "loss": 0.4696,
      "step": 15268,
      "task_loss": 0.2915157377719879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49533140659332275,
      "epoch": 12.91,
      "learning_rate": 7.752035065748278e-06,
      "loss": 0.4202,
      "step": 15269,
      "task_loss": 0.5265724658966064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5072195529937744,
      "epoch": 12.91,
      "learning_rate": 7.748904195366312e-06,
      "loss": 0.4945,
      "step": 15270,
      "task_loss": 0.33158162236213684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17207181453704834,
      "epoch": 12.91,
      "learning_rate": 7.745773324984345e-06,
      "loss": 0.4582,
      "step": 15271,
      "task_loss": 1.0218472480773926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5777761936187744,
      "epoch": 12.91,
      "learning_rate": 7.742642454602379e-06,
      "loss": 0.4994,
      "step": 15272,
      "task_loss": 0.723659336566925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49003905057907104,
      "epoch": 12.91,
      "learning_rate": 7.739511584220412e-06,
      "loss": 0.3935,
      "step": 15273,
      "task_loss": 0.6310247778892517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42810410261154175,
      "epoch": 12.91,
      "learning_rate": 7.736380713838447e-06,
      "loss": 0.5485,
      "step": 15274,
      "task_loss": 0.3607807755470276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6322226524353027,
      "epoch": 12.91,
      "learning_rate": 7.733249843456483e-06,
      "loss": 0.5878,
      "step": 15275,
      "task_loss": 0.5664782524108887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44558584690093994,
      "epoch": 12.91,
      "learning_rate": 7.730118973074516e-06,
      "loss": 0.4732,
      "step": 15276,
      "task_loss": 0.7604743838310242
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5896517038345337,
      "epoch": 12.91,
      "learning_rate": 7.72698810269255e-06,
      "loss": 0.5078,
      "step": 15277,
      "task_loss": 0.4782739579677582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.303438663482666,
      "epoch": 12.91,
      "learning_rate": 7.723857232310583e-06,
      "loss": 0.465,
      "step": 15278,
      "task_loss": 0.22025980055332184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3217439651489258,
      "epoch": 12.91,
      "learning_rate": 7.720726361928616e-06,
      "loss": 0.4649,
      "step": 15279,
      "task_loss": 0.3325444161891937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22881753742694855,
      "epoch": 12.92,
      "learning_rate": 7.71759549154665e-06,
      "loss": 0.4272,
      "step": 15280,
      "task_loss": 0.7499513626098633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35345539450645447,
      "epoch": 12.92,
      "learning_rate": 7.714464621164683e-06,
      "loss": 0.3646,
      "step": 15281,
      "task_loss": 0.6055485606193542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25629615783691406,
      "epoch": 12.92,
      "learning_rate": 7.711333750782717e-06,
      "loss": 0.3839,
      "step": 15282,
      "task_loss": 1.5923879146575928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.374103307723999,
      "epoch": 12.92,
      "learning_rate": 7.708202880400752e-06,
      "loss": 0.4577,
      "step": 15283,
      "task_loss": 0.6170212626457214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33950555324554443,
      "epoch": 12.92,
      "learning_rate": 7.705072010018786e-06,
      "loss": 0.3065,
      "step": 15284,
      "task_loss": 0.39084869623184204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.262216717004776,
      "epoch": 12.92,
      "learning_rate": 7.701941139636819e-06,
      "loss": 0.566,
      "step": 15285,
      "task_loss": 0.22768767178058624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.718660295009613,
      "epoch": 12.92,
      "learning_rate": 7.698810269254854e-06,
      "loss": 0.3568,
      "step": 15286,
      "task_loss": 0.7661762833595276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6054259538650513,
      "epoch": 12.92,
      "learning_rate": 7.695679398872888e-06,
      "loss": 0.4418,
      "step": 15287,
      "task_loss": 0.4746646583080292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3929705023765564,
      "epoch": 12.92,
      "learning_rate": 7.692548528490921e-06,
      "loss": 0.4218,
      "step": 15288,
      "task_loss": 0.2747204303741455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33548861742019653,
      "epoch": 12.92,
      "learning_rate": 7.689417658108955e-06,
      "loss": 0.4425,
      "step": 15289,
      "task_loss": 1.104590892791748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32473766803741455,
      "epoch": 12.92,
      "learning_rate": 7.686286787726988e-06,
      "loss": 0.297,
      "step": 15290,
      "task_loss": 0.6890411376953125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8009471893310547,
      "epoch": 12.93,
      "learning_rate": 7.683155917345022e-06,
      "loss": 0.5009,
      "step": 15291,
      "task_loss": 0.6574572920799255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5028818249702454,
      "epoch": 12.93,
      "learning_rate": 7.680025046963057e-06,
      "loss": 0.4784,
      "step": 15292,
      "task_loss": 0.30788296461105347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7119000554084778,
      "epoch": 12.93,
      "learning_rate": 7.67689417658109e-06,
      "loss": 0.5721,
      "step": 15293,
      "task_loss": 0.32893791794776917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24635136127471924,
      "epoch": 12.93,
      "learning_rate": 7.673763306199124e-06,
      "loss": 0.4376,
      "step": 15294,
      "task_loss": 0.17312178015708923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.781951904296875,
      "epoch": 12.93,
      "learning_rate": 7.670632435817157e-06,
      "loss": 0.5946,
      "step": 15295,
      "task_loss": 1.1767971515655518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5624918341636658,
      "epoch": 12.93,
      "learning_rate": 7.66750156543519e-06,
      "loss": 0.5643,
      "step": 15296,
      "task_loss": 1.746488332748413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30762070417404175,
      "epoch": 12.93,
      "learning_rate": 7.664370695053224e-06,
      "loss": 0.3586,
      "step": 15297,
      "task_loss": 0.15987111628055573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2429676502943039,
      "epoch": 12.93,
      "learning_rate": 7.66123982467126e-06,
      "loss": 0.5029,
      "step": 15298,
      "task_loss": 0.37764132022857666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27134382724761963,
      "epoch": 12.93,
      "learning_rate": 7.658108954289293e-06,
      "loss": 0.4105,
      "step": 15299,
      "task_loss": 0.13080085813999176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3412669897079468,
      "epoch": 12.93,
      "learning_rate": 7.654978083907326e-06,
      "loss": 0.4799,
      "step": 15300,
      "task_loss": 0.4067259728908539
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28756630420684814,
      "epoch": 12.93,
      "learning_rate": 7.651847213525361e-06,
      "loss": 0.4376,
      "step": 15301,
      "task_loss": 1.0748213529586792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.399681955575943,
      "epoch": 12.93,
      "learning_rate": 7.648716343143395e-06,
      "loss": 0.4083,
      "step": 15302,
      "task_loss": 0.8346064686775208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3580392003059387,
      "epoch": 12.94,
      "learning_rate": 7.645585472761428e-06,
      "loss": 0.4069,
      "step": 15303,
      "task_loss": 0.33361729979515076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41818463802337646,
      "epoch": 12.94,
      "learning_rate": 7.642454602379462e-06,
      "loss": 0.4638,
      "step": 15304,
      "task_loss": 0.6627475023269653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4708825349807739,
      "epoch": 12.94,
      "learning_rate": 7.639323731997495e-06,
      "loss": 0.4701,
      "step": 15305,
      "task_loss": 0.7985402941703796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3810613453388214,
      "epoch": 12.94,
      "learning_rate": 7.636192861615529e-06,
      "loss": 0.4613,
      "step": 15306,
      "task_loss": 0.2653803527355194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7278398275375366,
      "epoch": 12.94,
      "learning_rate": 7.633061991233562e-06,
      "loss": 0.5722,
      "step": 15307,
      "task_loss": 0.6845921277999878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38235291838645935,
      "epoch": 12.94,
      "learning_rate": 7.629931120851597e-06,
      "loss": 0.3731,
      "step": 15308,
      "task_loss": 0.7196389436721802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28251203894615173,
      "epoch": 12.94,
      "learning_rate": 7.62680025046963e-06,
      "loss": 0.3977,
      "step": 15309,
      "task_loss": 0.40877634286880493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4327950179576874,
      "epoch": 12.94,
      "learning_rate": 7.623669380087664e-06,
      "loss": 0.4707,
      "step": 15310,
      "task_loss": 0.18791384994983673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47162336111068726,
      "epoch": 12.94,
      "learning_rate": 7.6205385097056995e-06,
      "loss": 0.5101,
      "step": 15311,
      "task_loss": 0.6834566593170166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6825882196426392,
      "epoch": 12.94,
      "learning_rate": 7.617407639323733e-06,
      "loss": 0.4344,
      "step": 15312,
      "task_loss": 1.1438628435134888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5120607018470764,
      "epoch": 12.94,
      "learning_rate": 7.6142767689417665e-06,
      "loss": 0.3959,
      "step": 15313,
      "task_loss": 0.9145627021789551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6952458024024963,
      "epoch": 12.94,
      "learning_rate": 7.6111458985598e-06,
      "loss": 0.5665,
      "step": 15314,
      "task_loss": 0.7577742338180542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44008904695510864,
      "epoch": 12.95,
      "learning_rate": 7.608015028177834e-06,
      "loss": 0.4898,
      "step": 15315,
      "task_loss": 0.48448631167411804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29470378160476685,
      "epoch": 12.95,
      "learning_rate": 7.604884157795868e-06,
      "loss": 0.3405,
      "step": 15316,
      "task_loss": 0.23403948545455933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47543591260910034,
      "epoch": 12.95,
      "learning_rate": 7.601753287413901e-06,
      "loss": 0.4568,
      "step": 15317,
      "task_loss": 0.6803188323974609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5055257081985474,
      "epoch": 12.95,
      "learning_rate": 7.598622417031935e-06,
      "loss": 0.5578,
      "step": 15318,
      "task_loss": 0.7982637286186218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31345149874687195,
      "epoch": 12.95,
      "learning_rate": 7.595491546649969e-06,
      "loss": 0.3351,
      "step": 15319,
      "task_loss": 0.48321229219436646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.327326238155365,
      "epoch": 12.95,
      "learning_rate": 7.5923606762680025e-06,
      "loss": 0.4597,
      "step": 15320,
      "task_loss": 0.5853113532066345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3606812059879303,
      "epoch": 12.95,
      "learning_rate": 7.589229805886036e-06,
      "loss": 0.3376,
      "step": 15321,
      "task_loss": 0.7681702375411987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7143148183822632,
      "epoch": 12.95,
      "learning_rate": 7.5860989355040695e-06,
      "loss": 0.5461,
      "step": 15322,
      "task_loss": 0.34911614656448364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3993212580680847,
      "epoch": 12.95,
      "learning_rate": 7.582968065122105e-06,
      "loss": 0.4403,
      "step": 15323,
      "task_loss": 0.5227065086364746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18168854713439941,
      "epoch": 12.95,
      "learning_rate": 7.579837194740139e-06,
      "loss": 0.469,
      "step": 15324,
      "task_loss": 0.05253950506448746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32148808240890503,
      "epoch": 12.95,
      "learning_rate": 7.576706324358172e-06,
      "loss": 0.4021,
      "step": 15325,
      "task_loss": 0.3869611620903015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6484072804450989,
      "epoch": 12.95,
      "learning_rate": 7.573575453976206e-06,
      "loss": 0.5715,
      "step": 15326,
      "task_loss": 1.1163721084594727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38472700119018555,
      "epoch": 12.96,
      "learning_rate": 7.570444583594239e-06,
      "loss": 0.4884,
      "step": 15327,
      "task_loss": 0.8253822922706604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3755068778991699,
      "epoch": 12.96,
      "learning_rate": 7.567313713212274e-06,
      "loss": 0.3596,
      "step": 15328,
      "task_loss": 1.0673632621765137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3576873540878296,
      "epoch": 12.96,
      "learning_rate": 7.564182842830307e-06,
      "loss": 0.4909,
      "step": 15329,
      "task_loss": 0.5310108065605164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5460309982299805,
      "epoch": 12.96,
      "learning_rate": 7.561051972448341e-06,
      "loss": 0.4855,
      "step": 15330,
      "task_loss": 0.22078770399093628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3876587152481079,
      "epoch": 12.96,
      "learning_rate": 7.557921102066375e-06,
      "loss": 0.4403,
      "step": 15331,
      "task_loss": 0.658905565738678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4022054076194763,
      "epoch": 12.96,
      "learning_rate": 7.5547902316844084e-06,
      "loss": 0.5432,
      "step": 15332,
      "task_loss": 0.6873363852500916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3286052346229553,
      "epoch": 12.96,
      "learning_rate": 7.551659361302442e-06,
      "loss": 0.474,
      "step": 15333,
      "task_loss": 1.0945624113082886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45007017254829407,
      "epoch": 12.96,
      "learning_rate": 7.548528490920475e-06,
      "loss": 0.3448,
      "step": 15334,
      "task_loss": 0.6118227243423462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5970985293388367,
      "epoch": 12.96,
      "learning_rate": 7.5453976205385106e-06,
      "loss": 0.5094,
      "step": 15335,
      "task_loss": 0.9049884676933289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4584995210170746,
      "epoch": 12.96,
      "learning_rate": 7.542266750156544e-06,
      "loss": 0.4613,
      "step": 15336,
      "task_loss": 0.6082422733306885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5734057426452637,
      "epoch": 12.96,
      "learning_rate": 7.539135879774578e-06,
      "loss": 0.521,
      "step": 15337,
      "task_loss": 0.5921640396118164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3252413868904114,
      "epoch": 12.96,
      "learning_rate": 7.536005009392612e-06,
      "loss": 0.4559,
      "step": 15338,
      "task_loss": 0.38807785511016846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5344895124435425,
      "epoch": 12.97,
      "learning_rate": 7.532874139010645e-06,
      "loss": 0.6144,
      "step": 15339,
      "task_loss": 1.4255121946334839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5660786628723145,
      "epoch": 12.97,
      "learning_rate": 7.52974326862868e-06,
      "loss": 0.5282,
      "step": 15340,
      "task_loss": 0.550841748714447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434730648994446,
      "epoch": 12.97,
      "learning_rate": 7.526612398246713e-06,
      "loss": 0.3414,
      "step": 15341,
      "task_loss": 0.7330165505409241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30182719230651855,
      "epoch": 12.97,
      "learning_rate": 7.523481527864747e-06,
      "loss": 0.3685,
      "step": 15342,
      "task_loss": 0.46499672532081604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3826676607131958,
      "epoch": 12.97,
      "learning_rate": 7.52035065748278e-06,
      "loss": 0.5255,
      "step": 15343,
      "task_loss": 0.3070363998413086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6877956390380859,
      "epoch": 12.97,
      "learning_rate": 7.517219787100814e-06,
      "loss": 0.5365,
      "step": 15344,
      "task_loss": 0.7236526608467102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3663501441478729,
      "epoch": 12.97,
      "learning_rate": 7.514088916718848e-06,
      "loss": 0.4052,
      "step": 15345,
      "task_loss": 0.7101629972457886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2748071253299713,
      "epoch": 12.97,
      "learning_rate": 7.510958046336881e-06,
      "loss": 0.3434,
      "step": 15346,
      "task_loss": 1.4028936624526978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6319712400436401,
      "epoch": 12.97,
      "learning_rate": 7.507827175954915e-06,
      "loss": 0.5747,
      "step": 15347,
      "task_loss": 1.2346066236495972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41050148010253906,
      "epoch": 12.97,
      "learning_rate": 7.50469630557295e-06,
      "loss": 0.4967,
      "step": 15348,
      "task_loss": 1.2430706024169922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5288330912590027,
      "epoch": 12.97,
      "learning_rate": 7.501565435190984e-06,
      "loss": 0.5081,
      "step": 15349,
      "task_loss": 0.3331802487373352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5100999474525452,
      "epoch": 12.97,
      "learning_rate": 7.498434564809018e-06,
      "loss": 0.4747,
      "step": 15350,
      "task_loss": 0.5292544364929199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5038935542106628,
      "epoch": 12.98,
      "learning_rate": 7.495303694427051e-06,
      "loss": 0.4626,
      "step": 15351,
      "task_loss": 0.48801976442337036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5286833047866821,
      "epoch": 12.98,
      "learning_rate": 7.492172824045085e-06,
      "loss": 0.428,
      "step": 15352,
      "task_loss": 0.9028392434120178
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4898107647895813,
      "epoch": 12.98,
      "learning_rate": 7.489041953663119e-06,
      "loss": 0.5084,
      "step": 15353,
      "task_loss": 0.7478304505348206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2902902364730835,
      "epoch": 12.98,
      "learning_rate": 7.4859110832811525e-06,
      "loss": 0.4133,
      "step": 15354,
      "task_loss": 0.4177205264568329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6715673804283142,
      "epoch": 12.98,
      "learning_rate": 7.482780212899186e-06,
      "loss": 0.5017,
      "step": 15355,
      "task_loss": 0.6669435501098633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4699553847312927,
      "epoch": 12.98,
      "learning_rate": 7.4796493425172195e-06,
      "loss": 0.504,
      "step": 15356,
      "task_loss": 0.9070311784744263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7150346040725708,
      "epoch": 12.98,
      "learning_rate": 7.476518472135254e-06,
      "loss": 0.4819,
      "step": 15357,
      "task_loss": 0.5739755034446716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40844160318374634,
      "epoch": 12.98,
      "learning_rate": 7.473387601753287e-06,
      "loss": 0.4833,
      "step": 15358,
      "task_loss": 0.6216624975204468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.365091472864151,
      "epoch": 12.98,
      "learning_rate": 7.470256731371321e-06,
      "loss": 0.6336,
      "step": 15359,
      "task_loss": 0.5667142868041992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2714356780052185,
      "epoch": 12.98,
      "learning_rate": 7.467125860989356e-06,
      "loss": 0.455,
      "step": 15360,
      "task_loss": 0.7003498077392578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5175207853317261,
      "epoch": 12.98,
      "learning_rate": 7.463994990607389e-06,
      "loss": 0.3489,
      "step": 15361,
      "task_loss": 0.8288613557815552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38513413071632385,
      "epoch": 12.99,
      "learning_rate": 7.460864120225424e-06,
      "loss": 0.5313,
      "step": 15362,
      "task_loss": 1.0728403329849243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.342849999666214,
      "epoch": 12.99,
      "learning_rate": 7.457733249843457e-06,
      "loss": 0.452,
      "step": 15363,
      "task_loss": 0.9992603063583374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41736721992492676,
      "epoch": 12.99,
      "learning_rate": 7.454602379461491e-06,
      "loss": 0.5785,
      "step": 15364,
      "task_loss": 0.7730987071990967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5396575331687927,
      "epoch": 12.99,
      "learning_rate": 7.451471509079524e-06,
      "loss": 0.4833,
      "step": 15365,
      "task_loss": 0.490310400724411
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23182907700538635,
      "epoch": 12.99,
      "learning_rate": 7.4483406386975585e-06,
      "loss": 0.468,
      "step": 15366,
      "task_loss": 0.2747322916984558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5332299470901489,
      "epoch": 12.99,
      "learning_rate": 7.445209768315592e-06,
      "loss": 0.3689,
      "step": 15367,
      "task_loss": 0.3321979343891144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5534368753433228,
      "epoch": 12.99,
      "learning_rate": 7.442078897933625e-06,
      "loss": 0.5218,
      "step": 15368,
      "task_loss": 0.7460137009620667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37796664237976074,
      "epoch": 12.99,
      "learning_rate": 7.43894802755166e-06,
      "loss": 0.6047,
      "step": 15369,
      "task_loss": 0.1892431378364563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.667976438999176,
      "epoch": 12.99,
      "learning_rate": 7.435817157169693e-06,
      "loss": 0.4791,
      "step": 15370,
      "task_loss": 0.20628605782985687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5583152770996094,
      "epoch": 12.99,
      "learning_rate": 7.432686286787727e-06,
      "loss": 0.447,
      "step": 15371,
      "task_loss": 0.9003366231918335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3601500988006592,
      "epoch": 12.99,
      "learning_rate": 7.429555416405762e-06,
      "loss": 0.3773,
      "step": 15372,
      "task_loss": 0.3166872262954712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1878199726343155,
      "epoch": 12.99,
      "learning_rate": 7.426424546023795e-06,
      "loss": 0.326,
      "step": 15373,
      "task_loss": 0.4057905375957489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28328895568847656,
      "epoch": 13.0,
      "learning_rate": 7.423293675641829e-06,
      "loss": 0.2842,
      "step": 15374,
      "task_loss": 0.43711838126182556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45870229601860046,
      "epoch": 13.0,
      "learning_rate": 7.420162805259863e-06,
      "loss": 0.4214,
      "step": 15375,
      "task_loss": 1.4152915477752686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5225862860679626,
      "epoch": 13.0,
      "learning_rate": 7.417031934877897e-06,
      "loss": 0.3428,
      "step": 15376,
      "task_loss": 0.2687109112739563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3653562068939209,
      "epoch": 13.0,
      "learning_rate": 7.41390106449593e-06,
      "loss": 0.325,
      "step": 15377,
      "task_loss": 0.2463110238313675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17662674188613892,
      "epoch": 13.0,
      "learning_rate": 7.410770194113964e-06,
      "loss": 0.3663,
      "step": 15378,
      "task_loss": 0.9427986145019531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3081802725791931,
      "epoch": 13.0,
      "learning_rate": 7.407639323731998e-06,
      "loss": 0.3917,
      "step": 15379,
      "task_loss": 0.8130849003791809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27258771657943726,
      "epoch": 13.0,
      "learning_rate": 7.404508453350031e-06,
      "loss": 0.7301,
      "step": 15380,
      "task_loss": 0.678367555141449
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25799044966697693,
      "epoch": 13.0,
      "learning_rate": 7.401377582968065e-06,
      "loss": 0.6031,
      "step": 15381,
      "task_loss": 0.4641134440898895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47943204641342163,
      "epoch": 13.0,
      "learning_rate": 7.398246712586099e-06,
      "loss": 0.5403,
      "step": 15382,
      "task_loss": 0.2238268405199051
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32236215472221375,
      "epoch": 13.0,
      "learning_rate": 7.395115842204133e-06,
      "loss": 0.5588,
      "step": 15383,
      "task_loss": 0.02191711589694023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49950340390205383,
      "epoch": 13.0,
      "learning_rate": 7.391984971822168e-06,
      "loss": 0.434,
      "step": 15384,
      "task_loss": 1.1389753818511963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5366899967193604,
      "epoch": 13.01,
      "learning_rate": 7.388854101440201e-06,
      "loss": 0.4137,
      "step": 15385,
      "task_loss": 0.3923911452293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5020517706871033,
      "epoch": 13.01,
      "learning_rate": 7.385723231058235e-06,
      "loss": 0.4667,
      "step": 15386,
      "task_loss": 0.44370725750923157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30842140316963196,
      "epoch": 13.01,
      "learning_rate": 7.382592360676269e-06,
      "loss": 0.4728,
      "step": 15387,
      "task_loss": 0.6410271525382996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.273977130651474,
      "epoch": 13.01,
      "learning_rate": 7.3794614902943025e-06,
      "loss": 0.2995,
      "step": 15388,
      "task_loss": 0.09168991446495056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3294694125652313,
      "epoch": 13.01,
      "learning_rate": 7.376330619912336e-06,
      "loss": 0.4517,
      "step": 15389,
      "task_loss": 0.5184553861618042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4567108154296875,
      "epoch": 13.01,
      "learning_rate": 7.3731997495303695e-06,
      "loss": 0.4858,
      "step": 15390,
      "task_loss": 1.633603811264038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2776956856250763,
      "epoch": 13.01,
      "learning_rate": 7.370068879148404e-06,
      "loss": 0.3621,
      "step": 15391,
      "task_loss": 0.716662585735321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5726830959320068,
      "epoch": 13.01,
      "learning_rate": 7.366938008766437e-06,
      "loss": 0.4088,
      "step": 15392,
      "task_loss": 0.6336005926132202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2244763821363449,
      "epoch": 13.01,
      "learning_rate": 7.363807138384471e-06,
      "loss": 0.5382,
      "step": 15393,
      "task_loss": 0.042773351073265076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4866150915622711,
      "epoch": 13.01,
      "learning_rate": 7.360676268002504e-06,
      "loss": 0.4493,
      "step": 15394,
      "task_loss": 0.46690407395362854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19327935576438904,
      "epoch": 13.01,
      "learning_rate": 7.3575453976205386e-06,
      "loss": 0.386,
      "step": 15395,
      "task_loss": 0.25247326493263245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2710760831832886,
      "epoch": 13.01,
      "learning_rate": 7.354414527238572e-06,
      "loss": 0.3894,
      "step": 15396,
      "task_loss": 0.3773190379142761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2996262311935425,
      "epoch": 13.02,
      "learning_rate": 7.351283656856607e-06,
      "loss": 0.2792,
      "step": 15397,
      "task_loss": 0.5466613173484802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.679813027381897,
      "epoch": 13.02,
      "learning_rate": 7.348152786474641e-06,
      "loss": 0.6522,
      "step": 15398,
      "task_loss": 0.4399926960468292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44117271900177,
      "epoch": 13.02,
      "learning_rate": 7.345021916092674e-06,
      "loss": 0.3879,
      "step": 15399,
      "task_loss": 0.7977515459060669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24426762759685516,
      "epoch": 13.02,
      "learning_rate": 7.3418910457107085e-06,
      "loss": 0.3865,
      "step": 15400,
      "task_loss": 0.39651158452033997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4287922978401184,
      "epoch": 13.02,
      "learning_rate": 7.338760175328742e-06,
      "loss": 0.593,
      "step": 15401,
      "task_loss": 1.318279504776001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3147316575050354,
      "epoch": 13.02,
      "learning_rate": 7.3356293049467754e-06,
      "loss": 0.3597,
      "step": 15402,
      "task_loss": 0.43380308151245117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4830401539802551,
      "epoch": 13.02,
      "learning_rate": 7.332498434564809e-06,
      "loss": 0.4515,
      "step": 15403,
      "task_loss": 0.2616911232471466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4194740951061249,
      "epoch": 13.02,
      "learning_rate": 7.329367564182843e-06,
      "loss": 0.4174,
      "step": 15404,
      "task_loss": 0.6082265973091125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16417133808135986,
      "epoch": 13.02,
      "learning_rate": 7.326236693800877e-06,
      "loss": 0.2409,
      "step": 15405,
      "task_loss": 0.5197821855545044
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3983297348022461,
      "epoch": 13.02,
      "learning_rate": 7.32310582341891e-06,
      "loss": 0.3956,
      "step": 15406,
      "task_loss": 0.9691120386123657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42162472009658813,
      "epoch": 13.02,
      "learning_rate": 7.3199749530369445e-06,
      "loss": 0.5771,
      "step": 15407,
      "task_loss": 0.43963342905044556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.303422749042511,
      "epoch": 13.02,
      "learning_rate": 7.316844082654978e-06,
      "loss": 0.5934,
      "step": 15408,
      "task_loss": 0.27565649151802063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21294379234313965,
      "epoch": 13.03,
      "learning_rate": 7.313713212273013e-06,
      "loss": 0.3323,
      "step": 15409,
      "task_loss": 0.11839675903320312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.282875657081604,
      "epoch": 13.03,
      "learning_rate": 7.310582341891047e-06,
      "loss": 0.4749,
      "step": 15410,
      "task_loss": 0.0811990275979042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32419270277023315,
      "epoch": 13.03,
      "learning_rate": 7.30745147150908e-06,
      "loss": 0.4536,
      "step": 15411,
      "task_loss": 1.016769528388977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7044914960861206,
      "epoch": 13.03,
      "learning_rate": 7.3043206011271136e-06,
      "loss": 0.4361,
      "step": 15412,
      "task_loss": 1.2637015581130981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18543587625026703,
      "epoch": 13.03,
      "learning_rate": 7.301189730745148e-06,
      "loss": 0.353,
      "step": 15413,
      "task_loss": 0.40418171882629395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38841694593429565,
      "epoch": 13.03,
      "learning_rate": 7.298058860363181e-06,
      "loss": 0.4416,
      "step": 15414,
      "task_loss": 0.5349991321563721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4493221342563629,
      "epoch": 13.03,
      "learning_rate": 7.294927989981215e-06,
      "loss": 0.426,
      "step": 15415,
      "task_loss": 0.7516605854034424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3056989312171936,
      "epoch": 13.03,
      "learning_rate": 7.291797119599249e-06,
      "loss": 0.2741,
      "step": 15416,
      "task_loss": 0.38950589299201965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49188435077667236,
      "epoch": 13.03,
      "learning_rate": 7.288666249217283e-06,
      "loss": 0.4902,
      "step": 15417,
      "task_loss": 1.1986382007598877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3174676299095154,
      "epoch": 13.03,
      "learning_rate": 7.285535378835316e-06,
      "loss": 0.3748,
      "step": 15418,
      "task_loss": 0.46183905005455017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2152678370475769,
      "epoch": 13.03,
      "learning_rate": 7.28240450845335e-06,
      "loss": 0.2741,
      "step": 15419,
      "task_loss": 0.45740270614624023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2254955768585205,
      "epoch": 13.03,
      "learning_rate": 7.279273638071384e-06,
      "loss": 0.4546,
      "step": 15420,
      "task_loss": 0.6414120197296143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3521943688392639,
      "epoch": 13.04,
      "learning_rate": 7.276142767689418e-06,
      "loss": 0.457,
      "step": 15421,
      "task_loss": 0.8290771842002869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44183436036109924,
      "epoch": 13.04,
      "learning_rate": 7.2730118973074526e-06,
      "loss": 0.4339,
      "step": 15422,
      "task_loss": 0.3301568627357483
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6506335735321045,
      "epoch": 13.04,
      "learning_rate": 7.269881026925486e-06,
      "loss": 0.4698,
      "step": 15423,
      "task_loss": 0.9605718851089478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2918151617050171,
      "epoch": 13.04,
      "learning_rate": 7.2667501565435195e-06,
      "loss": 0.3724,
      "step": 15424,
      "task_loss": 0.964990496635437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4942999482154846,
      "epoch": 13.04,
      "learning_rate": 7.263619286161554e-06,
      "loss": 0.4299,
      "step": 15425,
      "task_loss": 1.023828387260437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3814018964767456,
      "epoch": 13.04,
      "learning_rate": 7.260488415779587e-06,
      "loss": 0.3858,
      "step": 15426,
      "task_loss": 0.5225023627281189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3237658441066742,
      "epoch": 13.04,
      "learning_rate": 7.257357545397621e-06,
      "loss": 0.3285,
      "step": 15427,
      "task_loss": 0.3306533694267273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5143022537231445,
      "epoch": 13.04,
      "learning_rate": 7.254226675015654e-06,
      "loss": 0.5041,
      "step": 15428,
      "task_loss": 0.5311129689216614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4853132367134094,
      "epoch": 13.04,
      "learning_rate": 7.251095804633689e-06,
      "loss": 0.4654,
      "step": 15429,
      "task_loss": 0.5726667642593384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.380922794342041,
      "epoch": 13.04,
      "learning_rate": 7.247964934251722e-06,
      "loss": 0.4798,
      "step": 15430,
      "task_loss": 0.19770634174346924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25563111901283264,
      "epoch": 13.04,
      "learning_rate": 7.2448340638697555e-06,
      "loss": 0.5077,
      "step": 15431,
      "task_loss": 0.1806224286556244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45023709535598755,
      "epoch": 13.04,
      "learning_rate": 7.241703193487789e-06,
      "loss": 0.5302,
      "step": 15432,
      "task_loss": 0.5900902152061462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4827898442745209,
      "epoch": 13.05,
      "learning_rate": 7.238572323105824e-06,
      "loss": 0.5323,
      "step": 15433,
      "task_loss": 0.1831880360841751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31507810950279236,
      "epoch": 13.05,
      "learning_rate": 7.2354414527238585e-06,
      "loss": 0.3836,
      "step": 15434,
      "task_loss": 0.2950150966644287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6125561594963074,
      "epoch": 13.05,
      "learning_rate": 7.232310582341892e-06,
      "loss": 0.4123,
      "step": 15435,
      "task_loss": 0.7238138318061829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.372895210981369,
      "epoch": 13.05,
      "learning_rate": 7.2291797119599254e-06,
      "loss": 0.4428,
      "step": 15436,
      "task_loss": 0.27551907300949097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48281624913215637,
      "epoch": 13.05,
      "learning_rate": 7.226048841577959e-06,
      "loss": 0.4025,
      "step": 15437,
      "task_loss": 0.7428438067436218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5538859963417053,
      "epoch": 13.05,
      "learning_rate": 7.222917971195993e-06,
      "loss": 0.4962,
      "step": 15438,
      "task_loss": 0.8222858905792236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31720125675201416,
      "epoch": 13.05,
      "learning_rate": 7.219787100814027e-06,
      "loss": 0.4049,
      "step": 15439,
      "task_loss": 0.7433227300643921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2720515727996826,
      "epoch": 13.05,
      "learning_rate": 7.21665623043206e-06,
      "loss": 0.453,
      "step": 15440,
      "task_loss": 0.35061541199684143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2612040638923645,
      "epoch": 13.05,
      "learning_rate": 7.213525360050094e-06,
      "loss": 0.4553,
      "step": 15441,
      "task_loss": 0.3898374140262604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5389792919158936,
      "epoch": 13.05,
      "learning_rate": 7.210394489668128e-06,
      "loss": 0.4164,
      "step": 15442,
      "task_loss": 0.4804874062538147
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4161056876182556,
      "epoch": 13.05,
      "learning_rate": 7.2072636192861615e-06,
      "loss": 0.428,
      "step": 15443,
      "task_loss": 0.4979325532913208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5309693217277527,
      "epoch": 13.05,
      "learning_rate": 7.204132748904195e-06,
      "loss": 0.6313,
      "step": 15444,
      "task_loss": 0.7215347290039062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5719726085662842,
      "epoch": 13.06,
      "learning_rate": 7.201001878522229e-06,
      "loss": 0.3937,
      "step": 15445,
      "task_loss": 0.5455603003501892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3402819037437439,
      "epoch": 13.06,
      "learning_rate": 7.197871008140264e-06,
      "loss": 0.3534,
      "step": 15446,
      "task_loss": 0.12233906239271164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4278128743171692,
      "epoch": 13.06,
      "learning_rate": 7.194740137758298e-06,
      "loss": 0.4216,
      "step": 15447,
      "task_loss": 0.9273564219474792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6576439142227173,
      "epoch": 13.06,
      "learning_rate": 7.191609267376331e-06,
      "loss": 0.5531,
      "step": 15448,
      "task_loss": 0.8660739660263062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6217464804649353,
      "epoch": 13.06,
      "learning_rate": 7.188478396994365e-06,
      "loss": 0.5064,
      "step": 15449,
      "task_loss": 0.7387430667877197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4566691517829895,
      "epoch": 13.06,
      "learning_rate": 7.185347526612398e-06,
      "loss": 0.4668,
      "step": 15450,
      "task_loss": 0.3609434962272644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40029066801071167,
      "epoch": 13.06,
      "learning_rate": 7.182216656230433e-06,
      "loss": 0.5133,
      "step": 15451,
      "task_loss": 0.7454752922058105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3082987368106842,
      "epoch": 13.06,
      "learning_rate": 7.179085785848466e-06,
      "loss": 0.3632,
      "step": 15452,
      "task_loss": 0.2474270612001419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3012118935585022,
      "epoch": 13.06,
      "learning_rate": 7.1759549154665e-06,
      "loss": 0.3901,
      "step": 15453,
      "task_loss": 0.8273102641105652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8164876103401184,
      "epoch": 13.06,
      "learning_rate": 7.172824045084534e-06,
      "loss": 0.4985,
      "step": 15454,
      "task_loss": 1.7312880754470825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43346792459487915,
      "epoch": 13.06,
      "learning_rate": 7.169693174702567e-06,
      "loss": 0.4198,
      "step": 15455,
      "task_loss": 1.5442531108856201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44800660014152527,
      "epoch": 13.07,
      "learning_rate": 7.166562304320601e-06,
      "loss": 0.4182,
      "step": 15456,
      "task_loss": 0.32091233134269714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41767460107803345,
      "epoch": 13.07,
      "learning_rate": 7.163431433938634e-06,
      "loss": 0.3245,
      "step": 15457,
      "task_loss": 0.40960463881492615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34090501070022583,
      "epoch": 13.07,
      "learning_rate": 7.1603005635566695e-06,
      "loss": 0.4365,
      "step": 15458,
      "task_loss": 0.08256089687347412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4543449878692627,
      "epoch": 13.07,
      "learning_rate": 7.157169693174704e-06,
      "loss": 0.3534,
      "step": 15459,
      "task_loss": 1.2083475589752197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.279386430978775,
      "epoch": 13.07,
      "learning_rate": 7.154038822792737e-06,
      "loss": 0.3019,
      "step": 15460,
      "task_loss": 0.6656579971313477
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4244426488876343,
      "epoch": 13.07,
      "learning_rate": 7.150907952410771e-06,
      "loss": 0.4878,
      "step": 15461,
      "task_loss": 0.508213222026825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.515209436416626,
      "epoch": 13.07,
      "learning_rate": 7.147777082028804e-06,
      "loss": 0.5124,
      "step": 15462,
      "task_loss": 0.6005597114562988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3502766191959381,
      "epoch": 13.07,
      "learning_rate": 7.144646211646839e-06,
      "loss": 0.4527,
      "step": 15463,
      "task_loss": 1.1285113096237183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48076075315475464,
      "epoch": 13.07,
      "learning_rate": 7.141515341264872e-06,
      "loss": 0.4456,
      "step": 15464,
      "task_loss": 0.9046142101287842
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6511574983596802,
      "epoch": 13.07,
      "learning_rate": 7.1383844708829055e-06,
      "loss": 0.6085,
      "step": 15465,
      "task_loss": 0.7923080921173096
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4349067807197571,
      "epoch": 13.07,
      "learning_rate": 7.135253600500939e-06,
      "loss": 0.3752,
      "step": 15466,
      "task_loss": 0.9256941080093384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5489201545715332,
      "epoch": 13.07,
      "learning_rate": 7.132122730118973e-06,
      "loss": 0.4888,
      "step": 15467,
      "task_loss": 2.1060242652893066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4360518455505371,
      "epoch": 13.08,
      "learning_rate": 7.128991859737007e-06,
      "loss": 0.426,
      "step": 15468,
      "task_loss": 0.7704366445541382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37049081921577454,
      "epoch": 13.08,
      "learning_rate": 7.12586098935504e-06,
      "loss": 0.4988,
      "step": 15469,
      "task_loss": 0.1803593635559082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49410998821258545,
      "epoch": 13.08,
      "learning_rate": 7.1227301189730755e-06,
      "loss": 0.4347,
      "step": 15470,
      "task_loss": 1.0791268348693848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3068748712539673,
      "epoch": 13.08,
      "learning_rate": 7.119599248591109e-06,
      "loss": 0.5696,
      "step": 15471,
      "task_loss": 1.2606174945831299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4152895212173462,
      "epoch": 13.08,
      "learning_rate": 7.116468378209143e-06,
      "loss": 0.3397,
      "step": 15472,
      "task_loss": 0.5899979472160339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5557246208190918,
      "epoch": 13.08,
      "learning_rate": 7.113337507827177e-06,
      "loss": 0.4097,
      "step": 15473,
      "task_loss": 1.8532220125198364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3814261853694916,
      "epoch": 13.08,
      "learning_rate": 7.11020663744521e-06,
      "loss": 0.39,
      "step": 15474,
      "task_loss": 0.8736680150032043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009466409683228,
      "epoch": 13.08,
      "learning_rate": 7.107075767063244e-06,
      "loss": 0.4676,
      "step": 15475,
      "task_loss": 0.27681007981300354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36113059520721436,
      "epoch": 13.08,
      "learning_rate": 7.103944896681278e-06,
      "loss": 0.4624,
      "step": 15476,
      "task_loss": 1.4055176973342896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2888143062591553,
      "epoch": 13.08,
      "learning_rate": 7.1008140262993115e-06,
      "loss": 0.3188,
      "step": 15477,
      "task_loss": 0.9014564752578735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26614344120025635,
      "epoch": 13.08,
      "learning_rate": 7.097683155917345e-06,
      "loss": 0.3541,
      "step": 15478,
      "task_loss": 0.33821165561676025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3786030113697052,
      "epoch": 13.08,
      "learning_rate": 7.0945522855353784e-06,
      "loss": 0.4159,
      "step": 15479,
      "task_loss": 0.6585286259651184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25429558753967285,
      "epoch": 13.09,
      "learning_rate": 7.091421415153413e-06,
      "loss": 0.411,
      "step": 15480,
      "task_loss": 0.5277988910675049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23837848007678986,
      "epoch": 13.09,
      "learning_rate": 7.088290544771446e-06,
      "loss": 0.3283,
      "step": 15481,
      "task_loss": 0.9252274632453918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24393779039382935,
      "epoch": 13.09,
      "learning_rate": 7.085159674389481e-06,
      "loss": 0.3758,
      "step": 15482,
      "task_loss": 0.39150184392929077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5807412266731262,
      "epoch": 13.09,
      "learning_rate": 7.082028804007515e-06,
      "loss": 0.4605,
      "step": 15483,
      "task_loss": 0.7286006212234497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37362098693847656,
      "epoch": 13.09,
      "learning_rate": 7.078897933625548e-06,
      "loss": 0.4187,
      "step": 15484,
      "task_loss": 0.6863133907318115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5030677318572998,
      "epoch": 13.09,
      "learning_rate": 7.075767063243583e-06,
      "loss": 0.5743,
      "step": 15485,
      "task_loss": 1.0103379487991333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2617281377315521,
      "epoch": 13.09,
      "learning_rate": 7.072636192861616e-06,
      "loss": 0.4304,
      "step": 15486,
      "task_loss": 0.13938350975513458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5439741611480713,
      "epoch": 13.09,
      "learning_rate": 7.06950532247965e-06,
      "loss": 0.5192,
      "step": 15487,
      "task_loss": 0.7421950101852417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21184472739696503,
      "epoch": 13.09,
      "learning_rate": 7.066374452097683e-06,
      "loss": 0.4218,
      "step": 15488,
      "task_loss": 0.2762277126312256
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31970471143722534,
      "epoch": 13.09,
      "learning_rate": 7.0632435817157174e-06,
      "loss": 0.4458,
      "step": 15489,
      "task_loss": 1.1469500064849854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41411900520324707,
      "epoch": 13.09,
      "learning_rate": 7.060112711333751e-06,
      "loss": 0.2996,
      "step": 15490,
      "task_loss": 0.6333039402961731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.393084853887558,
      "epoch": 13.09,
      "learning_rate": 7.056981840951784e-06,
      "loss": 0.4205,
      "step": 15491,
      "task_loss": 0.2219483107328415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43219053745269775,
      "epoch": 13.1,
      "learning_rate": 7.053850970569819e-06,
      "loss": 0.344,
      "step": 15492,
      "task_loss": 0.9724631309509277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4531767964363098,
      "epoch": 13.1,
      "learning_rate": 7.050720100187852e-06,
      "loss": 0.5025,
      "step": 15493,
      "task_loss": 0.5065772533416748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5843995213508606,
      "epoch": 13.1,
      "learning_rate": 7.047589229805886e-06,
      "loss": 0.4474,
      "step": 15494,
      "task_loss": 1.1474802494049072
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23714804649353027,
      "epoch": 13.1,
      "learning_rate": 7.044458359423921e-06,
      "loss": 0.4026,
      "step": 15495,
      "task_loss": 0.574388325214386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5762361288070679,
      "epoch": 13.1,
      "learning_rate": 7.041327489041954e-06,
      "loss": 0.4474,
      "step": 15496,
      "task_loss": 1.3689069747924805
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3123135566711426,
      "epoch": 13.1,
      "learning_rate": 7.038196618659989e-06,
      "loss": 0.3509,
      "step": 15497,
      "task_loss": 0.042127590626478195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4890047609806061,
      "epoch": 13.1,
      "learning_rate": 7.035065748278022e-06,
      "loss": 0.4268,
      "step": 15498,
      "task_loss": 0.5350996851921082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35865145921707153,
      "epoch": 13.1,
      "learning_rate": 7.0319348778960556e-06,
      "loss": 0.494,
      "step": 15499,
      "task_loss": 0.5785248279571533
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2767668664455414,
      "epoch": 13.1,
      "learning_rate": 7.028804007514089e-06,
      "loss": 0.3209,
      "step": 15500,
      "task_loss": 0.08218551427125931
    },
    {
      "epoch": 13.1,
      "eval_accuracy": 0.9123168316831683,
      "eval_loss": 0.31200969219207764,
      "eval_runtime": 206.1644,
      "eval_samples_per_second": 122.475,
      "eval_steps_per_second": 0.96,
      "step": 15500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3964611887931824,
      "epoch": 13.1,
      "learning_rate": 7.025673137132123e-06,
      "loss": 0.4051,
      "step": 15501,
      "task_loss": 1.5194894075393677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44219228625297546,
      "epoch": 13.1,
      "learning_rate": 7.022542266750157e-06,
      "loss": 0.4172,
      "step": 15502,
      "task_loss": 0.7031528353691101
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19514837861061096,
      "epoch": 13.1,
      "learning_rate": 7.01941139636819e-06,
      "loss": 0.3881,
      "step": 15503,
      "task_loss": 0.2722989320755005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4002978801727295,
      "epoch": 13.11,
      "learning_rate": 7.016280525986224e-06,
      "loss": 0.3137,
      "step": 15504,
      "task_loss": 0.19652700424194336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6123827695846558,
      "epoch": 13.11,
      "learning_rate": 7.013149655604258e-06,
      "loss": 0.4779,
      "step": 15505,
      "task_loss": 0.7349413633346558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1900118887424469,
      "epoch": 13.11,
      "learning_rate": 7.010018785222292e-06,
      "loss": 0.3151,
      "step": 15506,
      "task_loss": 0.34209030866622925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33799314498901367,
      "epoch": 13.11,
      "learning_rate": 7.006887914840327e-06,
      "loss": 0.4377,
      "step": 15507,
      "task_loss": 0.5069386959075928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42248812317848206,
      "epoch": 13.11,
      "learning_rate": 7.00375704445836e-06,
      "loss": 0.4215,
      "step": 15508,
      "task_loss": 1.2911802530288696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4389194846153259,
      "epoch": 13.11,
      "learning_rate": 7.000626174076394e-06,
      "loss": 0.4115,
      "step": 15509,
      "task_loss": 0.46491295099258423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42878928780555725,
      "epoch": 13.11,
      "learning_rate": 6.997495303694428e-06,
      "loss": 0.3625,
      "step": 15510,
      "task_loss": 0.4148316979408264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5441962480545044,
      "epoch": 13.11,
      "learning_rate": 6.9943644333124615e-06,
      "loss": 0.4434,
      "step": 15511,
      "task_loss": 0.28407829999923706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5693289041519165,
      "epoch": 13.11,
      "learning_rate": 6.991233562930495e-06,
      "loss": 0.522,
      "step": 15512,
      "task_loss": 0.40296733379364014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7205849289894104,
      "epoch": 13.11,
      "learning_rate": 6.9881026925485285e-06,
      "loss": 0.5101,
      "step": 15513,
      "task_loss": 0.46947941184043884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3553944528102875,
      "epoch": 13.11,
      "learning_rate": 6.984971822166563e-06,
      "loss": 0.5056,
      "step": 15514,
      "task_loss": 0.7115702629089355
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5333380699157715,
      "epoch": 13.11,
      "learning_rate": 6.981840951784596e-06,
      "loss": 0.4428,
      "step": 15515,
      "task_loss": 1.0916105508804321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2740231156349182,
      "epoch": 13.12,
      "learning_rate": 6.97871008140263e-06,
      "loss": 0.4645,
      "step": 15516,
      "task_loss": 0.47985178232192993
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1747560054063797,
      "epoch": 13.12,
      "learning_rate": 6.975579211020663e-06,
      "loss": 0.366,
      "step": 15517,
      "task_loss": 0.44715791940689087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45900759100914,
      "epoch": 13.12,
      "learning_rate": 6.9724483406386975e-06,
      "loss": 0.3753,
      "step": 15518,
      "task_loss": 0.18613751232624054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49262112379074097,
      "epoch": 13.12,
      "learning_rate": 6.969317470256733e-06,
      "loss": 0.3881,
      "step": 15519,
      "task_loss": 0.7501885294914246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16602128744125366,
      "epoch": 13.12,
      "learning_rate": 6.966186599874766e-06,
      "loss": 0.4902,
      "step": 15520,
      "task_loss": 0.6830518245697021
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5080870389938354,
      "epoch": 13.12,
      "learning_rate": 6.9630557294928e-06,
      "loss": 0.5636,
      "step": 15521,
      "task_loss": 0.7340821623802185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5023406744003296,
      "epoch": 13.12,
      "learning_rate": 6.959924859110833e-06,
      "loss": 0.4848,
      "step": 15522,
      "task_loss": 0.7579521536827087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3604196310043335,
      "epoch": 13.12,
      "learning_rate": 6.9567939887288674e-06,
      "loss": 0.3324,
      "step": 15523,
      "task_loss": 1.151607632637024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4461309313774109,
      "epoch": 13.12,
      "learning_rate": 6.953663118346901e-06,
      "loss": 0.3879,
      "step": 15524,
      "task_loss": 1.0798609256744385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5391840934753418,
      "epoch": 13.12,
      "learning_rate": 6.950532247964934e-06,
      "loss": 0.4194,
      "step": 15525,
      "task_loss": 1.134599208831787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5382905006408691,
      "epoch": 13.12,
      "learning_rate": 6.947401377582968e-06,
      "loss": 0.4466,
      "step": 15526,
      "task_loss": 0.6935966610908508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4673299789428711,
      "epoch": 13.13,
      "learning_rate": 6.944270507201002e-06,
      "loss": 0.6139,
      "step": 15527,
      "task_loss": 0.7176768183708191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6125930547714233,
      "epoch": 13.13,
      "learning_rate": 6.941139636819036e-06,
      "loss": 0.3884,
      "step": 15528,
      "task_loss": 0.9874147176742554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2613111734390259,
      "epoch": 13.13,
      "learning_rate": 6.938008766437069e-06,
      "loss": 0.388,
      "step": 15529,
      "task_loss": 0.02552110329270363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5230299830436707,
      "epoch": 13.13,
      "learning_rate": 6.9348778960551035e-06,
      "loss": 0.3583,
      "step": 15530,
      "task_loss": 0.533748984336853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.399405837059021,
      "epoch": 13.13,
      "learning_rate": 6.931747025673137e-06,
      "loss": 0.391,
      "step": 15531,
      "task_loss": 0.462937593460083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33781781792640686,
      "epoch": 13.13,
      "learning_rate": 6.928616155291172e-06,
      "loss": 0.327,
      "step": 15532,
      "task_loss": 0.44713130593299866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3694213628768921,
      "epoch": 13.13,
      "learning_rate": 6.925485284909206e-06,
      "loss": 0.3743,
      "step": 15533,
      "task_loss": 0.18917317688465118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44483280181884766,
      "epoch": 13.13,
      "learning_rate": 6.922354414527239e-06,
      "loss": 0.3837,
      "step": 15534,
      "task_loss": 0.6093291640281677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5345198512077332,
      "epoch": 13.13,
      "learning_rate": 6.919223544145273e-06,
      "loss": 0.4179,
      "step": 15535,
      "task_loss": 0.6213546991348267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5190179944038391,
      "epoch": 13.13,
      "learning_rate": 6.916092673763307e-06,
      "loss": 0.448,
      "step": 15536,
      "task_loss": 1.2681903839111328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3503086566925049,
      "epoch": 13.13,
      "learning_rate": 6.91296180338134e-06,
      "loss": 0.5432,
      "step": 15537,
      "task_loss": 0.969073474407196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4083949625492096,
      "epoch": 13.13,
      "learning_rate": 6.909830932999374e-06,
      "loss": 0.3993,
      "step": 15538,
      "task_loss": 1.028610110282898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4908480644226074,
      "epoch": 13.14,
      "learning_rate": 6.906700062617408e-06,
      "loss": 0.4379,
      "step": 15539,
      "task_loss": 1.451982855796814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36608242988586426,
      "epoch": 13.14,
      "learning_rate": 6.903569192235442e-06,
      "loss": 0.4189,
      "step": 15540,
      "task_loss": 0.6516835689544678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7072679400444031,
      "epoch": 13.14,
      "learning_rate": 6.900438321853475e-06,
      "loss": 0.4986,
      "step": 15541,
      "task_loss": 1.125620722770691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22943168878555298,
      "epoch": 13.14,
      "learning_rate": 6.8973074514715086e-06,
      "loss": 0.4098,
      "step": 15542,
      "task_loss": 0.7990049123764038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3815666437149048,
      "epoch": 13.14,
      "learning_rate": 6.894176581089543e-06,
      "loss": 0.4759,
      "step": 15543,
      "task_loss": 0.48730364441871643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43371254205703735,
      "epoch": 13.14,
      "learning_rate": 6.891045710707578e-06,
      "loss": 0.3267,
      "step": 15544,
      "task_loss": 0.3214567005634308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1592109203338623,
      "epoch": 13.14,
      "learning_rate": 6.8879148403256115e-06,
      "loss": 0.3649,
      "step": 15545,
      "task_loss": 0.10820893198251724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.324241578578949,
      "epoch": 13.14,
      "learning_rate": 6.884783969943645e-06,
      "loss": 0.4525,
      "step": 15546,
      "task_loss": 0.3651493787765503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38491636514663696,
      "epoch": 13.14,
      "learning_rate": 6.8816530995616785e-06,
      "loss": 0.3993,
      "step": 15547,
      "task_loss": 0.7282981276512146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3379245698451996,
      "epoch": 13.14,
      "learning_rate": 6.878522229179713e-06,
      "loss": 0.5479,
      "step": 15548,
      "task_loss": 0.47810015082359314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26740020513534546,
      "epoch": 13.14,
      "learning_rate": 6.875391358797746e-06,
      "loss": 0.3542,
      "step": 15549,
      "task_loss": 0.686267614364624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3084922432899475,
      "epoch": 13.14,
      "learning_rate": 6.87226048841578e-06,
      "loss": 0.4969,
      "step": 15550,
      "task_loss": 1.352903962135315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19211845099925995,
      "epoch": 13.15,
      "learning_rate": 6.869129618033813e-06,
      "loss": 0.5602,
      "step": 15551,
      "task_loss": 0.08173803985118866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3830808401107788,
      "epoch": 13.15,
      "learning_rate": 6.8659987476518475e-06,
      "loss": 0.5303,
      "step": 15552,
      "task_loss": 0.25520074367523193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5366668701171875,
      "epoch": 13.15,
      "learning_rate": 6.862867877269881e-06,
      "loss": 0.5287,
      "step": 15553,
      "task_loss": 0.6350709795951843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.757763147354126,
      "epoch": 13.15,
      "learning_rate": 6.8597370068879145e-06,
      "loss": 0.6021,
      "step": 15554,
      "task_loss": 2.1276345252990723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4233860969543457,
      "epoch": 13.15,
      "learning_rate": 6.856606136505948e-06,
      "loss": 0.529,
      "step": 15555,
      "task_loss": 0.6057830452919006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42090681195259094,
      "epoch": 13.15,
      "learning_rate": 6.853475266123983e-06,
      "loss": 0.3546,
      "step": 15556,
      "task_loss": 0.38565492630004883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.542489767074585,
      "epoch": 13.15,
      "learning_rate": 6.8503443957420175e-06,
      "loss": 0.4424,
      "step": 15557,
      "task_loss": 0.7858928442001343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2647233009338379,
      "epoch": 13.15,
      "learning_rate": 6.847213525360051e-06,
      "loss": 0.3597,
      "step": 15558,
      "task_loss": 0.22353370487689972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3825925886631012,
      "epoch": 13.15,
      "learning_rate": 6.844082654978084e-06,
      "loss": 0.3895,
      "step": 15559,
      "task_loss": 0.3470032811164856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47318676114082336,
      "epoch": 13.15,
      "learning_rate": 6.840951784596118e-06,
      "loss": 0.4641,
      "step": 15560,
      "task_loss": 0.37605002522468567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46309465169906616,
      "epoch": 13.15,
      "learning_rate": 6.837820914214152e-06,
      "loss": 0.4512,
      "step": 15561,
      "task_loss": 0.6153436899185181
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4497988224029541,
      "epoch": 13.15,
      "learning_rate": 6.834690043832186e-06,
      "loss": 0.4558,
      "step": 15562,
      "task_loss": 0.9570232629776001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3817433714866638,
      "epoch": 13.16,
      "learning_rate": 6.831559173450219e-06,
      "loss": 0.4155,
      "step": 15563,
      "task_loss": 0.7573544979095459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20807000994682312,
      "epoch": 13.16,
      "learning_rate": 6.828428303068253e-06,
      "loss": 0.4494,
      "step": 15564,
      "task_loss": 0.38539016246795654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46638667583465576,
      "epoch": 13.16,
      "learning_rate": 6.825297432686287e-06,
      "loss": 0.4842,
      "step": 15565,
      "task_loss": 0.7535818219184875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3274652361869812,
      "epoch": 13.16,
      "learning_rate": 6.8221665623043204e-06,
      "loss": 0.4938,
      "step": 15566,
      "task_loss": 0.5900393128395081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.443392813205719,
      "epoch": 13.16,
      "learning_rate": 6.819035691922354e-06,
      "loss": 0.392,
      "step": 15567,
      "task_loss": 0.5349918603897095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4870808720588684,
      "epoch": 13.16,
      "learning_rate": 6.815904821540389e-06,
      "loss": 0.5367,
      "step": 15568,
      "task_loss": 0.8998364806175232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44572561979293823,
      "epoch": 13.16,
      "learning_rate": 6.8127739511584226e-06,
      "loss": 0.4276,
      "step": 15569,
      "task_loss": 0.729059636592865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4168373942375183,
      "epoch": 13.16,
      "learning_rate": 6.809643080776457e-06,
      "loss": 0.2746,
      "step": 15570,
      "task_loss": 0.32395076751708984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44819769263267517,
      "epoch": 13.16,
      "learning_rate": 6.80651221039449e-06,
      "loss": 0.4048,
      "step": 15571,
      "task_loss": 0.3261510729789734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5936762094497681,
      "epoch": 13.16,
      "learning_rate": 6.803381340012524e-06,
      "loss": 0.3248,
      "step": 15572,
      "task_loss": 0.616587221622467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48232877254486084,
      "epoch": 13.16,
      "learning_rate": 6.800250469630558e-06,
      "loss": 0.45,
      "step": 15573,
      "task_loss": 0.6764828562736511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4338821768760681,
      "epoch": 13.16,
      "learning_rate": 6.797119599248592e-06,
      "loss": 0.4607,
      "step": 15574,
      "task_loss": 0.5608813166618347
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385029315948486,
      "epoch": 13.17,
      "learning_rate": 6.793988728866625e-06,
      "loss": 0.5618,
      "step": 15575,
      "task_loss": 1.122431993484497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5077014565467834,
      "epoch": 13.17,
      "learning_rate": 6.7908578584846586e-06,
      "loss": 0.4594,
      "step": 15576,
      "task_loss": 0.8680570721626282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6359014511108398,
      "epoch": 13.17,
      "learning_rate": 6.787726988102693e-06,
      "loss": 0.5507,
      "step": 15577,
      "task_loss": 1.1615824699401855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.625200629234314,
      "epoch": 13.17,
      "learning_rate": 6.784596117720726e-06,
      "loss": 0.5443,
      "step": 15578,
      "task_loss": 0.5311485528945923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3465232849121094,
      "epoch": 13.17,
      "learning_rate": 6.78146524733876e-06,
      "loss": 0.5194,
      "step": 15579,
      "task_loss": 1.0053082704544067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32505619525909424,
      "epoch": 13.17,
      "learning_rate": 6.778334376956793e-06,
      "loss": 0.395,
      "step": 15580,
      "task_loss": 0.8590647578239441
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49222972989082336,
      "epoch": 13.17,
      "learning_rate": 6.7752035065748285e-06,
      "loss": 0.4212,
      "step": 15581,
      "task_loss": 1.0679726600646973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2741157114505768,
      "epoch": 13.17,
      "learning_rate": 6.772072636192863e-06,
      "loss": 0.3301,
      "step": 15582,
      "task_loss": 0.3010544180870056
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38355395197868347,
      "epoch": 13.17,
      "learning_rate": 6.768941765810896e-06,
      "loss": 0.5611,
      "step": 15583,
      "task_loss": 0.19714397192001343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4713965058326721,
      "epoch": 13.17,
      "learning_rate": 6.76581089542893e-06,
      "loss": 0.4752,
      "step": 15584,
      "task_loss": 0.3447553217411041
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3603557348251343,
      "epoch": 13.17,
      "learning_rate": 6.762680025046963e-06,
      "loss": 0.3991,
      "step": 15585,
      "task_loss": 0.36226123571395874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3586062788963318,
      "epoch": 13.17,
      "learning_rate": 6.7595491546649976e-06,
      "loss": 0.4398,
      "step": 15586,
      "task_loss": 0.3363111615180969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3620554506778717,
      "epoch": 13.18,
      "learning_rate": 6.756418284283031e-06,
      "loss": 0.4578,
      "step": 15587,
      "task_loss": 0.7583397030830383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5003781914710999,
      "epoch": 13.18,
      "learning_rate": 6.7532874139010645e-06,
      "loss": 0.3694,
      "step": 15588,
      "task_loss": 0.846971333026886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5203860998153687,
      "epoch": 13.18,
      "learning_rate": 6.750156543519098e-06,
      "loss": 0.3659,
      "step": 15589,
      "task_loss": 0.8154274821281433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7132325172424316,
      "epoch": 13.18,
      "learning_rate": 6.747025673137132e-06,
      "loss": 0.4101,
      "step": 15590,
      "task_loss": 0.598547101020813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6433451771736145,
      "epoch": 13.18,
      "learning_rate": 6.743894802755166e-06,
      "loss": 0.5981,
      "step": 15591,
      "task_loss": 0.5125296711921692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4669308066368103,
      "epoch": 13.18,
      "learning_rate": 6.740763932373199e-06,
      "loss": 0.4732,
      "step": 15592,
      "task_loss": 0.5509132742881775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6546396017074585,
      "epoch": 13.18,
      "learning_rate": 6.7376330619912344e-06,
      "loss": 0.4569,
      "step": 15593,
      "task_loss": 0.6501541137695312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37119215726852417,
      "epoch": 13.18,
      "learning_rate": 6.734502191609268e-06,
      "loss": 0.4016,
      "step": 15594,
      "task_loss": 0.8799663782119751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39069610834121704,
      "epoch": 13.18,
      "learning_rate": 6.731371321227302e-06,
      "loss": 0.4209,
      "step": 15595,
      "task_loss": 0.4295230507850647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4048643112182617,
      "epoch": 13.18,
      "learning_rate": 6.728240450845336e-06,
      "loss": 0.4636,
      "step": 15596,
      "task_loss": 0.8896130323410034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41463473439216614,
      "epoch": 13.18,
      "learning_rate": 6.725109580463369e-06,
      "loss": 0.5051,
      "step": 15597,
      "task_loss": 0.38382554054260254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5896145105361938,
      "epoch": 13.19,
      "learning_rate": 6.721978710081403e-06,
      "loss": 0.4076,
      "step": 15598,
      "task_loss": 0.5780568718910217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38646984100341797,
      "epoch": 13.19,
      "learning_rate": 6.718847839699437e-06,
      "loss": 0.4167,
      "step": 15599,
      "task_loss": 0.4968283772468567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46282958984375,
      "epoch": 13.19,
      "learning_rate": 6.7157169693174705e-06,
      "loss": 0.4811,
      "step": 15600,
      "task_loss": 0.763498067855835
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3467065691947937,
      "epoch": 13.19,
      "learning_rate": 6.712586098935504e-06,
      "loss": 0.3422,
      "step": 15601,
      "task_loss": 0.4870515763759613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.392801433801651,
      "epoch": 13.19,
      "learning_rate": 6.709455228553537e-06,
      "loss": 0.4268,
      "step": 15602,
      "task_loss": 0.2001393437385559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30298060178756714,
      "epoch": 13.19,
      "learning_rate": 6.706324358171572e-06,
      "loss": 0.3528,
      "step": 15603,
      "task_loss": 0.09451206028461456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5681496858596802,
      "epoch": 13.19,
      "learning_rate": 6.703193487789605e-06,
      "loss": 0.4234,
      "step": 15604,
      "task_loss": 0.8339650630950928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30062246322631836,
      "epoch": 13.19,
      "learning_rate": 6.70006261740764e-06,
      "loss": 0.5671,
      "step": 15605,
      "task_loss": 0.4624735713005066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3816183805465698,
      "epoch": 13.19,
      "learning_rate": 6.696931747025674e-06,
      "loss": 0.5041,
      "step": 15606,
      "task_loss": 0.0796792134642601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5703842639923096,
      "epoch": 13.19,
      "learning_rate": 6.693800876643707e-06,
      "loss": 0.3696,
      "step": 15607,
      "task_loss": 0.4984630346298218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4663242995738983,
      "epoch": 13.19,
      "learning_rate": 6.690670006261742e-06,
      "loss": 0.5686,
      "step": 15608,
      "task_loss": 0.2963440716266632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3534380793571472,
      "epoch": 13.19,
      "learning_rate": 6.687539135879775e-06,
      "loss": 0.3165,
      "step": 15609,
      "task_loss": 0.0159663874655962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42660507559776306,
      "epoch": 13.2,
      "learning_rate": 6.684408265497809e-06,
      "loss": 0.4571,
      "step": 15610,
      "task_loss": 0.6219249367713928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.519824206829071,
      "epoch": 13.2,
      "learning_rate": 6.681277395115843e-06,
      "loss": 0.5152,
      "step": 15611,
      "task_loss": 0.6746348738670349
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3889700770378113,
      "epoch": 13.2,
      "learning_rate": 6.678146524733876e-06,
      "loss": 0.4898,
      "step": 15612,
      "task_loss": 0.5667321085929871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6739393472671509,
      "epoch": 13.2,
      "learning_rate": 6.67501565435191e-06,
      "loss": 0.4286,
      "step": 15613,
      "task_loss": 0.8986292481422424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2744065821170807,
      "epoch": 13.2,
      "learning_rate": 6.671884783969943e-06,
      "loss": 0.3901,
      "step": 15614,
      "task_loss": 0.39452415704727173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20522627234458923,
      "epoch": 13.2,
      "learning_rate": 6.668753913587978e-06,
      "loss": 0.2752,
      "step": 15615,
      "task_loss": 0.2401617020368576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.537897527217865,
      "epoch": 13.2,
      "learning_rate": 6.665623043206011e-06,
      "loss": 0.5741,
      "step": 15616,
      "task_loss": 0.6179659366607666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48612773418426514,
      "epoch": 13.2,
      "learning_rate": 6.662492172824046e-06,
      "loss": 0.4629,
      "step": 15617,
      "task_loss": 0.1290404498577118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7389791011810303,
      "epoch": 13.2,
      "learning_rate": 6.65936130244208e-06,
      "loss": 0.525,
      "step": 15618,
      "task_loss": 1.162497639656067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30664581060409546,
      "epoch": 13.2,
      "learning_rate": 6.656230432060113e-06,
      "loss": 0.5108,
      "step": 15619,
      "task_loss": 0.8750694394111633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7766778469085693,
      "epoch": 13.2,
      "learning_rate": 6.653099561678148e-06,
      "loss": 0.4822,
      "step": 15620,
      "task_loss": 0.9120073914527893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19965854287147522,
      "epoch": 13.2,
      "learning_rate": 6.649968691296181e-06,
      "loss": 0.2845,
      "step": 15621,
      "task_loss": 0.7652977705001831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5141395926475525,
      "epoch": 13.21,
      "learning_rate": 6.6468378209142145e-06,
      "loss": 0.5006,
      "step": 15622,
      "task_loss": 1.4484589099884033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3660731613636017,
      "epoch": 13.21,
      "learning_rate": 6.643706950532248e-06,
      "loss": 0.429,
      "step": 15623,
      "task_loss": 0.5182780623435974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3842109441757202,
      "epoch": 13.21,
      "learning_rate": 6.640576080150282e-06,
      "loss": 0.4152,
      "step": 15624,
      "task_loss": 0.7022645473480225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5092992782592773,
      "epoch": 13.21,
      "learning_rate": 6.637445209768316e-06,
      "loss": 0.5853,
      "step": 15625,
      "task_loss": 0.9267306923866272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3675076961517334,
      "epoch": 13.21,
      "learning_rate": 6.634314339386349e-06,
      "loss": 0.4264,
      "step": 15626,
      "task_loss": 0.9334899187088013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47779154777526855,
      "epoch": 13.21,
      "learning_rate": 6.631183469004383e-06,
      "loss": 0.3531,
      "step": 15627,
      "task_loss": 0.28824886679649353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6095781326293945,
      "epoch": 13.21,
      "learning_rate": 6.628052598622417e-06,
      "loss": 0.4509,
      "step": 15628,
      "task_loss": 0.19939595460891724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4197208881378174,
      "epoch": 13.21,
      "learning_rate": 6.6249217282404506e-06,
      "loss": 0.3493,
      "step": 15629,
      "task_loss": 0.9499028921127319
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.296069860458374,
      "epoch": 13.21,
      "learning_rate": 6.621790857858486e-06,
      "loss": 0.3936,
      "step": 15630,
      "task_loss": 0.35543206334114075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17775243520736694,
      "epoch": 13.21,
      "learning_rate": 6.618659987476519e-06,
      "loss": 0.3711,
      "step": 15631,
      "task_loss": 0.2983749210834503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5455096960067749,
      "epoch": 13.21,
      "learning_rate": 6.615529117094553e-06,
      "loss": 0.4148,
      "step": 15632,
      "task_loss": 0.5293278098106384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42120903730392456,
      "epoch": 13.21,
      "learning_rate": 6.612398246712587e-06,
      "loss": 0.4719,
      "step": 15633,
      "task_loss": 0.34073173999786377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.282362699508667,
      "epoch": 13.22,
      "learning_rate": 6.6092673763306205e-06,
      "loss": 0.3448,
      "step": 15634,
      "task_loss": 0.03445171192288399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3952227234840393,
      "epoch": 13.22,
      "learning_rate": 6.606136505948654e-06,
      "loss": 0.5773,
      "step": 15635,
      "task_loss": 1.599684238433838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32834392786026,
      "epoch": 13.22,
      "learning_rate": 6.603005635566687e-06,
      "loss": 0.4803,
      "step": 15636,
      "task_loss": 0.38915932178497314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.55783611536026,
      "epoch": 13.22,
      "learning_rate": 6.599874765184722e-06,
      "loss": 0.52,
      "step": 15637,
      "task_loss": 0.24286334216594696
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35838884115219116,
      "epoch": 13.22,
      "learning_rate": 6.596743894802755e-06,
      "loss": 0.4695,
      "step": 15638,
      "task_loss": 0.633837878704071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32969361543655396,
      "epoch": 13.22,
      "learning_rate": 6.593613024420789e-06,
      "loss": 0.5564,
      "step": 15639,
      "task_loss": 0.37689968943595886
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5449967384338379,
      "epoch": 13.22,
      "learning_rate": 6.590482154038822e-06,
      "loss": 0.5912,
      "step": 15640,
      "task_loss": 1.185606837272644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6617679595947266,
      "epoch": 13.22,
      "learning_rate": 6.5873512836568565e-06,
      "loss": 0.6591,
      "step": 15641,
      "task_loss": 0.7502658367156982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5840612649917603,
      "epoch": 13.22,
      "learning_rate": 6.584220413274892e-06,
      "loss": 0.4395,
      "step": 15642,
      "task_loss": 0.3913317322731018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28851306438446045,
      "epoch": 13.22,
      "learning_rate": 6.581089542892925e-06,
      "loss": 0.346,
      "step": 15643,
      "task_loss": 0.7804163694381714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33835268020629883,
      "epoch": 13.22,
      "learning_rate": 6.577958672510959e-06,
      "loss": 0.3235,
      "step": 15644,
      "task_loss": 0.8991928100585938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5987402200698853,
      "epoch": 13.22,
      "learning_rate": 6.574827802128992e-06,
      "loss": 0.4027,
      "step": 15645,
      "task_loss": 0.8769959807395935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16755124926567078,
      "epoch": 13.23,
      "learning_rate": 6.571696931747026e-06,
      "loss": 0.5607,
      "step": 15646,
      "task_loss": 0.026051783934235573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4464420676231384,
      "epoch": 13.23,
      "learning_rate": 6.56856606136506e-06,
      "loss": 0.4088,
      "step": 15647,
      "task_loss": 0.4719759523868561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6850999593734741,
      "epoch": 13.23,
      "learning_rate": 6.565435190983093e-06,
      "loss": 0.5608,
      "step": 15648,
      "task_loss": 0.5511074066162109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5019482374191284,
      "epoch": 13.23,
      "learning_rate": 6.562304320601128e-06,
      "loss": 0.4421,
      "step": 15649,
      "task_loss": 0.49948275089263916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5827039480209351,
      "epoch": 13.23,
      "learning_rate": 6.559173450219161e-06,
      "loss": 0.5506,
      "step": 15650,
      "task_loss": 0.678712010383606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44340622425079346,
      "epoch": 13.23,
      "learning_rate": 6.556042579837195e-06,
      "loss": 0.4183,
      "step": 15651,
      "task_loss": 0.18433092534542084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40435129404067993,
      "epoch": 13.23,
      "learning_rate": 6.552911709455228e-06,
      "loss": 0.4265,
      "step": 15652,
      "task_loss": 0.5987377762794495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18238167464733124,
      "epoch": 13.23,
      "learning_rate": 6.5497808390732624e-06,
      "loss": 0.4166,
      "step": 15653,
      "task_loss": 0.02566603012382984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46591252088546753,
      "epoch": 13.23,
      "learning_rate": 6.546649968691297e-06,
      "loss": 0.3745,
      "step": 15654,
      "task_loss": 0.824142575263977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6744322180747986,
      "epoch": 13.23,
      "learning_rate": 6.543519098309331e-06,
      "loss": 0.541,
      "step": 15655,
      "task_loss": 0.7301437258720398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6006245613098145,
      "epoch": 13.23,
      "learning_rate": 6.5403882279273646e-06,
      "loss": 0.4686,
      "step": 15656,
      "task_loss": 0.4768677353858948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33800676465034485,
      "epoch": 13.23,
      "learning_rate": 6.537257357545398e-06,
      "loss": 0.4827,
      "step": 15657,
      "task_loss": 0.4164397120475769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3068740963935852,
      "epoch": 13.24,
      "learning_rate": 6.534126487163432e-06,
      "loss": 0.6262,
      "step": 15658,
      "task_loss": 0.4875120222568512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.382870614528656,
      "epoch": 13.24,
      "learning_rate": 6.530995616781466e-06,
      "loss": 0.3732,
      "step": 15659,
      "task_loss": 1.4594700336456299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4283331036567688,
      "epoch": 13.24,
      "learning_rate": 6.527864746399499e-06,
      "loss": 0.4993,
      "step": 15660,
      "task_loss": 0.3145095109939575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40635356307029724,
      "epoch": 13.24,
      "learning_rate": 6.524733876017533e-06,
      "loss": 0.5868,
      "step": 15661,
      "task_loss": 0.6886839866638184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21530523896217346,
      "epoch": 13.24,
      "learning_rate": 6.521603005635567e-06,
      "loss": 0.3612,
      "step": 15662,
      "task_loss": 0.48962804675102234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3535100221633911,
      "epoch": 13.24,
      "learning_rate": 6.5184721352536006e-06,
      "loss": 0.5039,
      "step": 15663,
      "task_loss": 0.4348219931125641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41981691122055054,
      "epoch": 13.24,
      "learning_rate": 6.515341264871634e-06,
      "loss": 0.3819,
      "step": 15664,
      "task_loss": 0.2980637550354004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40258634090423584,
      "epoch": 13.24,
      "learning_rate": 6.5122103944896675e-06,
      "loss": 0.4333,
      "step": 15665,
      "task_loss": 0.8352608680725098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4116130769252777,
      "epoch": 13.24,
      "learning_rate": 6.509079524107703e-06,
      "loss": 0.496,
      "step": 15666,
      "task_loss": 0.16036485135555267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47409823536872864,
      "epoch": 13.24,
      "learning_rate": 6.505948653725737e-06,
      "loss": 0.5424,
      "step": 15667,
      "task_loss": 1.042904019355774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3296762704849243,
      "epoch": 13.24,
      "learning_rate": 6.5028177833437705e-06,
      "loss": 0.4293,
      "step": 15668,
      "task_loss": 0.6177574992179871
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24027083814144135,
      "epoch": 13.24,
      "learning_rate": 6.499686912961804e-06,
      "loss": 0.4512,
      "step": 15669,
      "task_loss": 0.65507572889328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32908475399017334,
      "epoch": 13.25,
      "learning_rate": 6.4965560425798374e-06,
      "loss": 0.5665,
      "step": 15670,
      "task_loss": 0.7496634721755981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49319037795066833,
      "epoch": 13.25,
      "learning_rate": 6.493425172197872e-06,
      "loss": 0.5001,
      "step": 15671,
      "task_loss": 1.8468937873840332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4291069507598877,
      "epoch": 13.25,
      "learning_rate": 6.490294301815905e-06,
      "loss": 0.4503,
      "step": 15672,
      "task_loss": 0.6857532262802124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26001784205436707,
      "epoch": 13.25,
      "learning_rate": 6.487163431433939e-06,
      "loss": 0.3904,
      "step": 15673,
      "task_loss": 0.24949157238006592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.695191502571106,
      "epoch": 13.25,
      "learning_rate": 6.484032561051972e-06,
      "loss": 0.4553,
      "step": 15674,
      "task_loss": 1.3371074199676514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6361416578292847,
      "epoch": 13.25,
      "learning_rate": 6.4809016906700065e-06,
      "loss": 0.4746,
      "step": 15675,
      "task_loss": 0.6391172409057617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40681296586990356,
      "epoch": 13.25,
      "learning_rate": 6.47777082028804e-06,
      "loss": 0.4172,
      "step": 15676,
      "task_loss": 1.172755479812622
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5611404180526733,
      "epoch": 13.25,
      "learning_rate": 6.4746399499060735e-06,
      "loss": 0.4849,
      "step": 15677,
      "task_loss": 0.6437933444976807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5255622863769531,
      "epoch": 13.25,
      "learning_rate": 6.471509079524107e-06,
      "loss": 0.4789,
      "step": 15678,
      "task_loss": 1.821777582168579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5430673360824585,
      "epoch": 13.25,
      "learning_rate": 6.468378209142142e-06,
      "loss": 0.3722,
      "step": 15679,
      "task_loss": 0.8512192964553833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6027058362960815,
      "epoch": 13.25,
      "learning_rate": 6.4652473387601764e-06,
      "loss": 0.5333,
      "step": 15680,
      "task_loss": 0.38274693489074707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3052879273891449,
      "epoch": 13.26,
      "learning_rate": 6.46211646837821e-06,
      "loss": 0.4894,
      "step": 15681,
      "task_loss": 0.1533524990081787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3933626413345337,
      "epoch": 13.26,
      "learning_rate": 6.458985597996243e-06,
      "loss": 0.446,
      "step": 15682,
      "task_loss": 1.2516058683395386
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3914867043495178,
      "epoch": 13.26,
      "learning_rate": 6.455854727614277e-06,
      "loss": 0.4307,
      "step": 15683,
      "task_loss": 0.5937177538871765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5131840705871582,
      "epoch": 13.26,
      "learning_rate": 6.452723857232311e-06,
      "loss": 0.3918,
      "step": 15684,
      "task_loss": 0.4944615662097931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7823176383972168,
      "epoch": 13.26,
      "learning_rate": 6.449592986850345e-06,
      "loss": 0.4948,
      "step": 15685,
      "task_loss": 0.36362338066101074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.567520022392273,
      "epoch": 13.26,
      "learning_rate": 6.446462116468378e-06,
      "loss": 0.5,
      "step": 15686,
      "task_loss": 1.1968003511428833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5780608057975769,
      "epoch": 13.26,
      "learning_rate": 6.4433312460864124e-06,
      "loss": 0.3694,
      "step": 15687,
      "task_loss": 0.5421651005744934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3990764617919922,
      "epoch": 13.26,
      "learning_rate": 6.440200375704446e-06,
      "loss": 0.3317,
      "step": 15688,
      "task_loss": 0.14318346977233887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5042208433151245,
      "epoch": 13.26,
      "learning_rate": 6.437069505322479e-06,
      "loss": 0.3336,
      "step": 15689,
      "task_loss": 0.576438844203949
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40353524684906006,
      "epoch": 13.26,
      "learning_rate": 6.433938634940513e-06,
      "loss": 0.4833,
      "step": 15690,
      "task_loss": 0.561560869216919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3403359055519104,
      "epoch": 13.26,
      "learning_rate": 6.430807764558548e-06,
      "loss": 0.4102,
      "step": 15691,
      "task_loss": 0.5524148941040039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4272528290748596,
      "epoch": 13.26,
      "learning_rate": 6.4276768941765815e-06,
      "loss": 0.4459,
      "step": 15692,
      "task_loss": 0.8486605882644653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6075717210769653,
      "epoch": 13.27,
      "learning_rate": 6.424546023794616e-06,
      "loss": 0.4668,
      "step": 15693,
      "task_loss": 1.0654900074005127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41943442821502686,
      "epoch": 13.27,
      "learning_rate": 6.421415153412649e-06,
      "loss": 0.4123,
      "step": 15694,
      "task_loss": 0.9504008293151855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5945556163787842,
      "epoch": 13.27,
      "learning_rate": 6.418284283030683e-06,
      "loss": 0.4915,
      "step": 15695,
      "task_loss": 0.8987438082695007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45597732067108154,
      "epoch": 13.27,
      "learning_rate": 6.415153412648717e-06,
      "loss": 0.5638,
      "step": 15696,
      "task_loss": 0.4967585802078247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3890226483345032,
      "epoch": 13.27,
      "learning_rate": 6.412022542266751e-06,
      "loss": 0.4196,
      "step": 15697,
      "task_loss": 0.48184433579444885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28280341625213623,
      "epoch": 13.27,
      "learning_rate": 6.408891671884784e-06,
      "loss": 0.3358,
      "step": 15698,
      "task_loss": 0.4088994860649109
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7356595993041992,
      "epoch": 13.27,
      "learning_rate": 6.4057608015028175e-06,
      "loss": 0.5715,
      "step": 15699,
      "task_loss": 1.5892834663391113
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4774532914161682,
      "epoch": 13.27,
      "learning_rate": 6.402629931120852e-06,
      "loss": 0.4324,
      "step": 15700,
      "task_loss": 0.17891764640808105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6540156602859497,
      "epoch": 13.27,
      "learning_rate": 6.399499060738885e-06,
      "loss": 0.5652,
      "step": 15701,
      "task_loss": 0.8521887063980103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3348219692707062,
      "epoch": 13.27,
      "learning_rate": 6.396368190356919e-06,
      "loss": 0.4598,
      "step": 15702,
      "task_loss": 0.3301662802696228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4383712708950043,
      "epoch": 13.27,
      "learning_rate": 6.393237319974954e-06,
      "loss": 0.4161,
      "step": 15703,
      "task_loss": 1.0438227653503418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4651700258255005,
      "epoch": 13.27,
      "learning_rate": 6.3901064495929875e-06,
      "loss": 0.3982,
      "step": 15704,
      "task_loss": 0.5374500155448914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6765433549880981,
      "epoch": 13.28,
      "learning_rate": 6.386975579211022e-06,
      "loss": 0.4629,
      "step": 15705,
      "task_loss": 0.47514083981513977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3591102957725525,
      "epoch": 13.28,
      "learning_rate": 6.383844708829055e-06,
      "loss": 0.4189,
      "step": 15706,
      "task_loss": 0.66307532787323
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4468070864677429,
      "epoch": 13.28,
      "learning_rate": 6.380713838447089e-06,
      "loss": 0.4991,
      "step": 15707,
      "task_loss": 0.3599388599395752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3987544775009155,
      "epoch": 13.28,
      "learning_rate": 6.377582968065122e-06,
      "loss": 0.4222,
      "step": 15708,
      "task_loss": 0.4253252148628235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26684850454330444,
      "epoch": 13.28,
      "learning_rate": 6.3744520976831565e-06,
      "loss": 0.4303,
      "step": 15709,
      "task_loss": 0.29095685482025146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47852417826652527,
      "epoch": 13.28,
      "learning_rate": 6.37132122730119e-06,
      "loss": 0.3972,
      "step": 15710,
      "task_loss": 0.47620779275894165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19671741127967834,
      "epoch": 13.28,
      "learning_rate": 6.3681903569192235e-06,
      "loss": 0.3091,
      "step": 15711,
      "task_loss": 0.021356835961341858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5400789976119995,
      "epoch": 13.28,
      "learning_rate": 6.365059486537257e-06,
      "loss": 0.4537,
      "step": 15712,
      "task_loss": 0.9988936185836792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38832205533981323,
      "epoch": 13.28,
      "learning_rate": 6.361928616155291e-06,
      "loss": 0.416,
      "step": 15713,
      "task_loss": 0.7801001071929932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2721688151359558,
      "epoch": 13.28,
      "learning_rate": 6.358797745773325e-06,
      "loss": 0.3955,
      "step": 15714,
      "task_loss": 0.38653722405433655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5898019075393677,
      "epoch": 13.28,
      "learning_rate": 6.355666875391358e-06,
      "loss": 0.4821,
      "step": 15715,
      "task_loss": 0.7357380390167236
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3035760521888733,
      "epoch": 13.28,
      "learning_rate": 6.352536005009393e-06,
      "loss": 0.4909,
      "step": 15716,
      "task_loss": 0.10131926834583282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38995957374572754,
      "epoch": 13.29,
      "learning_rate": 6.349405134627427e-06,
      "loss": 0.4018,
      "step": 15717,
      "task_loss": 0.11782275885343552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3187776803970337,
      "epoch": 13.29,
      "learning_rate": 6.346274264245461e-06,
      "loss": 0.3547,
      "step": 15718,
      "task_loss": 0.545626163482666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5170760154724121,
      "epoch": 13.29,
      "learning_rate": 6.343143393863495e-06,
      "loss": 0.4269,
      "step": 15719,
      "task_loss": 1.1172542572021484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2806392312049866,
      "epoch": 13.29,
      "learning_rate": 6.340012523481528e-06,
      "loss": 0.3751,
      "step": 15720,
      "task_loss": 0.058948814868927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37786126136779785,
      "epoch": 13.29,
      "learning_rate": 6.336881653099562e-06,
      "loss": 0.4361,
      "step": 15721,
      "task_loss": 0.308018296957016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3057498037815094,
      "epoch": 13.29,
      "learning_rate": 6.333750782717596e-06,
      "loss": 0.3894,
      "step": 15722,
      "task_loss": 0.055740319192409515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4021526575088501,
      "epoch": 13.29,
      "learning_rate": 6.330619912335629e-06,
      "loss": 0.3997,
      "step": 15723,
      "task_loss": 0.587271511554718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.772844672203064,
      "epoch": 13.29,
      "learning_rate": 6.327489041953663e-06,
      "loss": 0.5017,
      "step": 15724,
      "task_loss": 1.301624059677124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37876754999160767,
      "epoch": 13.29,
      "learning_rate": 6.324358171571697e-06,
      "loss": 0.555,
      "step": 15725,
      "task_loss": 0.8530471324920654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45261484384536743,
      "epoch": 13.29,
      "learning_rate": 6.321227301189731e-06,
      "loss": 0.4187,
      "step": 15726,
      "task_loss": 0.23782145977020264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3809325397014618,
      "epoch": 13.29,
      "learning_rate": 6.318096430807764e-06,
      "loss": 0.4227,
      "step": 15727,
      "task_loss": 0.22992071509361267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6192077994346619,
      "epoch": 13.29,
      "learning_rate": 6.314965560425799e-06,
      "loss": 0.5067,
      "step": 15728,
      "task_loss": 0.6597340703010559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2020624577999115,
      "epoch": 13.3,
      "learning_rate": 6.311834690043833e-06,
      "loss": 0.4078,
      "step": 15729,
      "task_loss": 0.5421299338340759
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34443986415863037,
      "epoch": 13.3,
      "learning_rate": 6.308703819661866e-06,
      "loss": 0.4488,
      "step": 15730,
      "task_loss": 0.869274914264679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2446242868900299,
      "epoch": 13.3,
      "learning_rate": 6.305572949279901e-06,
      "loss": 0.4282,
      "step": 15731,
      "task_loss": 0.5330525636672974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5520766377449036,
      "epoch": 13.3,
      "learning_rate": 6.302442078897934e-06,
      "loss": 0.5158,
      "step": 15732,
      "task_loss": 0.7521275877952576
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29579368233680725,
      "epoch": 13.3,
      "learning_rate": 6.2993112085159676e-06,
      "loss": 0.3908,
      "step": 15733,
      "task_loss": 0.3702717125415802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5816843509674072,
      "epoch": 13.3,
      "learning_rate": 6.296180338134002e-06,
      "loss": 0.4719,
      "step": 15734,
      "task_loss": 1.2337347269058228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5589606165885925,
      "epoch": 13.3,
      "learning_rate": 6.293049467752035e-06,
      "loss": 0.4326,
      "step": 15735,
      "task_loss": 0.40867942571640015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4137565791606903,
      "epoch": 13.3,
      "learning_rate": 6.289918597370069e-06,
      "loss": 0.4851,
      "step": 15736,
      "task_loss": 0.22056475281715393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27358001470565796,
      "epoch": 13.3,
      "learning_rate": 6.286787726988102e-06,
      "loss": 0.3648,
      "step": 15737,
      "task_loss": 0.7320256233215332
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5842796564102173,
      "epoch": 13.3,
      "learning_rate": 6.283656856606137e-06,
      "loss": 0.487,
      "step": 15738,
      "task_loss": 0.8353834748268127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5199971795082092,
      "epoch": 13.3,
      "learning_rate": 6.28052598622417e-06,
      "loss": 0.4835,
      "step": 15739,
      "task_loss": 0.5571466088294983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2610871195793152,
      "epoch": 13.3,
      "learning_rate": 6.277395115842205e-06,
      "loss": 0.2953,
      "step": 15740,
      "task_loss": 0.25401002168655396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2868635654449463,
      "epoch": 13.31,
      "learning_rate": 6.274264245460239e-06,
      "loss": 0.4479,
      "step": 15741,
      "task_loss": 0.5841489434242249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2939032018184662,
      "epoch": 13.31,
      "learning_rate": 6.271133375078272e-06,
      "loss": 0.4563,
      "step": 15742,
      "task_loss": 0.37598899006843567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3680171072483063,
      "epoch": 13.31,
      "learning_rate": 6.2680025046963065e-06,
      "loss": 0.4873,
      "step": 15743,
      "task_loss": 0.28088775277137756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5314181447029114,
      "epoch": 13.31,
      "learning_rate": 6.26487163431434e-06,
      "loss": 0.5546,
      "step": 15744,
      "task_loss": 0.267477810382843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5938636064529419,
      "epoch": 13.31,
      "learning_rate": 6.2617407639323735e-06,
      "loss": 0.4006,
      "step": 15745,
      "task_loss": 0.9907795190811157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39066022634506226,
      "epoch": 13.31,
      "learning_rate": 6.258609893550407e-06,
      "loss": 0.4891,
      "step": 15746,
      "task_loss": 0.5147544145584106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3462901711463928,
      "epoch": 13.31,
      "learning_rate": 6.255479023168441e-06,
      "loss": 0.383,
      "step": 15747,
      "task_loss": 0.2955489158630371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43142348527908325,
      "epoch": 13.31,
      "learning_rate": 6.252348152786475e-06,
      "loss": 0.6173,
      "step": 15748,
      "task_loss": 0.8246617913246155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4296700358390808,
      "epoch": 13.31,
      "learning_rate": 6.249217282404509e-06,
      "loss": 0.3802,
      "step": 15749,
      "task_loss": 0.49814754724502563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4068092405796051,
      "epoch": 13.31,
      "learning_rate": 6.2460864120225426e-06,
      "loss": 0.4431,
      "step": 15750,
      "task_loss": 0.3339289426803589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45037373900413513,
      "epoch": 13.31,
      "learning_rate": 6.242955541640577e-06,
      "loss": 0.5131,
      "step": 15751,
      "task_loss": 1.4463261365890503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27705517411231995,
      "epoch": 13.32,
      "learning_rate": 6.23982467125861e-06,
      "loss": 0.4315,
      "step": 15752,
      "task_loss": 0.08108366280794144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9650028347969055,
      "epoch": 13.32,
      "learning_rate": 6.236693800876644e-06,
      "loss": 0.604,
      "step": 15753,
      "task_loss": 1.834717869758606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27609747648239136,
      "epoch": 13.32,
      "learning_rate": 6.233562930494677e-06,
      "loss": 0.3933,
      "step": 15754,
      "task_loss": 0.10844257473945618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31596487760543823,
      "epoch": 13.32,
      "learning_rate": 6.230432060112712e-06,
      "loss": 0.5061,
      "step": 15755,
      "task_loss": 0.44224733114242554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2546076774597168,
      "epoch": 13.32,
      "learning_rate": 6.227301189730746e-06,
      "loss": 0.473,
      "step": 15756,
      "task_loss": 0.724402129650116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35161545872688293,
      "epoch": 13.32,
      "learning_rate": 6.2241703193487794e-06,
      "loss": 0.4101,
      "step": 15757,
      "task_loss": 0.562107264995575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33338624238967896,
      "epoch": 13.32,
      "learning_rate": 6.221039448966813e-06,
      "loss": 0.3674,
      "step": 15758,
      "task_loss": 0.5329762697219849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3256211578845978,
      "epoch": 13.32,
      "learning_rate": 6.217908578584846e-06,
      "loss": 0.4124,
      "step": 15759,
      "task_loss": 0.4877862334251404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.304684042930603,
      "epoch": 13.32,
      "learning_rate": 6.214777708202881e-06,
      "loss": 0.3909,
      "step": 15760,
      "task_loss": 0.3308192789554596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.454011470079422,
      "epoch": 13.32,
      "learning_rate": 6.211646837820914e-06,
      "loss": 0.4526,
      "step": 15761,
      "task_loss": 0.37978702783584595
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8172845840454102,
      "epoch": 13.32,
      "learning_rate": 6.2085159674389485e-06,
      "loss": 0.4299,
      "step": 15762,
      "task_loss": 0.9094002842903137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3455427587032318,
      "epoch": 13.32,
      "learning_rate": 6.205385097056982e-06,
      "loss": 0.4363,
      "step": 15763,
      "task_loss": 0.29429084062576294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3334290385246277,
      "epoch": 13.33,
      "learning_rate": 6.202254226675016e-06,
      "loss": 0.4965,
      "step": 15764,
      "task_loss": 1.1051393747329712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3827548623085022,
      "epoch": 13.33,
      "learning_rate": 6.19912335629305e-06,
      "loss": 0.3653,
      "step": 15765,
      "task_loss": 0.16592808067798615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3540760278701782,
      "epoch": 13.33,
      "learning_rate": 6.195992485911083e-06,
      "loss": 0.4654,
      "step": 15766,
      "task_loss": 0.3239298164844513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.448323518037796,
      "epoch": 13.33,
      "learning_rate": 6.192861615529117e-06,
      "loss": 0.5373,
      "step": 15767,
      "task_loss": 0.7156351804733276
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3555176258087158,
      "epoch": 13.33,
      "learning_rate": 6.189730745147151e-06,
      "loss": 0.5108,
      "step": 15768,
      "task_loss": 0.42365920543670654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.643278956413269,
      "epoch": 13.33,
      "learning_rate": 6.186599874765185e-06,
      "loss": 0.4594,
      "step": 15769,
      "task_loss": 1.206586480140686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33331507444381714,
      "epoch": 13.33,
      "learning_rate": 6.183469004383219e-06,
      "loss": 0.3684,
      "step": 15770,
      "task_loss": 0.4127902686595917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3596264123916626,
      "epoch": 13.33,
      "learning_rate": 6.180338134001252e-06,
      "loss": 0.4249,
      "step": 15771,
      "task_loss": 0.8565923571586609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46395111083984375,
      "epoch": 13.33,
      "learning_rate": 6.177207263619287e-06,
      "loss": 0.4587,
      "step": 15772,
      "task_loss": 0.6925610303878784
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6244601011276245,
      "epoch": 13.33,
      "learning_rate": 6.17407639323732e-06,
      "loss": 0.5684,
      "step": 15773,
      "task_loss": 0.441911518573761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42718306183815,
      "epoch": 13.33,
      "learning_rate": 6.1709455228553544e-06,
      "loss": 0.5026,
      "step": 15774,
      "task_loss": 0.183220773935318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4553989768028259,
      "epoch": 13.33,
      "learning_rate": 6.167814652473388e-06,
      "loss": 0.4188,
      "step": 15775,
      "task_loss": 0.7744249105453491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44625556468963623,
      "epoch": 13.34,
      "learning_rate": 6.164683782091421e-06,
      "loss": 0.4659,
      "step": 15776,
      "task_loss": 1.0840792655944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41786161065101624,
      "epoch": 13.34,
      "learning_rate": 6.161552911709456e-06,
      "loss": 0.5778,
      "step": 15777,
      "task_loss": 0.6549808382987976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20497415959835052,
      "epoch": 13.34,
      "learning_rate": 6.158422041327489e-06,
      "loss": 0.3889,
      "step": 15778,
      "task_loss": 0.3197612464427948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38486146926879883,
      "epoch": 13.34,
      "learning_rate": 6.155291170945523e-06,
      "loss": 0.3913,
      "step": 15779,
      "task_loss": 1.123551368713379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5766889452934265,
      "epoch": 13.34,
      "learning_rate": 6.152160300563557e-06,
      "loss": 0.5736,
      "step": 15780,
      "task_loss": 0.583447277545929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4823257625102997,
      "epoch": 13.34,
      "learning_rate": 6.149029430181591e-06,
      "loss": 0.5729,
      "step": 15781,
      "task_loss": 0.39103251695632935
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3727438151836395,
      "epoch": 13.34,
      "learning_rate": 6.145898559799625e-06,
      "loss": 0.4706,
      "step": 15782,
      "task_loss": 0.8827834129333496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2821478247642517,
      "epoch": 13.34,
      "learning_rate": 6.142767689417658e-06,
      "loss": 0.3655,
      "step": 15783,
      "task_loss": 0.6155612468719482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5025248527526855,
      "epoch": 13.34,
      "learning_rate": 6.139636819035692e-06,
      "loss": 0.4648,
      "step": 15784,
      "task_loss": 0.2929396629333496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44216886162757874,
      "epoch": 13.34,
      "learning_rate": 6.136505948653726e-06,
      "loss": 0.4387,
      "step": 15785,
      "task_loss": 0.20962442457675934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42619335651397705,
      "epoch": 13.34,
      "learning_rate": 6.13337507827176e-06,
      "loss": 0.4873,
      "step": 15786,
      "task_loss": 1.1981046199798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2502480149269104,
      "epoch": 13.34,
      "learning_rate": 6.130244207889794e-06,
      "loss": 0.485,
      "step": 15787,
      "task_loss": 0.3547716736793518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.546096682548523,
      "epoch": 13.35,
      "learning_rate": 6.127113337507827e-06,
      "loss": 0.4839,
      "step": 15788,
      "task_loss": 1.3133419752120972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8590391874313354,
      "epoch": 13.35,
      "learning_rate": 6.123982467125862e-06,
      "loss": 0.4715,
      "step": 15789,
      "task_loss": 0.6599987149238586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6191538572311401,
      "epoch": 13.35,
      "learning_rate": 6.120851596743895e-06,
      "loss": 0.4947,
      "step": 15790,
      "task_loss": 0.8138296008110046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4619519114494324,
      "epoch": 13.35,
      "learning_rate": 6.117720726361929e-06,
      "loss": 0.3611,
      "step": 15791,
      "task_loss": 0.4124516546726227
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2634199261665344,
      "epoch": 13.35,
      "learning_rate": 6.114589855979963e-06,
      "loss": 0.3269,
      "step": 15792,
      "task_loss": 0.1803615540266037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2851288616657257,
      "epoch": 13.35,
      "learning_rate": 6.111458985597996e-06,
      "loss": 0.347,
      "step": 15793,
      "task_loss": 0.5848250389099121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.469954252243042,
      "epoch": 13.35,
      "learning_rate": 6.108328115216031e-06,
      "loss": 0.3435,
      "step": 15794,
      "task_loss": 0.533743143081665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.544838547706604,
      "epoch": 13.35,
      "learning_rate": 6.105197244834064e-06,
      "loss": 0.4145,
      "step": 15795,
      "task_loss": 0.12826567888259888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5625670552253723,
      "epoch": 13.35,
      "learning_rate": 6.102066374452098e-06,
      "loss": 0.464,
      "step": 15796,
      "task_loss": 0.465681254863739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44766125082969666,
      "epoch": 13.35,
      "learning_rate": 6.098935504070131e-06,
      "loss": 0.4881,
      "step": 15797,
      "task_loss": 0.7040338516235352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29820677638053894,
      "epoch": 13.35,
      "learning_rate": 6.095804633688166e-06,
      "loss": 0.4467,
      "step": 15798,
      "task_loss": 0.32916468381881714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29405850172042847,
      "epoch": 13.35,
      "learning_rate": 6.0926737633062e-06,
      "loss": 0.3741,
      "step": 15799,
      "task_loss": 0.46333277225494385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.469359815120697,
      "epoch": 13.36,
      "learning_rate": 6.089542892924233e-06,
      "loss": 0.411,
      "step": 15800,
      "task_loss": 0.18820123374462128
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6106359958648682,
      "epoch": 13.36,
      "learning_rate": 6.086412022542267e-06,
      "loss": 0.3799,
      "step": 15801,
      "task_loss": 0.6667690277099609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42345112562179565,
      "epoch": 13.36,
      "learning_rate": 6.083281152160301e-06,
      "loss": 0.4472,
      "step": 15802,
      "task_loss": 1.2425158023834229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2502135634422302,
      "epoch": 13.36,
      "learning_rate": 6.0801502817783345e-06,
      "loss": 0.3928,
      "step": 15803,
      "task_loss": 0.08863341808319092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46046844124794006,
      "epoch": 13.36,
      "learning_rate": 6.077019411396369e-06,
      "loss": 0.4928,
      "step": 15804,
      "task_loss": 0.3421168625354767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4856645464897156,
      "epoch": 13.36,
      "learning_rate": 6.073888541014402e-06,
      "loss": 0.4083,
      "step": 15805,
      "task_loss": 0.7376821637153625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3863556981086731,
      "epoch": 13.36,
      "learning_rate": 6.070757670632436e-06,
      "loss": 0.419,
      "step": 15806,
      "task_loss": 0.4155901372432709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41346055269241333,
      "epoch": 13.36,
      "learning_rate": 6.06762680025047e-06,
      "loss": 0.423,
      "step": 15807,
      "task_loss": 0.48400598764419556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5289228558540344,
      "epoch": 13.36,
      "learning_rate": 6.064495929868504e-06,
      "loss": 0.4615,
      "step": 15808,
      "task_loss": 0.9393970966339111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22366881370544434,
      "epoch": 13.36,
      "learning_rate": 6.061365059486537e-06,
      "loss": 0.3167,
      "step": 15809,
      "task_loss": 0.1216389462351799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3726382851600647,
      "epoch": 13.36,
      "learning_rate": 6.058234189104571e-06,
      "loss": 0.5206,
      "step": 15810,
      "task_loss": 1.1504931449890137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41248783469200134,
      "epoch": 13.36,
      "learning_rate": 6.055103318722606e-06,
      "loss": 0.3937,
      "step": 15811,
      "task_loss": 0.7236272096633911
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2566641569137573,
      "epoch": 13.37,
      "learning_rate": 6.051972448340639e-06,
      "loss": 0.3888,
      "step": 15812,
      "task_loss": 0.46169593930244446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24845390021800995,
      "epoch": 13.37,
      "learning_rate": 6.048841577958673e-06,
      "loss": 0.4153,
      "step": 15813,
      "task_loss": 0.3659707009792328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41013389825820923,
      "epoch": 13.37,
      "learning_rate": 6.045710707576706e-06,
      "loss": 0.5104,
      "step": 15814,
      "task_loss": 0.6254177093505859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5090680122375488,
      "epoch": 13.37,
      "learning_rate": 6.0425798371947405e-06,
      "loss": 0.4216,
      "step": 15815,
      "task_loss": 0.43950188159942627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4134365916252136,
      "epoch": 13.37,
      "learning_rate": 6.039448966812774e-06,
      "loss": 0.3081,
      "step": 15816,
      "task_loss": 0.2983061969280243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5817660093307495,
      "epoch": 13.37,
      "learning_rate": 6.036318096430808e-06,
      "loss": 0.5124,
      "step": 15817,
      "task_loss": 0.38958024978637695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40210938453674316,
      "epoch": 13.37,
      "learning_rate": 6.033187226048842e-06,
      "loss": 0.481,
      "step": 15818,
      "task_loss": 1.1073012351989746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.308972030878067,
      "epoch": 13.37,
      "learning_rate": 6.030056355666876e-06,
      "loss": 0.4785,
      "step": 15819,
      "task_loss": 0.17572645843029022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3734644651412964,
      "epoch": 13.37,
      "learning_rate": 6.0269254852849096e-06,
      "loss": 0.4819,
      "step": 15820,
      "task_loss": 0.34063491225242615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5829426050186157,
      "epoch": 13.37,
      "learning_rate": 6.023794614902943e-06,
      "loss": 0.3985,
      "step": 15821,
      "task_loss": 0.7905882000923157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2530302405357361,
      "epoch": 13.37,
      "learning_rate": 6.0206637445209765e-06,
      "loss": 0.4125,
      "step": 15822,
      "task_loss": 0.42546749114990234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4741145372390747,
      "epoch": 13.38,
      "learning_rate": 6.017532874139011e-06,
      "loss": 0.5194,
      "step": 15823,
      "task_loss": 0.9742822051048279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5338072776794434,
      "epoch": 13.38,
      "learning_rate": 6.014402003757045e-06,
      "loss": 0.5002,
      "step": 15824,
      "task_loss": 0.5662471055984497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2427530735731125,
      "epoch": 13.38,
      "learning_rate": 6.011271133375079e-06,
      "loss": 0.3579,
      "step": 15825,
      "task_loss": 0.3187355101108551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8757758140563965,
      "epoch": 13.38,
      "learning_rate": 6.008140262993112e-06,
      "loss": 0.5879,
      "step": 15826,
      "task_loss": 1.2668746709823608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39983826875686646,
      "epoch": 13.38,
      "learning_rate": 6.005009392611146e-06,
      "loss": 0.4895,
      "step": 15827,
      "task_loss": 0.9755305647850037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6021150350570679,
      "epoch": 13.38,
      "learning_rate": 6.00187852222918e-06,
      "loss": 0.3658,
      "step": 15828,
      "task_loss": 0.1997978836297989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9609103202819824,
      "epoch": 13.38,
      "learning_rate": 5.998747651847214e-06,
      "loss": 0.5577,
      "step": 15829,
      "task_loss": 1.3065621852874756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41147905588150024,
      "epoch": 13.38,
      "learning_rate": 5.995616781465248e-06,
      "loss": 0.4342,
      "step": 15830,
      "task_loss": 0.5156720876693726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4343652129173279,
      "epoch": 13.38,
      "learning_rate": 5.992485911083281e-06,
      "loss": 0.4611,
      "step": 15831,
      "task_loss": 0.7074016332626343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3060655891895294,
      "epoch": 13.38,
      "learning_rate": 5.9893550407013155e-06,
      "loss": 0.4381,
      "step": 15832,
      "task_loss": 0.05952662229537964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37201428413391113,
      "epoch": 13.38,
      "learning_rate": 5.986224170319349e-06,
      "loss": 0.3953,
      "step": 15833,
      "task_loss": 0.16968558728694916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29733791947364807,
      "epoch": 13.38,
      "learning_rate": 5.9830932999373824e-06,
      "loss": 0.3709,
      "step": 15834,
      "task_loss": 0.26684731245040894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26865237951278687,
      "epoch": 13.39,
      "learning_rate": 5.979962429555417e-06,
      "loss": 0.3145,
      "step": 15835,
      "task_loss": 0.058847054839134216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3355289697647095,
      "epoch": 13.39,
      "learning_rate": 5.976831559173451e-06,
      "loss": 0.4778,
      "step": 15836,
      "task_loss": 0.48457643389701843
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4865332841873169,
      "epoch": 13.39,
      "learning_rate": 5.9737006887914846e-06,
      "loss": 0.4234,
      "step": 15837,
      "task_loss": 1.178786277770996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39160996675491333,
      "epoch": 13.39,
      "learning_rate": 5.970569818409518e-06,
      "loss": 0.496,
      "step": 15838,
      "task_loss": 0.7097964286804199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3875848054885864,
      "epoch": 13.39,
      "learning_rate": 5.9674389480275515e-06,
      "loss": 0.3703,
      "step": 15839,
      "task_loss": 0.49873045086860657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46705615520477295,
      "epoch": 13.39,
      "learning_rate": 5.964308077645586e-06,
      "loss": 0.3599,
      "step": 15840,
      "task_loss": 0.7315900921821594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36896640062332153,
      "epoch": 13.39,
      "learning_rate": 5.96117720726362e-06,
      "loss": 0.4506,
      "step": 15841,
      "task_loss": 0.5024535059928894
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3694075644016266,
      "epoch": 13.39,
      "learning_rate": 5.958046336881654e-06,
      "loss": 0.5071,
      "step": 15842,
      "task_loss": 0.5632524490356445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32899045944213867,
      "epoch": 13.39,
      "learning_rate": 5.954915466499687e-06,
      "loss": 0.48,
      "step": 15843,
      "task_loss": 0.42378851771354675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3185833692550659,
      "epoch": 13.39,
      "learning_rate": 5.951784596117721e-06,
      "loss": 0.3712,
      "step": 15844,
      "task_loss": 0.14870263636112213
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23294542729854584,
      "epoch": 13.39,
      "learning_rate": 5.948653725735755e-06,
      "loss": 0.3569,
      "step": 15845,
      "task_loss": 0.3174562454223633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5194379091262817,
      "epoch": 13.39,
      "learning_rate": 5.945522855353788e-06,
      "loss": 0.6127,
      "step": 15846,
      "task_loss": 0.8854750990867615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4283796548843384,
      "epoch": 13.4,
      "learning_rate": 5.942391984971823e-06,
      "loss": 0.3966,
      "step": 15847,
      "task_loss": 0.3648597002029419
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5169835686683655,
      "epoch": 13.4,
      "learning_rate": 5.939261114589856e-06,
      "loss": 0.5018,
      "step": 15848,
      "task_loss": 0.35221850872039795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5153524279594421,
      "epoch": 13.4,
      "learning_rate": 5.9361302442078905e-06,
      "loss": 0.5199,
      "step": 15849,
      "task_loss": 0.4033229649066925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4983293414115906,
      "epoch": 13.4,
      "learning_rate": 5.932999373825924e-06,
      "loss": 0.4667,
      "step": 15850,
      "task_loss": 0.8897570967674255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3272625803947449,
      "epoch": 13.4,
      "learning_rate": 5.9298685034439575e-06,
      "loss": 0.3085,
      "step": 15851,
      "task_loss": 0.7025165557861328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4263741374015808,
      "epoch": 13.4,
      "learning_rate": 5.926737633061991e-06,
      "loss": 0.3968,
      "step": 15852,
      "task_loss": 0.4992080330848694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6625022888183594,
      "epoch": 13.4,
      "learning_rate": 5.923606762680025e-06,
      "loss": 0.4138,
      "step": 15853,
      "task_loss": 0.7112157940864563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33637261390686035,
      "epoch": 13.4,
      "learning_rate": 5.9204758922980596e-06,
      "loss": 0.4884,
      "step": 15854,
      "task_loss": 0.3007996678352356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4038006365299225,
      "epoch": 13.4,
      "learning_rate": 5.917345021916093e-06,
      "loss": 0.4298,
      "step": 15855,
      "task_loss": 1.1186448335647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2709214687347412,
      "epoch": 13.4,
      "learning_rate": 5.9142141515341265e-06,
      "loss": 0.3201,
      "step": 15856,
      "task_loss": 0.1860659420490265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39502447843551636,
      "epoch": 13.4,
      "learning_rate": 5.911083281152161e-06,
      "loss": 0.4553,
      "step": 15857,
      "task_loss": 0.25085335969924927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40580281615257263,
      "epoch": 13.4,
      "learning_rate": 5.907952410770194e-06,
      "loss": 0.4006,
      "step": 15858,
      "task_loss": 0.9202547669410706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42234694957733154,
      "epoch": 13.41,
      "learning_rate": 5.904821540388228e-06,
      "loss": 0.4244,
      "step": 15859,
      "task_loss": 0.6863624453544617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6253125667572021,
      "epoch": 13.41,
      "learning_rate": 5.901690670006262e-06,
      "loss": 0.458,
      "step": 15860,
      "task_loss": 0.3910221755504608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3627806603908539,
      "epoch": 13.41,
      "learning_rate": 5.898559799624296e-06,
      "loss": 0.301,
      "step": 15861,
      "task_loss": 0.39458009600639343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49819231033325195,
      "epoch": 13.41,
      "learning_rate": 5.89542892924233e-06,
      "loss": 0.3867,
      "step": 15862,
      "task_loss": 0.5528027415275574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2778834402561188,
      "epoch": 13.41,
      "learning_rate": 5.892298058860363e-06,
      "loss": 0.3545,
      "step": 15863,
      "task_loss": 0.6147720217704773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.268973708152771,
      "epoch": 13.41,
      "learning_rate": 5.889167188478397e-06,
      "loss": 0.438,
      "step": 15864,
      "task_loss": 0.20359231531620026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6246383190155029,
      "epoch": 13.41,
      "learning_rate": 5.886036318096431e-06,
      "loss": 0.46,
      "step": 15865,
      "task_loss": 0.9312067627906799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4089069068431854,
      "epoch": 13.41,
      "learning_rate": 5.8829054477144655e-06,
      "loss": 0.4997,
      "step": 15866,
      "task_loss": 1.2084448337554932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46113020181655884,
      "epoch": 13.41,
      "learning_rate": 5.879774577332499e-06,
      "loss": 0.4502,
      "step": 15867,
      "task_loss": 1.9132471084594727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.194707989692688,
      "epoch": 13.41,
      "learning_rate": 5.8766437069505325e-06,
      "loss": 0.3196,
      "step": 15868,
      "task_loss": 0.3341147005558014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21020391583442688,
      "epoch": 13.41,
      "learning_rate": 5.873512836568566e-06,
      "loss": 0.3767,
      "step": 15869,
      "task_loss": 0.05408085137605667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21600373089313507,
      "epoch": 13.41,
      "learning_rate": 5.8703819661866e-06,
      "loss": 0.2261,
      "step": 15870,
      "task_loss": 0.4280610680580139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5513089299201965,
      "epoch": 13.42,
      "learning_rate": 5.867251095804634e-06,
      "loss": 0.4816,
      "step": 15871,
      "task_loss": 0.23537693917751312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49374666810035706,
      "epoch": 13.42,
      "learning_rate": 5.864120225422668e-06,
      "loss": 0.4486,
      "step": 15872,
      "task_loss": 0.3796530067920685
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3206483721733093,
      "epoch": 13.42,
      "learning_rate": 5.8609893550407015e-06,
      "loss": 0.4368,
      "step": 15873,
      "task_loss": 1.6495733261108398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7015609741210938,
      "epoch": 13.42,
      "learning_rate": 5.857858484658736e-06,
      "loss": 0.4743,
      "step": 15874,
      "task_loss": 0.30716755986213684
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5797209739685059,
      "epoch": 13.42,
      "learning_rate": 5.854727614276769e-06,
      "loss": 0.4762,
      "step": 15875,
      "task_loss": 0.10908312350511551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6153395175933838,
      "epoch": 13.42,
      "learning_rate": 5.851596743894803e-06,
      "loss": 0.4396,
      "step": 15876,
      "task_loss": 0.421658456325531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38648223876953125,
      "epoch": 13.42,
      "learning_rate": 5.848465873512836e-06,
      "loss": 0.3528,
      "step": 15877,
      "task_loss": 0.3646940290927887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4391847252845764,
      "epoch": 13.42,
      "learning_rate": 5.845335003130871e-06,
      "loss": 0.4598,
      "step": 15878,
      "task_loss": 0.5234953761100769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4352898597717285,
      "epoch": 13.42,
      "learning_rate": 5.842204132748905e-06,
      "loss": 0.3135,
      "step": 15879,
      "task_loss": 1.1374335289001465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4554044008255005,
      "epoch": 13.42,
      "learning_rate": 5.839073262366938e-06,
      "loss": 0.363,
      "step": 15880,
      "task_loss": 0.15371882915496826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45816296339035034,
      "epoch": 13.42,
      "learning_rate": 5.835942391984972e-06,
      "loss": 0.5106,
      "step": 15881,
      "task_loss": 0.7609803080558777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3749489188194275,
      "epoch": 13.42,
      "learning_rate": 5.832811521603005e-06,
      "loss": 0.3471,
      "step": 15882,
      "task_loss": 0.4382195472717285
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5171781182289124,
      "epoch": 13.43,
      "learning_rate": 5.82968065122104e-06,
      "loss": 0.5668,
      "step": 15883,
      "task_loss": 0.43895241618156433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3198450207710266,
      "epoch": 13.43,
      "learning_rate": 5.826549780839074e-06,
      "loss": 0.3766,
      "step": 15884,
      "task_loss": 0.29119059443473816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42983120679855347,
      "epoch": 13.43,
      "learning_rate": 5.8234189104571075e-06,
      "loss": 0.4453,
      "step": 15885,
      "task_loss": 0.7426994442939758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46943071484565735,
      "epoch": 13.43,
      "learning_rate": 5.820288040075141e-06,
      "loss": 0.3871,
      "step": 15886,
      "task_loss": 0.40380990505218506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40995487570762634,
      "epoch": 13.43,
      "learning_rate": 5.817157169693175e-06,
      "loss": 0.3985,
      "step": 15887,
      "task_loss": 1.1108518838882446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19524957239627838,
      "epoch": 13.43,
      "learning_rate": 5.814026299311209e-06,
      "loss": 0.3535,
      "step": 15888,
      "task_loss": 0.7192867398262024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4684205651283264,
      "epoch": 13.43,
      "learning_rate": 5.810895428929242e-06,
      "loss": 0.35,
      "step": 15889,
      "task_loss": 0.7574050426483154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8652693629264832,
      "epoch": 13.43,
      "learning_rate": 5.8077645585472765e-06,
      "loss": 0.74,
      "step": 15890,
      "task_loss": 1.5642541646957397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5885051488876343,
      "epoch": 13.43,
      "learning_rate": 5.804633688165311e-06,
      "loss": 0.5557,
      "step": 15891,
      "task_loss": 0.8221715688705444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5318166017532349,
      "epoch": 13.43,
      "learning_rate": 5.801502817783344e-06,
      "loss": 0.539,
      "step": 15892,
      "task_loss": 0.9656890630722046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36023008823394775,
      "epoch": 13.43,
      "learning_rate": 5.798371947401378e-06,
      "loss": 0.3605,
      "step": 15893,
      "task_loss": 0.2827311158180237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281606912612915,
      "epoch": 13.44,
      "learning_rate": 5.795241077019411e-06,
      "loss": 0.5901,
      "step": 15894,
      "task_loss": 1.0547337532043457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3888595402240753,
      "epoch": 13.44,
      "learning_rate": 5.792110206637446e-06,
      "loss": 0.4162,
      "step": 15895,
      "task_loss": 0.1781640499830246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36913061141967773,
      "epoch": 13.44,
      "learning_rate": 5.78897933625548e-06,
      "loss": 0.4629,
      "step": 15896,
      "task_loss": 0.3384966552257538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31140366196632385,
      "epoch": 13.44,
      "learning_rate": 5.785848465873513e-06,
      "loss": 0.3897,
      "step": 15897,
      "task_loss": 0.2972017824649811
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6822065114974976,
      "epoch": 13.44,
      "learning_rate": 5.782717595491547e-06,
      "loss": 0.5159,
      "step": 15898,
      "task_loss": 0.6189518570899963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39749157428741455,
      "epoch": 13.44,
      "learning_rate": 5.77958672510958e-06,
      "loss": 0.3348,
      "step": 15899,
      "task_loss": 1.8016302585601807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.426714688539505,
      "epoch": 13.44,
      "learning_rate": 5.776455854727615e-06,
      "loss": 0.4748,
      "step": 15900,
      "task_loss": 0.5107586979866028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44843000173568726,
      "epoch": 13.44,
      "learning_rate": 5.773324984345648e-06,
      "loss": 0.3607,
      "step": 15901,
      "task_loss": 0.7449435591697693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7594591379165649,
      "epoch": 13.44,
      "learning_rate": 5.770194113963682e-06,
      "loss": 0.4785,
      "step": 15902,
      "task_loss": 0.4240480065345764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5649664402008057,
      "epoch": 13.44,
      "learning_rate": 5.767063243581716e-06,
      "loss": 0.4513,
      "step": 15903,
      "task_loss": 0.4839896857738495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2755237817764282,
      "epoch": 13.44,
      "learning_rate": 5.76393237319975e-06,
      "loss": 0.4217,
      "step": 15904,
      "task_loss": 0.5588721632957458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35128113627433777,
      "epoch": 13.44,
      "learning_rate": 5.760801502817784e-06,
      "loss": 0.4351,
      "step": 15905,
      "task_loss": 0.6146083474159241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6273253560066223,
      "epoch": 13.45,
      "learning_rate": 5.757670632435817e-06,
      "loss": 0.4962,
      "step": 15906,
      "task_loss": 1.2364368438720703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27345430850982666,
      "epoch": 13.45,
      "learning_rate": 5.754539762053851e-06,
      "loss": 0.3049,
      "step": 15907,
      "task_loss": 0.4587266147136688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20819662511348724,
      "epoch": 13.45,
      "learning_rate": 5.751408891671885e-06,
      "loss": 0.2995,
      "step": 15908,
      "task_loss": 0.029417166486382484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27429696917533875,
      "epoch": 13.45,
      "learning_rate": 5.748278021289919e-06,
      "loss": 0.3416,
      "step": 15909,
      "task_loss": 0.5042890906333923
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42059314250946045,
      "epoch": 13.45,
      "learning_rate": 5.745147150907953e-06,
      "loss": 0.3863,
      "step": 15910,
      "task_loss": 0.2465226650238037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33923712372779846,
      "epoch": 13.45,
      "learning_rate": 5.742016280525986e-06,
      "loss": 0.3392,
      "step": 15911,
      "task_loss": 0.32885023951530457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3776000142097473,
      "epoch": 13.45,
      "learning_rate": 5.738885410144021e-06,
      "loss": 0.4284,
      "step": 15912,
      "task_loss": 0.38084444403648376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35959962010383606,
      "epoch": 13.45,
      "learning_rate": 5.735754539762054e-06,
      "loss": 0.3484,
      "step": 15913,
      "task_loss": 0.8179718255996704
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2414703220129013,
      "epoch": 13.45,
      "learning_rate": 5.7326236693800876e-06,
      "loss": 0.4408,
      "step": 15914,
      "task_loss": 0.4633232653141022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5637484192848206,
      "epoch": 13.45,
      "learning_rate": 5.729492798998122e-06,
      "loss": 0.4073,
      "step": 15915,
      "task_loss": 0.8478339910507202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21066881716251373,
      "epoch": 13.45,
      "learning_rate": 5.726361928616155e-06,
      "loss": 0.4437,
      "step": 15916,
      "task_loss": 0.4945376515388489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3578612208366394,
      "epoch": 13.45,
      "learning_rate": 5.72323105823419e-06,
      "loss": 0.4562,
      "step": 15917,
      "task_loss": 1.0334341526031494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35818931460380554,
      "epoch": 13.46,
      "learning_rate": 5.720100187852223e-06,
      "loss": 0.3855,
      "step": 15918,
      "task_loss": 0.6400597095489502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33093202114105225,
      "epoch": 13.46,
      "learning_rate": 5.716969317470257e-06,
      "loss": 0.3317,
      "step": 15919,
      "task_loss": 0.2908251881599426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4372285306453705,
      "epoch": 13.46,
      "learning_rate": 5.71383844708829e-06,
      "loss": 0.6957,
      "step": 15920,
      "task_loss": 0.6229963302612305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3610823154449463,
      "epoch": 13.46,
      "learning_rate": 5.710707576706325e-06,
      "loss": 0.4185,
      "step": 15921,
      "task_loss": 0.4186477065086365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2765969932079315,
      "epoch": 13.46,
      "learning_rate": 5.707576706324359e-06,
      "loss": 0.4065,
      "step": 15922,
      "task_loss": 0.6640077233314514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7695496678352356,
      "epoch": 13.46,
      "learning_rate": 5.704445835942392e-06,
      "loss": 0.6089,
      "step": 15923,
      "task_loss": 0.6421780586242676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2505209147930145,
      "epoch": 13.46,
      "learning_rate": 5.701314965560426e-06,
      "loss": 0.3968,
      "step": 15924,
      "task_loss": 0.5178574323654175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4183417856693268,
      "epoch": 13.46,
      "learning_rate": 5.69818409517846e-06,
      "loss": 0.4314,
      "step": 15925,
      "task_loss": 1.6645570993423462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3871919512748718,
      "epoch": 13.46,
      "learning_rate": 5.6950532247964935e-06,
      "loss": 0.3113,
      "step": 15926,
      "task_loss": 0.4058108627796173
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3791986405849457,
      "epoch": 13.46,
      "learning_rate": 5.691922354414528e-06,
      "loss": 0.4819,
      "step": 15927,
      "task_loss": 0.9749367237091064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.589381217956543,
      "epoch": 13.46,
      "learning_rate": 5.688791484032561e-06,
      "loss": 0.4115,
      "step": 15928,
      "task_loss": 1.173983097076416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46268895268440247,
      "epoch": 13.46,
      "learning_rate": 5.685660613650596e-06,
      "loss": 0.4992,
      "step": 15929,
      "task_loss": 0.6565352082252502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41647738218307495,
      "epoch": 13.47,
      "learning_rate": 5.682529743268629e-06,
      "loss": 0.5683,
      "step": 15930,
      "task_loss": 0.3910531997680664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2654232382774353,
      "epoch": 13.47,
      "learning_rate": 5.679398872886663e-06,
      "loss": 0.3754,
      "step": 15931,
      "task_loss": 0.3028082549571991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5623502731323242,
      "epoch": 13.47,
      "learning_rate": 5.676268002504696e-06,
      "loss": 0.5103,
      "step": 15932,
      "task_loss": 0.5411068797111511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7689804434776306,
      "epoch": 13.47,
      "learning_rate": 5.67313713212273e-06,
      "loss": 0.4421,
      "step": 15933,
      "task_loss": 0.512871265411377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6130416393280029,
      "epoch": 13.47,
      "learning_rate": 5.670006261740765e-06,
      "loss": 0.4656,
      "step": 15934,
      "task_loss": 1.2822399139404297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28325706720352173,
      "epoch": 13.47,
      "learning_rate": 5.666875391358798e-06,
      "loss": 0.4367,
      "step": 15935,
      "task_loss": 0.06324886530637741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4883943200111389,
      "epoch": 13.47,
      "learning_rate": 5.663744520976832e-06,
      "loss": 0.5022,
      "step": 15936,
      "task_loss": 0.6309923529624939
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48609280586242676,
      "epoch": 13.47,
      "learning_rate": 5.660613650594865e-06,
      "loss": 0.4694,
      "step": 15937,
      "task_loss": 0.186183899641037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24707096815109253,
      "epoch": 13.47,
      "learning_rate": 5.6574827802128994e-06,
      "loss": 0.3919,
      "step": 15938,
      "task_loss": 0.43113088607788086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3173335790634155,
      "epoch": 13.47,
      "learning_rate": 5.654351909830934e-06,
      "loss": 0.3868,
      "step": 15939,
      "task_loss": 0.20259366929531097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5341200232505798,
      "epoch": 13.47,
      "learning_rate": 5.651221039448967e-06,
      "loss": 0.4251,
      "step": 15940,
      "task_loss": 0.3123184144496918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5846365690231323,
      "epoch": 13.47,
      "learning_rate": 5.648090169067001e-06,
      "loss": 0.5011,
      "step": 15941,
      "task_loss": 1.6794158220291138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5474283695220947,
      "epoch": 13.48,
      "learning_rate": 5.644959298685035e-06,
      "loss": 0.5185,
      "step": 15942,
      "task_loss": 1.2550537586212158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29959794878959656,
      "epoch": 13.48,
      "learning_rate": 5.6418284283030685e-06,
      "loss": 0.44,
      "step": 15943,
      "task_loss": 0.6599660515785217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21556782722473145,
      "epoch": 13.48,
      "learning_rate": 5.638697557921102e-06,
      "loss": 0.4113,
      "step": 15944,
      "task_loss": 0.3264596462249756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4318702816963196,
      "epoch": 13.48,
      "learning_rate": 5.6355666875391355e-06,
      "loss": 0.3847,
      "step": 15945,
      "task_loss": 0.39921683073043823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6222168207168579,
      "epoch": 13.48,
      "learning_rate": 5.63243581715717e-06,
      "loss": 0.5045,
      "step": 15946,
      "task_loss": 0.9592676758766174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.784156322479248,
      "epoch": 13.48,
      "learning_rate": 5.629304946775204e-06,
      "loss": 0.4721,
      "step": 15947,
      "task_loss": 0.9398033022880554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221670269966125,
      "epoch": 13.48,
      "learning_rate": 5.626174076393238e-06,
      "loss": 0.4583,
      "step": 15948,
      "task_loss": 0.34551313519477844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.376197874546051,
      "epoch": 13.48,
      "learning_rate": 5.623043206011271e-06,
      "loss": 0.3837,
      "step": 15949,
      "task_loss": 0.2125622183084488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25767913460731506,
      "epoch": 13.48,
      "learning_rate": 5.619912335629305e-06,
      "loss": 0.4268,
      "step": 15950,
      "task_loss": 0.9652297496795654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5921870470046997,
      "epoch": 13.48,
      "learning_rate": 5.616781465247339e-06,
      "loss": 0.3981,
      "step": 15951,
      "task_loss": 0.48496609926223755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.58829665184021,
      "epoch": 13.48,
      "learning_rate": 5.613650594865373e-06,
      "loss": 0.4804,
      "step": 15952,
      "task_loss": 1.8568871021270752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3025396168231964,
      "epoch": 13.48,
      "learning_rate": 5.610519724483407e-06,
      "loss": 0.4284,
      "step": 15953,
      "task_loss": 0.39380401372909546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33757054805755615,
      "epoch": 13.49,
      "learning_rate": 5.60738885410144e-06,
      "loss": 0.3951,
      "step": 15954,
      "task_loss": 0.7000381946563721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45047828555107117,
      "epoch": 13.49,
      "learning_rate": 5.6042579837194745e-06,
      "loss": 0.4026,
      "step": 15955,
      "task_loss": 0.6926413178443909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18036480247974396,
      "epoch": 13.49,
      "learning_rate": 5.601127113337508e-06,
      "loss": 0.4089,
      "step": 15956,
      "task_loss": 0.23210462927818298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2378273606300354,
      "epoch": 13.49,
      "learning_rate": 5.597996242955541e-06,
      "loss": 0.3917,
      "step": 15957,
      "task_loss": 0.06588597595691681
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2111419290304184,
      "epoch": 13.49,
      "learning_rate": 5.594865372573576e-06,
      "loss": 0.5321,
      "step": 15958,
      "task_loss": 0.04554303362965584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4552912414073944,
      "epoch": 13.49,
      "learning_rate": 5.59173450219161e-06,
      "loss": 0.3942,
      "step": 15959,
      "task_loss": 0.4571760296821594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4326589107513428,
      "epoch": 13.49,
      "learning_rate": 5.5886036318096435e-06,
      "loss": 0.3942,
      "step": 15960,
      "task_loss": 0.8159021735191345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3890712857246399,
      "epoch": 13.49,
      "learning_rate": 5.585472761427677e-06,
      "loss": 0.4672,
      "step": 15961,
      "task_loss": 0.7981629371643066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30421605706214905,
      "epoch": 13.49,
      "learning_rate": 5.5823418910457105e-06,
      "loss": 0.376,
      "step": 15962,
      "task_loss": 0.06936442106962204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4774170219898224,
      "epoch": 13.49,
      "learning_rate": 5.579211020663745e-06,
      "loss": 0.5197,
      "step": 15963,
      "task_loss": 0.4953659772872925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4720361828804016,
      "epoch": 13.49,
      "learning_rate": 5.576080150281779e-06,
      "loss": 0.3766,
      "step": 15964,
      "task_loss": 0.35131198167800903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30617374181747437,
      "epoch": 13.5,
      "learning_rate": 5.572949279899813e-06,
      "loss": 0.3921,
      "step": 15965,
      "task_loss": 0.28859397768974304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5155210494995117,
      "epoch": 13.5,
      "learning_rate": 5.569818409517846e-06,
      "loss": 0.3773,
      "step": 15966,
      "task_loss": 0.7350102663040161
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3955211937427521,
      "epoch": 13.5,
      "learning_rate": 5.56668753913588e-06,
      "loss": 0.4527,
      "step": 15967,
      "task_loss": 0.3294168710708618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5139592885971069,
      "epoch": 13.5,
      "learning_rate": 5.563556668753914e-06,
      "loss": 0.451,
      "step": 15968,
      "task_loss": 1.0541377067565918
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40722912549972534,
      "epoch": 13.5,
      "learning_rate": 5.560425798371947e-06,
      "loss": 0.4355,
      "step": 15969,
      "task_loss": 0.27994653582572937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40357741713523865,
      "epoch": 13.5,
      "learning_rate": 5.557294927989982e-06,
      "loss": 0.3681,
      "step": 15970,
      "task_loss": 0.6403274536132812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.323789119720459,
      "epoch": 13.5,
      "learning_rate": 5.554164057608015e-06,
      "loss": 0.376,
      "step": 15971,
      "task_loss": 0.5609753727912903
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3713567554950714,
      "epoch": 13.5,
      "learning_rate": 5.5510331872260495e-06,
      "loss": 0.3585,
      "step": 15972,
      "task_loss": 1.6043535470962524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6105258464813232,
      "epoch": 13.5,
      "learning_rate": 5.547902316844083e-06,
      "loss": 0.4464,
      "step": 15973,
      "task_loss": 0.9944821000099182
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385831594467163,
      "epoch": 13.5,
      "learning_rate": 5.544771446462116e-06,
      "loss": 0.3811,
      "step": 15974,
      "task_loss": 0.600767195224762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3583395183086395,
      "epoch": 13.5,
      "learning_rate": 5.54164057608015e-06,
      "loss": 0.4135,
      "step": 15975,
      "task_loss": 0.2936839461326599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6555427312850952,
      "epoch": 13.5,
      "learning_rate": 5.538509705698185e-06,
      "loss": 0.4436,
      "step": 15976,
      "task_loss": 0.9882228374481201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.516667902469635,
      "epoch": 13.51,
      "learning_rate": 5.5353788353162185e-06,
      "loss": 0.5146,
      "step": 15977,
      "task_loss": 0.3304472863674164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4090024530887604,
      "epoch": 13.51,
      "learning_rate": 5.532247964934252e-06,
      "loss": 0.3801,
      "step": 15978,
      "task_loss": 1.3184053897857666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2626952528953552,
      "epoch": 13.51,
      "learning_rate": 5.5291170945522855e-06,
      "loss": 0.3424,
      "step": 15979,
      "task_loss": 0.2551988363265991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41625720262527466,
      "epoch": 13.51,
      "learning_rate": 5.52598622417032e-06,
      "loss": 0.4649,
      "step": 15980,
      "task_loss": 0.43568575382232666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6065245866775513,
      "epoch": 13.51,
      "learning_rate": 5.522855353788353e-06,
      "loss": 0.5465,
      "step": 15981,
      "task_loss": 0.725151002407074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41320696473121643,
      "epoch": 13.51,
      "learning_rate": 5.519724483406388e-06,
      "loss": 0.5069,
      "step": 15982,
      "task_loss": 0.6172545552253723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5004768967628479,
      "epoch": 13.51,
      "learning_rate": 5.516593613024421e-06,
      "loss": 0.4499,
      "step": 15983,
      "task_loss": 0.3769071698188782
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3830989599227905,
      "epoch": 13.51,
      "learning_rate": 5.5134627426424546e-06,
      "loss": 0.482,
      "step": 15984,
      "task_loss": 1.053480863571167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4489799439907074,
      "epoch": 13.51,
      "learning_rate": 5.510331872260489e-06,
      "loss": 0.4054,
      "step": 15985,
      "task_loss": 0.30505886673927307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6031147241592407,
      "epoch": 13.51,
      "learning_rate": 5.507201001878522e-06,
      "loss": 0.4494,
      "step": 15986,
      "task_loss": 0.8860865235328674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31175529956817627,
      "epoch": 13.51,
      "learning_rate": 5.504070131496556e-06,
      "loss": 0.3239,
      "step": 15987,
      "task_loss": 0.17062212526798248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5012532472610474,
      "epoch": 13.51,
      "learning_rate": 5.50093926111459e-06,
      "loss": 0.4203,
      "step": 15988,
      "task_loss": 1.1606543064117432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46554845571517944,
      "epoch": 13.52,
      "learning_rate": 5.4978083907326245e-06,
      "loss": 0.3861,
      "step": 15989,
      "task_loss": 0.6500391960144043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3853854537010193,
      "epoch": 13.52,
      "learning_rate": 5.494677520350658e-06,
      "loss": 0.4496,
      "step": 15990,
      "task_loss": 0.7371827363967896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34395766258239746,
      "epoch": 13.52,
      "learning_rate": 5.4915466499686914e-06,
      "loss": 0.453,
      "step": 15991,
      "task_loss": 0.838026225566864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31092289090156555,
      "epoch": 13.52,
      "learning_rate": 5.488415779586725e-06,
      "loss": 0.3582,
      "step": 15992,
      "task_loss": 0.1275496482849121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4359634518623352,
      "epoch": 13.52,
      "learning_rate": 5.485284909204759e-06,
      "loss": 0.5347,
      "step": 15993,
      "task_loss": 0.5505552291870117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41188615560531616,
      "epoch": 13.52,
      "learning_rate": 5.482154038822793e-06,
      "loss": 0.4364,
      "step": 15994,
      "task_loss": 0.7051181793212891
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39964354038238525,
      "epoch": 13.52,
      "learning_rate": 5.479023168440827e-06,
      "loss": 0.5039,
      "step": 15995,
      "task_loss": 0.47206196188926697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3757767677307129,
      "epoch": 13.52,
      "learning_rate": 5.4758922980588605e-06,
      "loss": 0.3855,
      "step": 15996,
      "task_loss": 0.17769211530685425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4432290196418762,
      "epoch": 13.52,
      "learning_rate": 5.472761427676895e-06,
      "loss": 0.5385,
      "step": 15997,
      "task_loss": 1.1636346578598022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7582941651344299,
      "epoch": 13.52,
      "learning_rate": 5.469630557294928e-06,
      "loss": 0.4764,
      "step": 15998,
      "task_loss": 1.3704617023468018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37828555703163147,
      "epoch": 13.52,
      "learning_rate": 5.466499686912962e-06,
      "loss": 0.3586,
      "step": 15999,
      "task_loss": 0.6716278791427612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5392243266105652,
      "epoch": 13.52,
      "learning_rate": 5.463368816530995e-06,
      "loss": 0.4854,
      "step": 16000,
      "task_loss": 0.9195689558982849
    },
    {
      "epoch": 13.52,
      "eval_accuracy": 0.9125940594059406,
      "eval_loss": 0.30570128560066223,
      "eval_runtime": 207.8601,
      "eval_samples_per_second": 121.476,
      "eval_steps_per_second": 0.953,
      "step": 16000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4036414623260498,
      "epoch": 13.53,
      "learning_rate": 5.4602379461490296e-06,
      "loss": 0.3628,
      "step": 16001,
      "task_loss": 0.22380591928958893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49639785289764404,
      "epoch": 13.53,
      "learning_rate": 5.457107075767064e-06,
      "loss": 0.5087,
      "step": 16002,
      "task_loss": 0.7226376533508301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38869723677635193,
      "epoch": 13.53,
      "learning_rate": 5.453976205385097e-06,
      "loss": 0.5049,
      "step": 16003,
      "task_loss": 0.7327865362167358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3434619903564453,
      "epoch": 13.53,
      "learning_rate": 5.450845335003131e-06,
      "loss": 0.3727,
      "step": 16004,
      "task_loss": 0.49876856803894043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41989225149154663,
      "epoch": 13.53,
      "learning_rate": 5.447714464621165e-06,
      "loss": 0.5537,
      "step": 16005,
      "task_loss": 0.49117064476013184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5478139519691467,
      "epoch": 13.53,
      "learning_rate": 5.444583594239199e-06,
      "loss": 0.5083,
      "step": 16006,
      "task_loss": 0.7126954197883606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2695299983024597,
      "epoch": 13.53,
      "learning_rate": 5.441452723857233e-06,
      "loss": 0.36,
      "step": 16007,
      "task_loss": 0.25075727701187134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5661010146141052,
      "epoch": 13.53,
      "learning_rate": 5.4383218534752664e-06,
      "loss": 0.4744,
      "step": 16008,
      "task_loss": 0.425432026386261
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31012818217277527,
      "epoch": 13.53,
      "learning_rate": 5.4351909830933e-06,
      "loss": 0.3301,
      "step": 16009,
      "task_loss": 0.2335669845342636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39023467898368835,
      "epoch": 13.53,
      "learning_rate": 5.432060112711334e-06,
      "loss": 0.5054,
      "step": 16010,
      "task_loss": 0.6272222995758057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5240060091018677,
      "epoch": 13.53,
      "learning_rate": 5.428929242329368e-06,
      "loss": 0.4122,
      "step": 16011,
      "task_loss": 0.9964689016342163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43776267766952515,
      "epoch": 13.53,
      "learning_rate": 5.425798371947401e-06,
      "loss": 0.3578,
      "step": 16012,
      "task_loss": 0.5484139919281006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3412007987499237,
      "epoch": 13.54,
      "learning_rate": 5.4226675015654355e-06,
      "loss": 0.3645,
      "step": 16013,
      "task_loss": 0.20128020644187927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4042973220348358,
      "epoch": 13.54,
      "learning_rate": 5.41953663118347e-06,
      "loss": 0.4341,
      "step": 16014,
      "task_loss": 0.13655425608158112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4584958255290985,
      "epoch": 13.54,
      "learning_rate": 5.416405760801503e-06,
      "loss": 0.5004,
      "step": 16015,
      "task_loss": 0.0927954614162445
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3882014751434326,
      "epoch": 13.54,
      "learning_rate": 5.413274890419537e-06,
      "loss": 0.422,
      "step": 16016,
      "task_loss": 0.8269271850585938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3838052749633789,
      "epoch": 13.54,
      "learning_rate": 5.41014402003757e-06,
      "loss": 0.3765,
      "step": 16017,
      "task_loss": 0.5043097734451294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5438799858093262,
      "epoch": 13.54,
      "learning_rate": 5.4070131496556046e-06,
      "loss": 0.4791,
      "step": 16018,
      "task_loss": 0.8986488580703735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4536951184272766,
      "epoch": 13.54,
      "learning_rate": 5.403882279273639e-06,
      "loss": 0.3712,
      "step": 16019,
      "task_loss": 0.41004613041877747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9956645965576172,
      "epoch": 13.54,
      "learning_rate": 5.400751408891672e-06,
      "loss": 0.5569,
      "step": 16020,
      "task_loss": 0.6558770537376404
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5111361742019653,
      "epoch": 13.54,
      "learning_rate": 5.397620538509706e-06,
      "loss": 0.5403,
      "step": 16021,
      "task_loss": 0.6831565499305725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3215492367744446,
      "epoch": 13.54,
      "learning_rate": 5.394489668127739e-06,
      "loss": 0.4004,
      "step": 16022,
      "task_loss": 0.6269617676734924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35631823539733887,
      "epoch": 13.54,
      "learning_rate": 5.391358797745774e-06,
      "loss": 0.4993,
      "step": 16023,
      "task_loss": 0.20804768800735474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6574362516403198,
      "epoch": 13.54,
      "learning_rate": 5.388227927363807e-06,
      "loss": 0.5495,
      "step": 16024,
      "task_loss": 1.169173240661621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41667595505714417,
      "epoch": 13.55,
      "learning_rate": 5.3850970569818414e-06,
      "loss": 0.4089,
      "step": 16025,
      "task_loss": 1.0024348497390747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2702389657497406,
      "epoch": 13.55,
      "learning_rate": 5.381966186599875e-06,
      "loss": 0.3935,
      "step": 16026,
      "task_loss": 0.33209502696990967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6420119404792786,
      "epoch": 13.55,
      "learning_rate": 5.378835316217909e-06,
      "loss": 0.5726,
      "step": 16027,
      "task_loss": 0.47903090715408325
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5385780930519104,
      "epoch": 13.55,
      "learning_rate": 5.375704445835943e-06,
      "loss": 0.3743,
      "step": 16028,
      "task_loss": 0.42161357402801514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5079104900360107,
      "epoch": 13.55,
      "learning_rate": 5.372573575453976e-06,
      "loss": 0.4946,
      "step": 16029,
      "task_loss": 1.2775317430496216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2885133922100067,
      "epoch": 13.55,
      "learning_rate": 5.36944270507201e-06,
      "loss": 0.3657,
      "step": 16030,
      "task_loss": 0.6432491540908813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37694671750068665,
      "epoch": 13.55,
      "learning_rate": 5.366311834690045e-06,
      "loss": 0.4198,
      "step": 16031,
      "task_loss": 0.3991008996963501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17778049409389496,
      "epoch": 13.55,
      "learning_rate": 5.363180964308078e-06,
      "loss": 0.4231,
      "step": 16032,
      "task_loss": 0.21060270071029663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6272455453872681,
      "epoch": 13.55,
      "learning_rate": 5.360050093926112e-06,
      "loss": 0.5207,
      "step": 16033,
      "task_loss": 0.4128865599632263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5376837253570557,
      "epoch": 13.55,
      "learning_rate": 5.356919223544145e-06,
      "loss": 0.4646,
      "step": 16034,
      "task_loss": 1.6268870830535889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45279863476753235,
      "epoch": 13.55,
      "learning_rate": 5.35378835316218e-06,
      "loss": 0.368,
      "step": 16035,
      "task_loss": 0.5698357820510864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5976235866546631,
      "epoch": 13.56,
      "learning_rate": 5.350657482780213e-06,
      "loss": 0.5024,
      "step": 16036,
      "task_loss": 0.20599649846553802
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38407468795776367,
      "epoch": 13.56,
      "learning_rate": 5.347526612398247e-06,
      "loss": 0.488,
      "step": 16037,
      "task_loss": 0.10284561663866043
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.623650848865509,
      "epoch": 13.56,
      "learning_rate": 5.344395742016281e-06,
      "loss": 0.4816,
      "step": 16038,
      "task_loss": 0.46716663241386414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30755311250686646,
      "epoch": 13.56,
      "learning_rate": 5.341264871634314e-06,
      "loss": 0.3229,
      "step": 16039,
      "task_loss": 0.10337025672197342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4861069619655609,
      "epoch": 13.56,
      "learning_rate": 5.338134001252349e-06,
      "loss": 0.4455,
      "step": 16040,
      "task_loss": 0.48740682005882263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3405797481536865,
      "epoch": 13.56,
      "learning_rate": 5.335003130870382e-06,
      "loss": 0.4508,
      "step": 16041,
      "task_loss": 0.9796607494354248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1923844814300537,
      "epoch": 13.56,
      "learning_rate": 5.331872260488416e-06,
      "loss": 0.3025,
      "step": 16042,
      "task_loss": 0.1105889081954956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.243870809674263,
      "epoch": 13.56,
      "learning_rate": 5.32874139010645e-06,
      "loss": 0.367,
      "step": 16043,
      "task_loss": 0.6961446404457092
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3451387584209442,
      "epoch": 13.56,
      "learning_rate": 5.325610519724484e-06,
      "loss": 0.5094,
      "step": 16044,
      "task_loss": 0.4197939336299896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5090410113334656,
      "epoch": 13.56,
      "learning_rate": 5.322479649342518e-06,
      "loss": 0.364,
      "step": 16045,
      "task_loss": 0.25697454810142517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4236462712287903,
      "epoch": 13.56,
      "learning_rate": 5.319348778960551e-06,
      "loss": 0.3144,
      "step": 16046,
      "task_loss": 0.4348564147949219
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.294482558965683,
      "epoch": 13.56,
      "learning_rate": 5.316217908578585e-06,
      "loss": 0.3164,
      "step": 16047,
      "task_loss": 0.47599852085113525
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3845425248146057,
      "epoch": 13.57,
      "learning_rate": 5.313087038196619e-06,
      "loss": 0.3683,
      "step": 16048,
      "task_loss": 0.6894305348396301
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6612570285797119,
      "epoch": 13.57,
      "learning_rate": 5.3099561678146525e-06,
      "loss": 0.6435,
      "step": 16049,
      "task_loss": 1.3233530521392822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4505549669265747,
      "epoch": 13.57,
      "learning_rate": 5.306825297432687e-06,
      "loss": 0.5209,
      "step": 16050,
      "task_loss": 0.9803087711334229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32036644220352173,
      "epoch": 13.57,
      "learning_rate": 5.30369442705072e-06,
      "loss": 0.4524,
      "step": 16051,
      "task_loss": 0.5422289967536926
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6499855518341064,
      "epoch": 13.57,
      "learning_rate": 5.300563556668755e-06,
      "loss": 0.4982,
      "step": 16052,
      "task_loss": 0.30145034193992615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5617957711219788,
      "epoch": 13.57,
      "learning_rate": 5.297432686286788e-06,
      "loss": 0.654,
      "step": 16053,
      "task_loss": 1.2619727849960327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44667714834213257,
      "epoch": 13.57,
      "learning_rate": 5.2943018159048215e-06,
      "loss": 0.5555,
      "step": 16054,
      "task_loss": 1.0651010274887085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3172281086444855,
      "epoch": 13.57,
      "learning_rate": 5.291170945522855e-06,
      "loss": 0.3503,
      "step": 16055,
      "task_loss": 0.6316465139389038
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5245024561882019,
      "epoch": 13.57,
      "learning_rate": 5.288040075140889e-06,
      "loss": 0.4981,
      "step": 16056,
      "task_loss": 1.0780495405197144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19772961735725403,
      "epoch": 13.57,
      "learning_rate": 5.284909204758924e-06,
      "loss": 0.4415,
      "step": 16057,
      "task_loss": 0.036752596497535706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.266097754240036,
      "epoch": 13.57,
      "learning_rate": 5.281778334376957e-06,
      "loss": 0.3683,
      "step": 16058,
      "task_loss": 0.7201486229896545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3713662028312683,
      "epoch": 13.57,
      "learning_rate": 5.278647463994991e-06,
      "loss": 0.3911,
      "step": 16059,
      "task_loss": 0.8085359334945679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42447954416275024,
      "epoch": 13.58,
      "learning_rate": 5.275516593613024e-06,
      "loss": 0.3017,
      "step": 16060,
      "task_loss": 0.9788237810134888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5023958683013916,
      "epoch": 13.58,
      "learning_rate": 5.272385723231058e-06,
      "loss": 0.4223,
      "step": 16061,
      "task_loss": 1.0490739345550537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2807427644729614,
      "epoch": 13.58,
      "learning_rate": 5.269254852849093e-06,
      "loss": 0.4472,
      "step": 16062,
      "task_loss": 0.08507099002599716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5737848281860352,
      "epoch": 13.58,
      "learning_rate": 5.266123982467126e-06,
      "loss": 0.4368,
      "step": 16063,
      "task_loss": 1.0913604497909546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.514731764793396,
      "epoch": 13.58,
      "learning_rate": 5.26299311208516e-06,
      "loss": 0.4831,
      "step": 16064,
      "task_loss": 0.43338340520858765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3279547691345215,
      "epoch": 13.58,
      "learning_rate": 5.259862241703194e-06,
      "loss": 0.4374,
      "step": 16065,
      "task_loss": 0.11337442696094513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40529075264930725,
      "epoch": 13.58,
      "learning_rate": 5.2567313713212275e-06,
      "loss": 0.4447,
      "step": 16066,
      "task_loss": 0.9912667870521545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49674004316329956,
      "epoch": 13.58,
      "learning_rate": 5.253600500939261e-06,
      "loss": 0.4344,
      "step": 16067,
      "task_loss": 0.7025578022003174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.311653733253479,
      "epoch": 13.58,
      "learning_rate": 5.250469630557295e-06,
      "loss": 0.3733,
      "step": 16068,
      "task_loss": 0.08689505606889725
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6140755414962769,
      "epoch": 13.58,
      "learning_rate": 5.24733876017533e-06,
      "loss": 0.4815,
      "step": 16069,
      "task_loss": 1.5242189168930054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20747864246368408,
      "epoch": 13.58,
      "learning_rate": 5.244207889793363e-06,
      "loss": 0.4627,
      "step": 16070,
      "task_loss": 0.3524254262447357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22503653168678284,
      "epoch": 13.58,
      "learning_rate": 5.2410770194113966e-06,
      "loss": 0.3965,
      "step": 16071,
      "task_loss": 0.4335981607437134
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2684359848499298,
      "epoch": 13.59,
      "learning_rate": 5.23794614902943e-06,
      "loss": 0.4786,
      "step": 16072,
      "task_loss": 0.6504862904548645
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4025508761405945,
      "epoch": 13.59,
      "learning_rate": 5.234815278647464e-06,
      "loss": 0.3882,
      "step": 16073,
      "task_loss": 0.3353551924228668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3488007187843323,
      "epoch": 13.59,
      "learning_rate": 5.231684408265499e-06,
      "loss": 0.5614,
      "step": 16074,
      "task_loss": 0.29208970069885254
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6023778915405273,
      "epoch": 13.59,
      "learning_rate": 5.228553537883532e-06,
      "loss": 0.4274,
      "step": 16075,
      "task_loss": 0.39236828684806824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.326160728931427,
      "epoch": 13.59,
      "learning_rate": 5.225422667501566e-06,
      "loss": 0.3962,
      "step": 16076,
      "task_loss": 0.36135122179985046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3914017677307129,
      "epoch": 13.59,
      "learning_rate": 5.222291797119599e-06,
      "loss": 0.4353,
      "step": 16077,
      "task_loss": 0.17125388979911804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6713229417800903,
      "epoch": 13.59,
      "learning_rate": 5.219160926737633e-06,
      "loss": 0.4779,
      "step": 16078,
      "task_loss": 1.5789567232131958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3441070020198822,
      "epoch": 13.59,
      "learning_rate": 5.216030056355667e-06,
      "loss": 0.4769,
      "step": 16079,
      "task_loss": 0.4025875926017761
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5170281529426575,
      "epoch": 13.59,
      "learning_rate": 5.212899185973701e-06,
      "loss": 0.4751,
      "step": 16080,
      "task_loss": 0.7047117948532104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.493792325258255,
      "epoch": 13.59,
      "learning_rate": 5.209768315591735e-06,
      "loss": 0.3653,
      "step": 16081,
      "task_loss": 0.982862114906311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38152605295181274,
      "epoch": 13.59,
      "learning_rate": 5.206637445209769e-06,
      "loss": 0.4408,
      "step": 16082,
      "task_loss": 0.7838725447654724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5364397168159485,
      "epoch": 13.59,
      "learning_rate": 5.2035065748278025e-06,
      "loss": 0.5682,
      "step": 16083,
      "task_loss": 0.3777877390384674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7218778133392334,
      "epoch": 13.6,
      "learning_rate": 5.200375704445836e-06,
      "loss": 0.5497,
      "step": 16084,
      "task_loss": 1.60286545753479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1819290816783905,
      "epoch": 13.6,
      "learning_rate": 5.1972448340638694e-06,
      "loss": 0.3926,
      "step": 16085,
      "task_loss": 0.2527207136154175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47794321179389954,
      "epoch": 13.6,
      "learning_rate": 5.194113963681904e-06,
      "loss": 0.4637,
      "step": 16086,
      "task_loss": 1.2586846351623535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3859628438949585,
      "epoch": 13.6,
      "learning_rate": 5.190983093299938e-06,
      "loss": 0.5339,
      "step": 16087,
      "task_loss": 0.5405428409576416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3302335739135742,
      "epoch": 13.6,
      "learning_rate": 5.1878522229179716e-06,
      "loss": 0.3492,
      "step": 16088,
      "task_loss": 0.12915953993797302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4460911750793457,
      "epoch": 13.6,
      "learning_rate": 5.184721352536005e-06,
      "loss": 0.3794,
      "step": 16089,
      "task_loss": 1.1942734718322754
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25631725788116455,
      "epoch": 13.6,
      "learning_rate": 5.181590482154039e-06,
      "loss": 0.3726,
      "step": 16090,
      "task_loss": 1.2074253559112549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20054759085178375,
      "epoch": 13.6,
      "learning_rate": 5.178459611772073e-06,
      "loss": 0.3595,
      "step": 16091,
      "task_loss": 0.37506580352783203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6808284521102905,
      "epoch": 13.6,
      "learning_rate": 5.175328741390106e-06,
      "loss": 0.522,
      "step": 16092,
      "task_loss": 0.28050923347473145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40247011184692383,
      "epoch": 13.6,
      "learning_rate": 5.172197871008141e-06,
      "loss": 0.3988,
      "step": 16093,
      "task_loss": 0.796729564666748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2846023440361023,
      "epoch": 13.6,
      "learning_rate": 5.169067000626174e-06,
      "loss": 0.4222,
      "step": 16094,
      "task_loss": 0.4401085674762726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20824560523033142,
      "epoch": 13.6,
      "learning_rate": 5.1659361302442084e-06,
      "loss": 0.3345,
      "step": 16095,
      "task_loss": 0.22011639177799225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36511164903640747,
      "epoch": 13.61,
      "learning_rate": 5.162805259862242e-06,
      "loss": 0.3161,
      "step": 16096,
      "task_loss": 0.5056166648864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6216379404067993,
      "epoch": 13.61,
      "learning_rate": 5.159674389480275e-06,
      "loss": 0.4985,
      "step": 16097,
      "task_loss": 1.7628753185272217
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32389137148857117,
      "epoch": 13.61,
      "learning_rate": 5.156543519098309e-06,
      "loss": 0.4526,
      "step": 16098,
      "task_loss": 0.2882223129272461
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.463140070438385,
      "epoch": 13.61,
      "learning_rate": 5.153412648716344e-06,
      "loss": 0.4599,
      "step": 16099,
      "task_loss": 0.6913072466850281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23803076148033142,
      "epoch": 13.61,
      "learning_rate": 5.1502817783343775e-06,
      "loss": 0.3913,
      "step": 16100,
      "task_loss": 0.2460981160402298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7458738684654236,
      "epoch": 13.61,
      "learning_rate": 5.147150907952411e-06,
      "loss": 0.5194,
      "step": 16101,
      "task_loss": 0.40965813398361206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.546964704990387,
      "epoch": 13.61,
      "learning_rate": 5.1440200375704445e-06,
      "loss": 0.367,
      "step": 16102,
      "task_loss": 0.2484133243560791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3314015865325928,
      "epoch": 13.61,
      "learning_rate": 5.140889167188479e-06,
      "loss": 0.321,
      "step": 16103,
      "task_loss": 0.4047233462333679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2780044972896576,
      "epoch": 13.61,
      "learning_rate": 5.137758296806512e-06,
      "loss": 0.3917,
      "step": 16104,
      "task_loss": 0.10848265141248703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5568065643310547,
      "epoch": 13.61,
      "learning_rate": 5.1346274264245466e-06,
      "loss": 0.4127,
      "step": 16105,
      "task_loss": 0.993651807308197
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29191163182258606,
      "epoch": 13.61,
      "learning_rate": 5.13149655604258e-06,
      "loss": 0.3605,
      "step": 16106,
      "task_loss": 0.33100348711013794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6408013105392456,
      "epoch": 13.61,
      "learning_rate": 5.128365685660614e-06,
      "loss": 0.3488,
      "step": 16107,
      "task_loss": 0.475220263004303
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42563390731811523,
      "epoch": 13.62,
      "learning_rate": 5.125234815278648e-06,
      "loss": 0.3513,
      "step": 16108,
      "task_loss": 0.7149974703788757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5422083735466003,
      "epoch": 13.62,
      "learning_rate": 5.122103944896681e-06,
      "loss": 0.4313,
      "step": 16109,
      "task_loss": 0.42790859937667847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20298467576503754,
      "epoch": 13.62,
      "learning_rate": 5.118973074514715e-06,
      "loss": 0.3334,
      "step": 16110,
      "task_loss": 0.1809345781803131
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23293530941009521,
      "epoch": 13.62,
      "learning_rate": 5.115842204132749e-06,
      "loss": 0.3778,
      "step": 16111,
      "task_loss": 0.4095805287361145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4372689127922058,
      "epoch": 13.62,
      "learning_rate": 5.1127113337507834e-06,
      "loss": 0.5029,
      "step": 16112,
      "task_loss": 0.8448078036308289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36935216188430786,
      "epoch": 13.62,
      "learning_rate": 5.109580463368817e-06,
      "loss": 0.5092,
      "step": 16113,
      "task_loss": 0.5782462358474731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.421531617641449,
      "epoch": 13.62,
      "learning_rate": 5.10644959298685e-06,
      "loss": 0.5077,
      "step": 16114,
      "task_loss": 0.07390519976615906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4274154007434845,
      "epoch": 13.62,
      "learning_rate": 5.103318722604884e-06,
      "loss": 0.4391,
      "step": 16115,
      "task_loss": 0.5172128081321716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40625545382499695,
      "epoch": 13.62,
      "learning_rate": 5.100187852222918e-06,
      "loss": 0.4315,
      "step": 16116,
      "task_loss": 0.20484404265880585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6973296999931335,
      "epoch": 13.62,
      "learning_rate": 5.0970569818409525e-06,
      "loss": 0.5393,
      "step": 16117,
      "task_loss": 0.5558215379714966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39443355798721313,
      "epoch": 13.62,
      "learning_rate": 5.093926111458986e-06,
      "loss": 0.4304,
      "step": 16118,
      "task_loss": 0.9654121994972229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6403842568397522,
      "epoch": 13.63,
      "learning_rate": 5.0907952410770195e-06,
      "loss": 0.4167,
      "step": 16119,
      "task_loss": 0.8495772480964661
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3976494073867798,
      "epoch": 13.63,
      "learning_rate": 5.087664370695054e-06,
      "loss": 0.369,
      "step": 16120,
      "task_loss": 0.4482710659503937
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2671700417995453,
      "epoch": 13.63,
      "learning_rate": 5.084533500313087e-06,
      "loss": 0.4554,
      "step": 16121,
      "task_loss": 0.8403947353363037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35987919569015503,
      "epoch": 13.63,
      "learning_rate": 5.081402629931121e-06,
      "loss": 0.5462,
      "step": 16122,
      "task_loss": 0.5547089576721191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6281348466873169,
      "epoch": 13.63,
      "learning_rate": 5.078271759549155e-06,
      "loss": 0.4,
      "step": 16123,
      "task_loss": 0.37879863381385803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2932904362678528,
      "epoch": 13.63,
      "learning_rate": 5.0751408891671885e-06,
      "loss": 0.3702,
      "step": 16124,
      "task_loss": 0.3616836369037628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.332045316696167,
      "epoch": 13.63,
      "learning_rate": 5.072010018785223e-06,
      "loss": 0.3416,
      "step": 16125,
      "task_loss": 0.7503412365913391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46532684564590454,
      "epoch": 13.63,
      "learning_rate": 5.068879148403256e-06,
      "loss": 0.3953,
      "step": 16126,
      "task_loss": 0.25388994812965393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38975849747657776,
      "epoch": 13.63,
      "learning_rate": 5.06574827802129e-06,
      "loss": 0.4962,
      "step": 16127,
      "task_loss": 0.47701019048690796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5208578109741211,
      "epoch": 13.63,
      "learning_rate": 5.062617407639324e-06,
      "loss": 0.4801,
      "step": 16128,
      "task_loss": 0.3705202341079712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2587718367576599,
      "epoch": 13.63,
      "learning_rate": 5.0594865372573584e-06,
      "loss": 0.3947,
      "step": 16129,
      "task_loss": 0.40447908639907837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30361804366111755,
      "epoch": 13.63,
      "learning_rate": 5.056355666875392e-06,
      "loss": 0.4136,
      "step": 16130,
      "task_loss": 0.41957351565361023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46618396043777466,
      "epoch": 13.64,
      "learning_rate": 5.053224796493425e-06,
      "loss": 0.6024,
      "step": 16131,
      "task_loss": 0.6535351276397705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3248808979988098,
      "epoch": 13.64,
      "learning_rate": 5.050093926111459e-06,
      "loss": 0.4048,
      "step": 16132,
      "task_loss": 0.32404181361198425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3602469861507416,
      "epoch": 13.64,
      "learning_rate": 5.046963055729493e-06,
      "loss": 0.3243,
      "step": 16133,
      "task_loss": 0.5457889437675476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3629108965396881,
      "epoch": 13.64,
      "learning_rate": 5.043832185347527e-06,
      "loss": 0.3815,
      "step": 16134,
      "task_loss": 0.9886918663978577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4289121627807617,
      "epoch": 13.64,
      "learning_rate": 5.04070131496556e-06,
      "loss": 0.4363,
      "step": 16135,
      "task_loss": 0.6204341650009155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5344879627227783,
      "epoch": 13.64,
      "learning_rate": 5.0375704445835945e-06,
      "loss": 0.4565,
      "step": 16136,
      "task_loss": 0.9210548400878906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3039117455482483,
      "epoch": 13.64,
      "learning_rate": 5.034439574201629e-06,
      "loss": 0.3152,
      "step": 16137,
      "task_loss": 0.49400952458381653
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5426570773124695,
      "epoch": 13.64,
      "learning_rate": 5.031308703819662e-06,
      "loss": 0.4768,
      "step": 16138,
      "task_loss": 0.6366143226623535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5794742107391357,
      "epoch": 13.64,
      "learning_rate": 5.028177833437696e-06,
      "loss": 0.4217,
      "step": 16139,
      "task_loss": 0.6998840570449829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20152977108955383,
      "epoch": 13.64,
      "learning_rate": 5.025046963055729e-06,
      "loss": 0.4219,
      "step": 16140,
      "task_loss": 0.7252890467643738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3293999433517456,
      "epoch": 13.64,
      "learning_rate": 5.0219160926737635e-06,
      "loss": 0.4459,
      "step": 16141,
      "task_loss": 0.8488249778747559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35429391264915466,
      "epoch": 13.64,
      "learning_rate": 5.018785222291798e-06,
      "loss": 0.3683,
      "step": 16142,
      "task_loss": 0.20388488471508026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4712735712528229,
      "epoch": 13.65,
      "learning_rate": 5.015654351909831e-06,
      "loss": 0.3398,
      "step": 16143,
      "task_loss": 0.5039381384849548
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3660573363304138,
      "epoch": 13.65,
      "learning_rate": 5.012523481527865e-06,
      "loss": 0.3671,
      "step": 16144,
      "task_loss": 0.6971773505210876
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.314670205116272,
      "epoch": 13.65,
      "learning_rate": 5.009392611145899e-06,
      "loss": 0.3059,
      "step": 16145,
      "task_loss": 0.776339054107666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.410808265209198,
      "epoch": 13.65,
      "learning_rate": 5.006261740763933e-06,
      "loss": 0.474,
      "step": 16146,
      "task_loss": 0.3339221477508545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5091865062713623,
      "epoch": 13.65,
      "learning_rate": 5.003130870381966e-06,
      "loss": 0.5411,
      "step": 16147,
      "task_loss": 0.7648942470550537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19494396448135376,
      "epoch": 13.65,
      "learning_rate": 5e-06,
      "loss": 0.3102,
      "step": 16148,
      "task_loss": 0.21059070527553558
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2954481244087219,
      "epoch": 13.65,
      "learning_rate": 4.996869129618034e-06,
      "loss": 0.4125,
      "step": 16149,
      "task_loss": 0.8240920305252075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3258790075778961,
      "epoch": 13.65,
      "learning_rate": 4.993738259236068e-06,
      "loss": 0.4168,
      "step": 16150,
      "task_loss": 0.581048309803009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.252301424741745,
      "epoch": 13.65,
      "learning_rate": 4.990607388854102e-06,
      "loss": 0.3425,
      "step": 16151,
      "task_loss": 0.3207944631576538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3277853727340698,
      "epoch": 13.65,
      "learning_rate": 4.987476518472135e-06,
      "loss": 0.4148,
      "step": 16152,
      "task_loss": 0.494858056306839
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46667081117630005,
      "epoch": 13.65,
      "learning_rate": 4.984345648090169e-06,
      "loss": 0.3599,
      "step": 16153,
      "task_loss": 0.6346244812011719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5440918803215027,
      "epoch": 13.65,
      "learning_rate": 4.981214777708204e-06,
      "loss": 0.3984,
      "step": 16154,
      "task_loss": 0.579608142375946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2424282729625702,
      "epoch": 13.66,
      "learning_rate": 4.978083907326237e-06,
      "loss": 0.4038,
      "step": 16155,
      "task_loss": 0.38494113087654114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3418683111667633,
      "epoch": 13.66,
      "learning_rate": 4.974953036944271e-06,
      "loss": 0.2798,
      "step": 16156,
      "task_loss": 0.14834898710250854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4941818416118622,
      "epoch": 13.66,
      "learning_rate": 4.971822166562304e-06,
      "loss": 0.475,
      "step": 16157,
      "task_loss": 0.368724524974823
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.453991174697876,
      "epoch": 13.66,
      "learning_rate": 4.9686912961803386e-06,
      "loss": 0.4877,
      "step": 16158,
      "task_loss": 1.0746623277664185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5080498456954956,
      "epoch": 13.66,
      "learning_rate": 4.965560425798372e-06,
      "loss": 0.3811,
      "step": 16159,
      "task_loss": 0.8313778042793274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2683848440647125,
      "epoch": 13.66,
      "learning_rate": 4.962429555416406e-06,
      "loss": 0.4437,
      "step": 16160,
      "task_loss": 0.23468562960624695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5286918878555298,
      "epoch": 13.66,
      "learning_rate": 4.95929868503444e-06,
      "loss": 0.5583,
      "step": 16161,
      "task_loss": 0.7216743230819702
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3213794529438019,
      "epoch": 13.66,
      "learning_rate": 4.956167814652473e-06,
      "loss": 0.453,
      "step": 16162,
      "task_loss": 0.1379069834947586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45332956314086914,
      "epoch": 13.66,
      "learning_rate": 4.953036944270508e-06,
      "loss": 0.3791,
      "step": 16163,
      "task_loss": 0.3055698871612549
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43561747670173645,
      "epoch": 13.66,
      "learning_rate": 4.949906073888541e-06,
      "loss": 0.4168,
      "step": 16164,
      "task_loss": 0.650242805480957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6163140535354614,
      "epoch": 13.66,
      "learning_rate": 4.9467752035065746e-06,
      "loss": 0.5221,
      "step": 16165,
      "task_loss": 0.7045388221740723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26115912199020386,
      "epoch": 13.66,
      "learning_rate": 4.943644333124609e-06,
      "loss": 0.4271,
      "step": 16166,
      "task_loss": 0.3606419861316681
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5674836039543152,
      "epoch": 13.67,
      "learning_rate": 4.940513462742643e-06,
      "loss": 0.4181,
      "step": 16167,
      "task_loss": 0.21306125819683075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42815250158309937,
      "epoch": 13.67,
      "learning_rate": 4.937382592360677e-06,
      "loss": 0.4992,
      "step": 16168,
      "task_loss": 0.5018365383148193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8114582896232605,
      "epoch": 13.67,
      "learning_rate": 4.93425172197871e-06,
      "loss": 0.4644,
      "step": 16169,
      "task_loss": 0.8349753022193909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7057942152023315,
      "epoch": 13.67,
      "learning_rate": 4.931120851596744e-06,
      "loss": 0.5257,
      "step": 16170,
      "task_loss": 1.091231346130371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.511738121509552,
      "epoch": 13.67,
      "learning_rate": 4.927989981214778e-06,
      "loss": 0.3706,
      "step": 16171,
      "task_loss": 0.2357608526945114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5422924757003784,
      "epoch": 13.67,
      "learning_rate": 4.924859110832812e-06,
      "loss": 0.5161,
      "step": 16172,
      "task_loss": 0.32568761706352234
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6464292407035828,
      "epoch": 13.67,
      "learning_rate": 4.921728240450846e-06,
      "loss": 0.4749,
      "step": 16173,
      "task_loss": 0.4286509156227112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4423980712890625,
      "epoch": 13.67,
      "learning_rate": 4.918597370068879e-06,
      "loss": 0.4892,
      "step": 16174,
      "task_loss": 1.1492811441421509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16982021927833557,
      "epoch": 13.67,
      "learning_rate": 4.9154664996869136e-06,
      "loss": 0.366,
      "step": 16175,
      "task_loss": 0.5682809948921204
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42734140157699585,
      "epoch": 13.67,
      "learning_rate": 4.912335629304947e-06,
      "loss": 0.4707,
      "step": 16176,
      "task_loss": 0.8059224486351013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21392759680747986,
      "epoch": 13.67,
      "learning_rate": 4.9092047589229805e-06,
      "loss": 0.4246,
      "step": 16177,
      "task_loss": 0.4320198595523834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2101873904466629,
      "epoch": 13.67,
      "learning_rate": 4.906073888541014e-06,
      "loss": 0.5097,
      "step": 16178,
      "task_loss": 0.44220227003097534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21425077319145203,
      "epoch": 13.68,
      "learning_rate": 4.902943018159048e-06,
      "loss": 0.3655,
      "step": 16179,
      "task_loss": 0.14982491731643677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3197284936904907,
      "epoch": 13.68,
      "learning_rate": 4.899812147777083e-06,
      "loss": 0.3685,
      "step": 16180,
      "task_loss": 0.483199805021286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49256670475006104,
      "epoch": 13.68,
      "learning_rate": 4.896681277395116e-06,
      "loss": 0.4356,
      "step": 16181,
      "task_loss": 0.41316017508506775
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38196229934692383,
      "epoch": 13.68,
      "learning_rate": 4.89355040701315e-06,
      "loss": 0.3995,
      "step": 16182,
      "task_loss": 0.05831027030944824
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3232452869415283,
      "epoch": 13.68,
      "learning_rate": 4.890419536631184e-06,
      "loss": 0.3498,
      "step": 16183,
      "task_loss": 0.845448911190033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39209267497062683,
      "epoch": 13.68,
      "learning_rate": 4.887288666249217e-06,
      "loss": 0.3465,
      "step": 16184,
      "task_loss": 0.36503222584724426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5453774929046631,
      "epoch": 13.68,
      "learning_rate": 4.884157795867252e-06,
      "loss": 0.3552,
      "step": 16185,
      "task_loss": 0.7832910418510437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37433922290802,
      "epoch": 13.68,
      "learning_rate": 4.881026925485285e-06,
      "loss": 0.4171,
      "step": 16186,
      "task_loss": 0.2768784463405609
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37164610624313354,
      "epoch": 13.68,
      "learning_rate": 4.877896055103319e-06,
      "loss": 0.3552,
      "step": 16187,
      "task_loss": 0.4543629288673401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40140819549560547,
      "epoch": 13.68,
      "learning_rate": 4.874765184721353e-06,
      "loss": 0.4358,
      "step": 16188,
      "task_loss": 0.6504811644554138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5983971357345581,
      "epoch": 13.68,
      "learning_rate": 4.8716343143393864e-06,
      "loss": 0.4692,
      "step": 16189,
      "task_loss": 1.1767786741256714
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5717809200286865,
      "epoch": 13.69,
      "learning_rate": 4.86850344395742e-06,
      "loss": 0.503,
      "step": 16190,
      "task_loss": 0.4889140725135803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4132276177406311,
      "epoch": 13.69,
      "learning_rate": 4.865372573575454e-06,
      "loss": 0.4934,
      "step": 16191,
      "task_loss": 1.4911704063415527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39464372396469116,
      "epoch": 13.69,
      "learning_rate": 4.8622417031934886e-06,
      "loss": 0.3361,
      "step": 16192,
      "task_loss": 0.4080425798892975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7211109399795532,
      "epoch": 13.69,
      "learning_rate": 4.859110832811522e-06,
      "loss": 0.445,
      "step": 16193,
      "task_loss": 0.41585633158683777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3020575940608978,
      "epoch": 13.69,
      "learning_rate": 4.8559799624295555e-06,
      "loss": 0.4402,
      "step": 16194,
      "task_loss": 0.3905579447746277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40286117792129517,
      "epoch": 13.69,
      "learning_rate": 4.852849092047589e-06,
      "loss": 0.457,
      "step": 16195,
      "task_loss": 0.7491313219070435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38009482622146606,
      "epoch": 13.69,
      "learning_rate": 4.849718221665623e-06,
      "loss": 0.503,
      "step": 16196,
      "task_loss": 0.8006600737571716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5070353746414185,
      "epoch": 13.69,
      "learning_rate": 4.846587351283658e-06,
      "loss": 0.4985,
      "step": 16197,
      "task_loss": 0.5589599013328552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26326242089271545,
      "epoch": 13.69,
      "learning_rate": 4.843456480901691e-06,
      "loss": 0.3721,
      "step": 16198,
      "task_loss": 1.0333603620529175
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42275547981262207,
      "epoch": 13.69,
      "learning_rate": 4.840325610519725e-06,
      "loss": 0.4537,
      "step": 16199,
      "task_loss": 0.7546346187591553
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6580424308776855,
      "epoch": 13.69,
      "learning_rate": 4.837194740137758e-06,
      "loss": 0.4719,
      "step": 16200,
      "task_loss": 0.3598799705505371
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.543779730796814,
      "epoch": 13.69,
      "learning_rate": 4.834063869755792e-06,
      "loss": 0.3916,
      "step": 16201,
      "task_loss": 0.7323631048202515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48661765456199646,
      "epoch": 13.7,
      "learning_rate": 4.830932999373826e-06,
      "loss": 0.5175,
      "step": 16202,
      "task_loss": 0.37324294447898865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.430931031703949,
      "epoch": 13.7,
      "learning_rate": 4.82780212899186e-06,
      "loss": 0.3957,
      "step": 16203,
      "task_loss": 0.8337973356246948
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34346166253089905,
      "epoch": 13.7,
      "learning_rate": 4.824671258609894e-06,
      "loss": 0.3699,
      "step": 16204,
      "task_loss": 0.9088588356971741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44018521904945374,
      "epoch": 13.7,
      "learning_rate": 4.821540388227928e-06,
      "loss": 0.4886,
      "step": 16205,
      "task_loss": 1.227975845336914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3458050489425659,
      "epoch": 13.7,
      "learning_rate": 4.8184095178459615e-06,
      "loss": 0.4435,
      "step": 16206,
      "task_loss": 0.5419281125068665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5529592633247375,
      "epoch": 13.7,
      "learning_rate": 4.815278647463995e-06,
      "loss": 0.3686,
      "step": 16207,
      "task_loss": 0.7819405198097229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5445743203163147,
      "epoch": 13.7,
      "learning_rate": 4.812147777082028e-06,
      "loss": 0.4461,
      "step": 16208,
      "task_loss": 1.0574854612350464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35288044810295105,
      "epoch": 13.7,
      "learning_rate": 4.809016906700064e-06,
      "loss": 0.4258,
      "step": 16209,
      "task_loss": 0.340836763381958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16124124825000763,
      "epoch": 13.7,
      "learning_rate": 4.805886036318097e-06,
      "loss": 0.4702,
      "step": 16210,
      "task_loss": 0.10292944312095642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44651293754577637,
      "epoch": 13.7,
      "learning_rate": 4.8027551659361305e-06,
      "loss": 0.4233,
      "step": 16211,
      "task_loss": 0.41115978360176086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36049288511276245,
      "epoch": 13.7,
      "learning_rate": 4.799624295554164e-06,
      "loss": 0.3909,
      "step": 16212,
      "task_loss": 0.2390042245388031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6214162707328796,
      "epoch": 13.7,
      "learning_rate": 4.796493425172198e-06,
      "loss": 0.5119,
      "step": 16213,
      "task_loss": 0.5809746384620667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3237493336200714,
      "epoch": 13.71,
      "learning_rate": 4.793362554790232e-06,
      "loss": 0.5169,
      "step": 16214,
      "task_loss": 0.33680030703544617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3941512405872345,
      "epoch": 13.71,
      "learning_rate": 4.790231684408266e-06,
      "loss": 0.4123,
      "step": 16215,
      "task_loss": 0.37735259532928467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.13910944759845734,
      "epoch": 13.71,
      "learning_rate": 4.7871008140263e-06,
      "loss": 0.3014,
      "step": 16216,
      "task_loss": 0.005849303677678108
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48596489429473877,
      "epoch": 13.71,
      "learning_rate": 4.783969943644333e-06,
      "loss": 0.4678,
      "step": 16217,
      "task_loss": 0.915682315826416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3852992653846741,
      "epoch": 13.71,
      "learning_rate": 4.780839073262367e-06,
      "loss": 0.4526,
      "step": 16218,
      "task_loss": 0.52094566822052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5256748199462891,
      "epoch": 13.71,
      "learning_rate": 4.777708202880401e-06,
      "loss": 0.4152,
      "step": 16219,
      "task_loss": 1.9011647701263428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18933573365211487,
      "epoch": 13.71,
      "learning_rate": 4.774577332498434e-06,
      "loss": 0.4043,
      "step": 16220,
      "task_loss": 0.7629954814910889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26953208446502686,
      "epoch": 13.71,
      "learning_rate": 4.771446462116469e-06,
      "loss": 0.4158,
      "step": 16221,
      "task_loss": 0.8448173403739929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5176976919174194,
      "epoch": 13.71,
      "learning_rate": 4.768315591734503e-06,
      "loss": 0.5824,
      "step": 16222,
      "task_loss": 0.8014988899230957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2955090403556824,
      "epoch": 13.71,
      "learning_rate": 4.7651847213525365e-06,
      "loss": 0.3463,
      "step": 16223,
      "task_loss": 0.8149003982543945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3695441484451294,
      "epoch": 13.71,
      "learning_rate": 4.76205385097057e-06,
      "loss": 0.4316,
      "step": 16224,
      "task_loss": 0.39532291889190674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7606106996536255,
      "epoch": 13.71,
      "learning_rate": 4.758922980588603e-06,
      "loss": 0.5841,
      "step": 16225,
      "task_loss": 1.8312904834747314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2746717929840088,
      "epoch": 13.72,
      "learning_rate": 4.755792110206638e-06,
      "loss": 0.367,
      "step": 16226,
      "task_loss": 0.6109702587127686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6886279582977295,
      "epoch": 13.72,
      "learning_rate": 4.752661239824671e-06,
      "loss": 0.4387,
      "step": 16227,
      "task_loss": 0.7532926797866821
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2690354287624359,
      "epoch": 13.72,
      "learning_rate": 4.7495303694427055e-06,
      "loss": 0.3288,
      "step": 16228,
      "task_loss": 0.2842206358909607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4309701919555664,
      "epoch": 13.72,
      "learning_rate": 4.746399499060739e-06,
      "loss": 0.4368,
      "step": 16229,
      "task_loss": 0.6715153455734253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22362777590751648,
      "epoch": 13.72,
      "learning_rate": 4.743268628678773e-06,
      "loss": 0.331,
      "step": 16230,
      "task_loss": 0.275934636592865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4094560742378235,
      "epoch": 13.72,
      "learning_rate": 4.740137758296807e-06,
      "loss": 0.4585,
      "step": 16231,
      "task_loss": 0.0867387056350708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4482269883155823,
      "epoch": 13.72,
      "learning_rate": 4.73700688791484e-06,
      "loss": 0.3133,
      "step": 16232,
      "task_loss": 0.5083227157592773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40505921840667725,
      "epoch": 13.72,
      "learning_rate": 4.733876017532874e-06,
      "loss": 0.427,
      "step": 16233,
      "task_loss": 0.2645764946937561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.370595246553421,
      "epoch": 13.72,
      "learning_rate": 4.730745147150908e-06,
      "loss": 0.4039,
      "step": 16234,
      "task_loss": 0.3144499361515045
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22448313236236572,
      "epoch": 13.72,
      "learning_rate": 4.727614276768942e-06,
      "loss": 0.3375,
      "step": 16235,
      "task_loss": 0.6536279916763306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34510645270347595,
      "epoch": 13.72,
      "learning_rate": 4.724483406386976e-06,
      "loss": 0.3795,
      "step": 16236,
      "task_loss": 0.5949620604515076
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36564162373542786,
      "epoch": 13.72,
      "learning_rate": 4.721352536005009e-06,
      "loss": 0.3887,
      "step": 16237,
      "task_loss": 0.27179402112960815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3006308376789093,
      "epoch": 13.73,
      "learning_rate": 4.718221665623043e-06,
      "loss": 0.397,
      "step": 16238,
      "task_loss": 0.3179163336753845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4897891581058502,
      "epoch": 13.73,
      "learning_rate": 4.715090795241077e-06,
      "loss": 0.5527,
      "step": 16239,
      "task_loss": 0.754901111125946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4589666724205017,
      "epoch": 13.73,
      "learning_rate": 4.7119599248591115e-06,
      "loss": 0.4569,
      "step": 16240,
      "task_loss": 0.46471288800239563
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35707151889801025,
      "epoch": 13.73,
      "learning_rate": 4.708829054477145e-06,
      "loss": 0.3673,
      "step": 16241,
      "task_loss": 0.4906906485557556
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30933552980422974,
      "epoch": 13.73,
      "learning_rate": 4.7056981840951784e-06,
      "loss": 0.5132,
      "step": 16242,
      "task_loss": 0.4966990649700165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32958680391311646,
      "epoch": 13.73,
      "learning_rate": 4.702567313713213e-06,
      "loss": 0.4665,
      "step": 16243,
      "task_loss": 0.2664606273174286
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43378758430480957,
      "epoch": 13.73,
      "learning_rate": 4.699436443331246e-06,
      "loss": 0.4033,
      "step": 16244,
      "task_loss": 0.8499917984008789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3890218734741211,
      "epoch": 13.73,
      "learning_rate": 4.69630557294928e-06,
      "loss": 0.3719,
      "step": 16245,
      "task_loss": 0.9232933521270752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5595427751541138,
      "epoch": 13.73,
      "learning_rate": 4.693174702567314e-06,
      "loss": 0.508,
      "step": 16246,
      "task_loss": 0.5690313577651978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45122167468070984,
      "epoch": 13.73,
      "learning_rate": 4.690043832185348e-06,
      "loss": 0.4175,
      "step": 16247,
      "task_loss": 0.41517582535743713
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48059722781181335,
      "epoch": 13.73,
      "learning_rate": 4.686912961803382e-06,
      "loss": 0.4113,
      "step": 16248,
      "task_loss": 1.5121381282806396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3209276497364044,
      "epoch": 13.73,
      "learning_rate": 4.683782091421415e-06,
      "loss": 0.3909,
      "step": 16249,
      "task_loss": 0.4494827389717102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6911919116973877,
      "epoch": 13.74,
      "learning_rate": 4.680651221039449e-06,
      "loss": 0.5534,
      "step": 16250,
      "task_loss": 2.043896198272705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24825331568717957,
      "epoch": 13.74,
      "learning_rate": 4.677520350657483e-06,
      "loss": 0.3636,
      "step": 16251,
      "task_loss": 0.6797268390655518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3824015259742737,
      "epoch": 13.74,
      "learning_rate": 4.674389480275517e-06,
      "loss": 0.5934,
      "step": 16252,
      "task_loss": 0.48538655042648315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24030788242816925,
      "epoch": 13.74,
      "learning_rate": 4.671258609893551e-06,
      "loss": 0.3327,
      "step": 16253,
      "task_loss": 0.4447020888328552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3268396854400635,
      "epoch": 13.74,
      "learning_rate": 4.668127739511584e-06,
      "loss": 0.4487,
      "step": 16254,
      "task_loss": 0.8719024658203125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.492361843585968,
      "epoch": 13.74,
      "learning_rate": 4.664996869129618e-06,
      "loss": 0.4174,
      "step": 16255,
      "task_loss": 0.2093188762664795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3042285144329071,
      "epoch": 13.74,
      "learning_rate": 4.661865998747652e-06,
      "loss": 0.3942,
      "step": 16256,
      "task_loss": 0.10577571392059326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3332201838493347,
      "epoch": 13.74,
      "learning_rate": 4.658735128365686e-06,
      "loss": 0.5236,
      "step": 16257,
      "task_loss": 1.042197346687317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.379880428314209,
      "epoch": 13.74,
      "learning_rate": 4.65560425798372e-06,
      "loss": 0.371,
      "step": 16258,
      "task_loss": 0.6299658417701721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6156659126281738,
      "epoch": 13.74,
      "learning_rate": 4.6524733876017534e-06,
      "loss": 0.4797,
      "step": 16259,
      "task_loss": 0.9281580448150635
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5926430225372314,
      "epoch": 13.74,
      "learning_rate": 4.649342517219788e-06,
      "loss": 0.5383,
      "step": 16260,
      "task_loss": 0.6555206775665283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3797641396522522,
      "epoch": 13.75,
      "learning_rate": 4.646211646837821e-06,
      "loss": 0.4025,
      "step": 16261,
      "task_loss": 0.6484031677246094
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6282318830490112,
      "epoch": 13.75,
      "learning_rate": 4.643080776455855e-06,
      "loss": 0.4896,
      "step": 16262,
      "task_loss": 0.42293086647987366
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25777095556259155,
      "epoch": 13.75,
      "learning_rate": 4.639949906073888e-06,
      "loss": 0.4579,
      "step": 16263,
      "task_loss": 0.22711826860904694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43133556842803955,
      "epoch": 13.75,
      "learning_rate": 4.6368190356919225e-06,
      "loss": 0.3703,
      "step": 16264,
      "task_loss": 0.4601871371269226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15309998393058777,
      "epoch": 13.75,
      "learning_rate": 4.633688165309957e-06,
      "loss": 0.4111,
      "step": 16265,
      "task_loss": 0.40187782049179077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7548449039459229,
      "epoch": 13.75,
      "learning_rate": 4.63055729492799e-06,
      "loss": 0.6086,
      "step": 16266,
      "task_loss": 1.5011258125305176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42930132150650024,
      "epoch": 13.75,
      "learning_rate": 4.627426424546024e-06,
      "loss": 0.5322,
      "step": 16267,
      "task_loss": 1.4493515491485596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42985057830810547,
      "epoch": 13.75,
      "learning_rate": 4.624295554164058e-06,
      "loss": 0.5484,
      "step": 16268,
      "task_loss": 0.4303368628025055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2582542896270752,
      "epoch": 13.75,
      "learning_rate": 4.6211646837820916e-06,
      "loss": 0.402,
      "step": 16269,
      "task_loss": 0.07665666937828064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3800501525402069,
      "epoch": 13.75,
      "learning_rate": 4.618033813400125e-06,
      "loss": 0.3859,
      "step": 16270,
      "task_loss": 0.2850613594055176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2522447407245636,
      "epoch": 13.75,
      "learning_rate": 4.614902943018159e-06,
      "loss": 0.3865,
      "step": 16271,
      "task_loss": 0.4284813702106476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3580248951911926,
      "epoch": 13.75,
      "learning_rate": 4.611772072636193e-06,
      "loss": 0.4183,
      "step": 16272,
      "task_loss": 0.5364897847175598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3602379560470581,
      "epoch": 13.76,
      "learning_rate": 4.608641202254227e-06,
      "loss": 0.401,
      "step": 16273,
      "task_loss": 0.6071609258651733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3158413767814636,
      "epoch": 13.76,
      "learning_rate": 4.605510331872261e-06,
      "loss": 0.3544,
      "step": 16274,
      "task_loss": 0.611625611782074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34263819456100464,
      "epoch": 13.76,
      "learning_rate": 4.602379461490294e-06,
      "loss": 0.4109,
      "step": 16275,
      "task_loss": 0.7881128787994385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44034016132354736,
      "epoch": 13.76,
      "learning_rate": 4.599248591108328e-06,
      "loss": 0.3824,
      "step": 16276,
      "task_loss": 0.37123656272888184
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4127587676048279,
      "epoch": 13.76,
      "learning_rate": 4.596117720726363e-06,
      "loss": 0.4153,
      "step": 16277,
      "task_loss": 0.21245639026165009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48851561546325684,
      "epoch": 13.76,
      "learning_rate": 4.592986850344396e-06,
      "loss": 0.4099,
      "step": 16278,
      "task_loss": 0.7268454432487488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6395609378814697,
      "epoch": 13.76,
      "learning_rate": 4.58985597996243e-06,
      "loss": 0.5659,
      "step": 16279,
      "task_loss": 1.0998003482818604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27689045667648315,
      "epoch": 13.76,
      "learning_rate": 4.586725109580463e-06,
      "loss": 0.3981,
      "step": 16280,
      "task_loss": 0.658164918422699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16983315348625183,
      "epoch": 13.76,
      "learning_rate": 4.5835942391984975e-06,
      "loss": 0.3813,
      "step": 16281,
      "task_loss": 0.1236528679728508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42601388692855835,
      "epoch": 13.76,
      "learning_rate": 4.580463368816531e-06,
      "loss": 0.5139,
      "step": 16282,
      "task_loss": 1.0860702991485596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31995338201522827,
      "epoch": 13.76,
      "learning_rate": 4.577332498434565e-06,
      "loss": 0.3865,
      "step": 16283,
      "task_loss": 0.3562820851802826
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21619242429733276,
      "epoch": 13.76,
      "learning_rate": 4.574201628052599e-06,
      "loss": 0.3862,
      "step": 16284,
      "task_loss": 0.43613240122795105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4683340787887573,
      "epoch": 13.77,
      "learning_rate": 4.571070757670633e-06,
      "loss": 0.4584,
      "step": 16285,
      "task_loss": 0.8397165536880493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32805922627449036,
      "epoch": 13.77,
      "learning_rate": 4.567939887288667e-06,
      "loss": 0.4066,
      "step": 16286,
      "task_loss": 0.23632140457630157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21004608273506165,
      "epoch": 13.77,
      "learning_rate": 4.5648090169067e-06,
      "loss": 0.3992,
      "step": 16287,
      "task_loss": 0.4270586371421814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2419108748435974,
      "epoch": 13.77,
      "learning_rate": 4.5616781465247335e-06,
      "loss": 0.4146,
      "step": 16288,
      "task_loss": 0.2625471353530884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42344632744789124,
      "epoch": 13.77,
      "learning_rate": 4.558547276142768e-06,
      "loss": 0.4237,
      "step": 16289,
      "task_loss": 1.3555259704589844
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38177263736724854,
      "epoch": 13.77,
      "learning_rate": 4.555416405760802e-06,
      "loss": 0.4302,
      "step": 16290,
      "task_loss": 0.7238706350326538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30893319845199585,
      "epoch": 13.77,
      "learning_rate": 4.552285535378836e-06,
      "loss": 0.376,
      "step": 16291,
      "task_loss": 0.35587137937545776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3455009162425995,
      "epoch": 13.77,
      "learning_rate": 4.549154664996869e-06,
      "loss": 0.506,
      "step": 16292,
      "task_loss": 0.6384402513504028
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28443068265914917,
      "epoch": 13.77,
      "learning_rate": 4.546023794614903e-06,
      "loss": 0.3075,
      "step": 16293,
      "task_loss": 1.304082989692688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3282212018966675,
      "epoch": 13.77,
      "learning_rate": 4.542892924232937e-06,
      "loss": 0.5044,
      "step": 16294,
      "task_loss": 0.0666128471493721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40870821475982666,
      "epoch": 13.77,
      "learning_rate": 4.539762053850971e-06,
      "loss": 0.4279,
      "step": 16295,
      "task_loss": 0.3762693703174591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3825893998146057,
      "epoch": 13.77,
      "learning_rate": 4.536631183469005e-06,
      "loss": 0.479,
      "step": 16296,
      "task_loss": 0.6652783155441284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40028125047683716,
      "epoch": 13.78,
      "learning_rate": 4.533500313087038e-06,
      "loss": 0.3676,
      "step": 16297,
      "task_loss": 0.7624350786209106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43324822187423706,
      "epoch": 13.78,
      "learning_rate": 4.5303694427050725e-06,
      "loss": 0.5924,
      "step": 16298,
      "task_loss": 0.6737279295921326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41089633107185364,
      "epoch": 13.78,
      "learning_rate": 4.527238572323106e-06,
      "loss": 0.4246,
      "step": 16299,
      "task_loss": 0.4042293429374695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31671813130378723,
      "epoch": 13.78,
      "learning_rate": 4.5241077019411395e-06,
      "loss": 0.3828,
      "step": 16300,
      "task_loss": 0.41226062178611755
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3562116026878357,
      "epoch": 13.78,
      "learning_rate": 4.520976831559174e-06,
      "loss": 0.3635,
      "step": 16301,
      "task_loss": 0.1951063722372055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19929440319538116,
      "epoch": 13.78,
      "learning_rate": 4.517845961177207e-06,
      "loss": 0.4476,
      "step": 16302,
      "task_loss": 0.3112215995788574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6966243386268616,
      "epoch": 13.78,
      "learning_rate": 4.514715090795242e-06,
      "loss": 0.4229,
      "step": 16303,
      "task_loss": 0.4202461242675781
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3780598044395447,
      "epoch": 13.78,
      "learning_rate": 4.511584220413275e-06,
      "loss": 0.4622,
      "step": 16304,
      "task_loss": 0.7207561731338501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6188704967498779,
      "epoch": 13.78,
      "learning_rate": 4.5084533500313085e-06,
      "loss": 0.4778,
      "step": 16305,
      "task_loss": 0.12382490187883377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32635563611984253,
      "epoch": 13.78,
      "learning_rate": 4.505322479649343e-06,
      "loss": 0.4311,
      "step": 16306,
      "task_loss": 0.5978676676750183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43723464012145996,
      "epoch": 13.78,
      "learning_rate": 4.502191609267377e-06,
      "loss": 0.47,
      "step": 16307,
      "task_loss": 0.18434610962867737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39524805545806885,
      "epoch": 13.78,
      "learning_rate": 4.499060738885411e-06,
      "loss": 0.4515,
      "step": 16308,
      "task_loss": 0.22699369490146637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.806010365486145,
      "epoch": 13.79,
      "learning_rate": 4.495929868503444e-06,
      "loss": 0.4183,
      "step": 16309,
      "task_loss": 0.7803768515586853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30192315578460693,
      "epoch": 13.79,
      "learning_rate": 4.492798998121478e-06,
      "loss": 0.3358,
      "step": 16310,
      "task_loss": 0.3026004135608673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2981984615325928,
      "epoch": 13.79,
      "learning_rate": 4.489668127739512e-06,
      "loss": 0.5249,
      "step": 16311,
      "task_loss": 0.877020537853241
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.296659916639328,
      "epoch": 13.79,
      "learning_rate": 4.486537257357545e-06,
      "loss": 0.3586,
      "step": 16312,
      "task_loss": 0.43806710839271545
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3488882780075073,
      "epoch": 13.79,
      "learning_rate": 4.48340638697558e-06,
      "loss": 0.6832,
      "step": 16313,
      "task_loss": 0.9376505017280579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5263966917991638,
      "epoch": 13.79,
      "learning_rate": 4.480275516593613e-06,
      "loss": 0.4924,
      "step": 16314,
      "task_loss": 1.0111852884292603
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.383121520280838,
      "epoch": 13.79,
      "learning_rate": 4.4771446462116475e-06,
      "loss": 0.4695,
      "step": 16315,
      "task_loss": 0.14831015467643738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36970895528793335,
      "epoch": 13.79,
      "learning_rate": 4.474013775829681e-06,
      "loss": 0.4383,
      "step": 16316,
      "task_loss": 1.0382665395736694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16455930471420288,
      "epoch": 13.79,
      "learning_rate": 4.4708829054477145e-06,
      "loss": 0.3554,
      "step": 16317,
      "task_loss": 0.090693399310112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15017689764499664,
      "epoch": 13.79,
      "learning_rate": 4.467752035065748e-06,
      "loss": 0.2764,
      "step": 16318,
      "task_loss": 0.4882739782333374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24622760713100433,
      "epoch": 13.79,
      "learning_rate": 4.464621164683782e-06,
      "loss": 0.4974,
      "step": 16319,
      "task_loss": 0.12966950237751007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3979654312133789,
      "epoch": 13.79,
      "learning_rate": 4.461490294301817e-06,
      "loss": 0.4912,
      "step": 16320,
      "task_loss": 0.5665307641029358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32580843567848206,
      "epoch": 13.8,
      "learning_rate": 4.45835942391985e-06,
      "loss": 0.4569,
      "step": 16321,
      "task_loss": 1.164804220199585
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34584277868270874,
      "epoch": 13.8,
      "learning_rate": 4.4552285535378836e-06,
      "loss": 0.3939,
      "step": 16322,
      "task_loss": 0.8228781819343567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42886191606521606,
      "epoch": 13.8,
      "learning_rate": 4.452097683155918e-06,
      "loss": 0.3349,
      "step": 16323,
      "task_loss": 0.558988094329834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3005717098712921,
      "epoch": 13.8,
      "learning_rate": 4.448966812773951e-06,
      "loss": 0.4388,
      "step": 16324,
      "task_loss": 0.7317487001419067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48223260045051575,
      "epoch": 13.8,
      "learning_rate": 4.445835942391985e-06,
      "loss": 0.5876,
      "step": 16325,
      "task_loss": 0.644068717956543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4997795522212982,
      "epoch": 13.8,
      "learning_rate": 4.442705072010019e-06,
      "loss": 0.5436,
      "step": 16326,
      "task_loss": 1.0641396045684814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5281206965446472,
      "epoch": 13.8,
      "learning_rate": 4.439574201628053e-06,
      "loss": 0.3874,
      "step": 16327,
      "task_loss": 0.5422359704971313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35814982652664185,
      "epoch": 13.8,
      "learning_rate": 4.436443331246087e-06,
      "loss": 0.3596,
      "step": 16328,
      "task_loss": 0.5393711924552917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4398115575313568,
      "epoch": 13.8,
      "learning_rate": 4.43331246086412e-06,
      "loss": 0.4524,
      "step": 16329,
      "task_loss": 0.9489027261734009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41511067748069763,
      "epoch": 13.8,
      "learning_rate": 4.430181590482154e-06,
      "loss": 0.4274,
      "step": 16330,
      "task_loss": 0.6533553600311279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38103121519088745,
      "epoch": 13.8,
      "learning_rate": 4.427050720100187e-06,
      "loss": 0.3419,
      "step": 16331,
      "task_loss": 0.39549365639686584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44513756036758423,
      "epoch": 13.81,
      "learning_rate": 4.4239198497182225e-06,
      "loss": 0.4781,
      "step": 16332,
      "task_loss": 0.6131216883659363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31854620575904846,
      "epoch": 13.81,
      "learning_rate": 4.420788979336256e-06,
      "loss": 0.4695,
      "step": 16333,
      "task_loss": 0.3867679238319397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3313009440898895,
      "epoch": 13.81,
      "learning_rate": 4.4176581089542895e-06,
      "loss": 0.5095,
      "step": 16334,
      "task_loss": 0.8542637825012207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32061439752578735,
      "epoch": 13.81,
      "learning_rate": 4.414527238572323e-06,
      "loss": 0.5139,
      "step": 16335,
      "task_loss": 0.9973844885826111
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31087014079093933,
      "epoch": 13.81,
      "learning_rate": 4.411396368190357e-06,
      "loss": 0.4257,
      "step": 16336,
      "task_loss": 0.6797540187835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2234594076871872,
      "epoch": 13.81,
      "learning_rate": 4.408265497808391e-06,
      "loss": 0.3815,
      "step": 16337,
      "task_loss": 0.50302654504776
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34813979268074036,
      "epoch": 13.81,
      "learning_rate": 4.405134627426425e-06,
      "loss": 0.3422,
      "step": 16338,
      "task_loss": 0.25605860352516174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44020378589630127,
      "epoch": 13.81,
      "learning_rate": 4.4020037570444586e-06,
      "loss": 0.4061,
      "step": 16339,
      "task_loss": 0.9086729288101196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35023432970046997,
      "epoch": 13.81,
      "learning_rate": 4.398872886662492e-06,
      "loss": 0.3685,
      "step": 16340,
      "task_loss": 0.40507280826568604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27398842573165894,
      "epoch": 13.81,
      "learning_rate": 4.395742016280526e-06,
      "loss": 0.4892,
      "step": 16341,
      "task_loss": 0.3791852593421936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39471882581710815,
      "epoch": 13.81,
      "learning_rate": 4.39261114589856e-06,
      "loss": 0.4076,
      "step": 16342,
      "task_loss": 0.30691850185394287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44588950276374817,
      "epoch": 13.81,
      "learning_rate": 4.389480275516593e-06,
      "loss": 0.5092,
      "step": 16343,
      "task_loss": 1.1221429109573364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37715113162994385,
      "epoch": 13.82,
      "learning_rate": 4.386349405134628e-06,
      "loss": 0.3843,
      "step": 16344,
      "task_loss": 0.3244728147983551
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5009396076202393,
      "epoch": 13.82,
      "learning_rate": 4.383218534752662e-06,
      "loss": 0.4573,
      "step": 16345,
      "task_loss": 0.5720166563987732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40646758675575256,
      "epoch": 13.82,
      "learning_rate": 4.3800876643706954e-06,
      "loss": 0.4773,
      "step": 16346,
      "task_loss": 0.3576285243034363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5641888976097107,
      "epoch": 13.82,
      "learning_rate": 4.376956793988729e-06,
      "loss": 0.5419,
      "step": 16347,
      "task_loss": 0.5168100595474243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.213420569896698,
      "epoch": 13.82,
      "learning_rate": 4.373825923606762e-06,
      "loss": 0.379,
      "step": 16348,
      "task_loss": 1.0574709177017212
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3075288236141205,
      "epoch": 13.82,
      "learning_rate": 4.370695053224797e-06,
      "loss": 0.421,
      "step": 16349,
      "task_loss": 0.19175289571285248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4347866177558899,
      "epoch": 13.82,
      "learning_rate": 4.367564182842831e-06,
      "loss": 0.368,
      "step": 16350,
      "task_loss": 0.4078078269958496
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3799450695514679,
      "epoch": 13.82,
      "learning_rate": 4.3644333124608645e-06,
      "loss": 0.4782,
      "step": 16351,
      "task_loss": 0.25562557578086853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43248450756073,
      "epoch": 13.82,
      "learning_rate": 4.361302442078898e-06,
      "loss": 0.3809,
      "step": 16352,
      "task_loss": 1.5408353805541992
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6356050968170166,
      "epoch": 13.82,
      "learning_rate": 4.358171571696932e-06,
      "loss": 0.5664,
      "step": 16353,
      "task_loss": 1.0911341905593872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4800657331943512,
      "epoch": 13.82,
      "learning_rate": 4.355040701314966e-06,
      "loss": 0.4599,
      "step": 16354,
      "task_loss": 1.2980082035064697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5321740508079529,
      "epoch": 13.82,
      "learning_rate": 4.351909830932999e-06,
      "loss": 0.547,
      "step": 16355,
      "task_loss": 0.6969826221466064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2589637041091919,
      "epoch": 13.83,
      "learning_rate": 4.3487789605510336e-06,
      "loss": 0.5362,
      "step": 16356,
      "task_loss": 0.3361469507217407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26116102933883667,
      "epoch": 13.83,
      "learning_rate": 4.345648090169067e-06,
      "loss": 0.3537,
      "step": 16357,
      "task_loss": 0.366035521030426
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24583424627780914,
      "epoch": 13.83,
      "learning_rate": 4.342517219787101e-06,
      "loss": 0.3076,
      "step": 16358,
      "task_loss": 0.08042329549789429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2815743684768677,
      "epoch": 13.83,
      "learning_rate": 4.339386349405135e-06,
      "loss": 0.3462,
      "step": 16359,
      "task_loss": 0.17922364175319672
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3644930124282837,
      "epoch": 13.83,
      "learning_rate": 4.336255479023168e-06,
      "loss": 0.3812,
      "step": 16360,
      "task_loss": 0.4728233218193054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41069239377975464,
      "epoch": 13.83,
      "learning_rate": 4.333124608641203e-06,
      "loss": 0.449,
      "step": 16361,
      "task_loss": 0.5288141369819641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30040180683135986,
      "epoch": 13.83,
      "learning_rate": 4.329993738259236e-06,
      "loss": 0.4305,
      "step": 16362,
      "task_loss": 0.48470956087112427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38320159912109375,
      "epoch": 13.83,
      "learning_rate": 4.3268628678772704e-06,
      "loss": 0.4219,
      "step": 16363,
      "task_loss": 0.37542587518692017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5715799331665039,
      "epoch": 13.83,
      "learning_rate": 4.323731997495304e-06,
      "loss": 0.4601,
      "step": 16364,
      "task_loss": 0.7925469279289246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4784640669822693,
      "epoch": 13.83,
      "learning_rate": 4.320601127113337e-06,
      "loss": 0.3973,
      "step": 16365,
      "task_loss": 0.42777585983276367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31515640020370483,
      "epoch": 13.83,
      "learning_rate": 4.317470256731372e-06,
      "loss": 0.3928,
      "step": 16366,
      "task_loss": 0.448232501745224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4145112931728363,
      "epoch": 13.83,
      "learning_rate": 4.314339386349405e-06,
      "loss": 0.4225,
      "step": 16367,
      "task_loss": 1.0592350959777832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7358428239822388,
      "epoch": 13.84,
      "learning_rate": 4.311208515967439e-06,
      "loss": 0.4222,
      "step": 16368,
      "task_loss": 0.9035835266113281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.374377578496933,
      "epoch": 13.84,
      "learning_rate": 4.308077645585473e-06,
      "loss": 0.4742,
      "step": 16369,
      "task_loss": 0.7284926772117615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47864553332328796,
      "epoch": 13.84,
      "learning_rate": 4.304946775203507e-06,
      "loss": 0.4418,
      "step": 16370,
      "task_loss": 0.5733485221862793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3952482342720032,
      "epoch": 13.84,
      "learning_rate": 4.301815904821541e-06,
      "loss": 0.4138,
      "step": 16371,
      "task_loss": 0.40103816986083984
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4724307358264923,
      "epoch": 13.84,
      "learning_rate": 4.298685034439574e-06,
      "loss": 0.4537,
      "step": 16372,
      "task_loss": 1.5754636526107788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7828083038330078,
      "epoch": 13.84,
      "learning_rate": 4.295554164057608e-06,
      "loss": 0.5173,
      "step": 16373,
      "task_loss": 0.571670651435852
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20353356003761292,
      "epoch": 13.84,
      "learning_rate": 4.292423293675642e-06,
      "loss": 0.4332,
      "step": 16374,
      "task_loss": 0.15196658670902252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5156834721565247,
      "epoch": 13.84,
      "learning_rate": 4.289292423293676e-06,
      "loss": 0.5454,
      "step": 16375,
      "task_loss": 0.8081533312797546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37526577711105347,
      "epoch": 13.84,
      "learning_rate": 4.28616155291171e-06,
      "loss": 0.4387,
      "step": 16376,
      "task_loss": 0.07030580937862396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4734323024749756,
      "epoch": 13.84,
      "learning_rate": 4.283030682529743e-06,
      "loss": 0.4227,
      "step": 16377,
      "task_loss": 1.4422837495803833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49870431423187256,
      "epoch": 13.84,
      "learning_rate": 4.279899812147777e-06,
      "loss": 0.4738,
      "step": 16378,
      "task_loss": 0.4868346154689789
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2777520418167114,
      "epoch": 13.84,
      "learning_rate": 4.276768941765811e-06,
      "loss": 0.2963,
      "step": 16379,
      "task_loss": 0.607688307762146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5048487186431885,
      "epoch": 13.85,
      "learning_rate": 4.273638071383845e-06,
      "loss": 0.4523,
      "step": 16380,
      "task_loss": 0.7202870845794678
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2595664858818054,
      "epoch": 13.85,
      "learning_rate": 4.270507201001879e-06,
      "loss": 0.4645,
      "step": 16381,
      "task_loss": 1.3175216913223267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3094375729560852,
      "epoch": 13.85,
      "learning_rate": 4.267376330619912e-06,
      "loss": 0.3247,
      "step": 16382,
      "task_loss": 0.5183826088905334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45456463098526,
      "epoch": 13.85,
      "learning_rate": 4.264245460237947e-06,
      "loss": 0.5026,
      "step": 16383,
      "task_loss": 1.0426607131958008
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.279690682888031,
      "epoch": 13.85,
      "learning_rate": 4.26111458985598e-06,
      "loss": 0.4948,
      "step": 16384,
      "task_loss": 0.3233312964439392
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191485285758972,
      "epoch": 13.85,
      "learning_rate": 4.257983719474014e-06,
      "loss": 0.4543,
      "step": 16385,
      "task_loss": 0.41420117020606995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5587066411972046,
      "epoch": 13.85,
      "learning_rate": 4.254852849092047e-06,
      "loss": 0.4378,
      "step": 16386,
      "task_loss": 0.5393715500831604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6819663047790527,
      "epoch": 13.85,
      "learning_rate": 4.251721978710082e-06,
      "loss": 0.513,
      "step": 16387,
      "task_loss": 1.1558575630187988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7216792106628418,
      "epoch": 13.85,
      "learning_rate": 4.248591108328116e-06,
      "loss": 0.5798,
      "step": 16388,
      "task_loss": 0.49170175194740295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.284203439950943,
      "epoch": 13.85,
      "learning_rate": 4.245460237946149e-06,
      "loss": 0.3856,
      "step": 16389,
      "task_loss": 0.15931914746761322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5674620866775513,
      "epoch": 13.85,
      "learning_rate": 4.242329367564183e-06,
      "loss": 0.5153,
      "step": 16390,
      "task_loss": 0.8125632405281067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46802452206611633,
      "epoch": 13.85,
      "learning_rate": 4.239198497182217e-06,
      "loss": 0.4984,
      "step": 16391,
      "task_loss": 0.5672407150268555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5708935856819153,
      "epoch": 13.86,
      "learning_rate": 4.2360676268002505e-06,
      "loss": 0.4774,
      "step": 16392,
      "task_loss": 1.192036509513855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5251849889755249,
      "epoch": 13.86,
      "learning_rate": 4.232936756418285e-06,
      "loss": 0.4463,
      "step": 16393,
      "task_loss": 1.0511521100997925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3022526800632477,
      "epoch": 13.86,
      "learning_rate": 4.229805886036318e-06,
      "loss": 0.4,
      "step": 16394,
      "task_loss": 0.08798215538263321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4452265501022339,
      "epoch": 13.86,
      "learning_rate": 4.226675015654352e-06,
      "loss": 0.3752,
      "step": 16395,
      "task_loss": 0.4679177403450012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36952778697013855,
      "epoch": 13.86,
      "learning_rate": 4.223544145272386e-06,
      "loss": 0.4353,
      "step": 16396,
      "task_loss": 0.44175487756729126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1903570592403412,
      "epoch": 13.86,
      "learning_rate": 4.22041327489042e-06,
      "loss": 0.3884,
      "step": 16397,
      "task_loss": 0.6545342206954956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5070984959602356,
      "epoch": 13.86,
      "learning_rate": 4.217282404508453e-06,
      "loss": 0.4656,
      "step": 16398,
      "task_loss": 1.0730788707733154
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4292685389518738,
      "epoch": 13.86,
      "learning_rate": 4.214151534126487e-06,
      "loss": 0.4392,
      "step": 16399,
      "task_loss": 0.34573793411254883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6943142414093018,
      "epoch": 13.86,
      "learning_rate": 4.211020663744522e-06,
      "loss": 0.6633,
      "step": 16400,
      "task_loss": 0.7107977271080017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41859251260757446,
      "epoch": 13.86,
      "learning_rate": 4.207889793362555e-06,
      "loss": 0.3518,
      "step": 16401,
      "task_loss": 1.1358773708343506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4092459976673126,
      "epoch": 13.86,
      "learning_rate": 4.204758922980589e-06,
      "loss": 0.4456,
      "step": 16402,
      "task_loss": 0.8761306405067444
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31295037269592285,
      "epoch": 13.87,
      "learning_rate": 4.201628052598622e-06,
      "loss": 0.3983,
      "step": 16403,
      "task_loss": 0.6453520655632019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34894609451293945,
      "epoch": 13.87,
      "learning_rate": 4.1984971822166565e-06,
      "loss": 0.3495,
      "step": 16404,
      "task_loss": 0.51539146900177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7710849046707153,
      "epoch": 13.87,
      "learning_rate": 4.195366311834691e-06,
      "loss": 0.5835,
      "step": 16405,
      "task_loss": 1.6490339040756226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5197281241416931,
      "epoch": 13.87,
      "learning_rate": 4.192235441452724e-06,
      "loss": 0.4688,
      "step": 16406,
      "task_loss": 0.4887680113315582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31838738918304443,
      "epoch": 13.87,
      "learning_rate": 4.189104571070758e-06,
      "loss": 0.3681,
      "step": 16407,
      "task_loss": 0.33342036604881287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38988184928894043,
      "epoch": 13.87,
      "learning_rate": 4.185973700688792e-06,
      "loss": 0.3805,
      "step": 16408,
      "task_loss": 0.5421009659767151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23000100255012512,
      "epoch": 13.87,
      "learning_rate": 4.1828428303068255e-06,
      "loss": 0.415,
      "step": 16409,
      "task_loss": 0.10358544439077377
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3967306613922119,
      "epoch": 13.87,
      "learning_rate": 4.179711959924859e-06,
      "loss": 0.4525,
      "step": 16410,
      "task_loss": 0.41531574726104736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3480069637298584,
      "epoch": 13.87,
      "learning_rate": 4.1765810895428925e-06,
      "loss": 0.3271,
      "step": 16411,
      "task_loss": 0.4528176188468933
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.594963550567627,
      "epoch": 13.87,
      "learning_rate": 4.173450219160927e-06,
      "loss": 0.5086,
      "step": 16412,
      "task_loss": 0.7242487072944641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3708975911140442,
      "epoch": 13.87,
      "learning_rate": 4.170319348778961e-06,
      "loss": 0.3852,
      "step": 16413,
      "task_loss": 0.37582170963287354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5560828447341919,
      "epoch": 13.87,
      "learning_rate": 4.167188478396995e-06,
      "loss": 0.4752,
      "step": 16414,
      "task_loss": 0.8141415119171143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2634339928627014,
      "epoch": 13.88,
      "learning_rate": 4.164057608015028e-06,
      "loss": 0.4742,
      "step": 16415,
      "task_loss": 0.02555954083800316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25132572650909424,
      "epoch": 13.88,
      "learning_rate": 4.1609267376330616e-06,
      "loss": 0.3879,
      "step": 16416,
      "task_loss": 0.8732253909111023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21217580139636993,
      "epoch": 13.88,
      "learning_rate": 4.157795867251096e-06,
      "loss": 0.3854,
      "step": 16417,
      "task_loss": 0.243172749876976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5211279392242432,
      "epoch": 13.88,
      "learning_rate": 4.15466499686913e-06,
      "loss": 0.4773,
      "step": 16418,
      "task_loss": 0.7412530183792114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3816518485546112,
      "epoch": 13.88,
      "learning_rate": 4.151534126487164e-06,
      "loss": 0.3567,
      "step": 16419,
      "task_loss": 0.5757445693016052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5031436085700989,
      "epoch": 13.88,
      "learning_rate": 4.148403256105197e-06,
      "loss": 0.3918,
      "step": 16420,
      "task_loss": 0.7691917419433594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4246860146522522,
      "epoch": 13.88,
      "learning_rate": 4.1452723857232315e-06,
      "loss": 0.4397,
      "step": 16421,
      "task_loss": 0.4163333773612976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26309505105018616,
      "epoch": 13.88,
      "learning_rate": 4.142141515341265e-06,
      "loss": 0.5483,
      "step": 16422,
      "task_loss": 0.4224494695663452
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4790506660938263,
      "epoch": 13.88,
      "learning_rate": 4.1390106449592984e-06,
      "loss": 0.3991,
      "step": 16423,
      "task_loss": 0.3746579885482788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42022189497947693,
      "epoch": 13.88,
      "learning_rate": 4.135879774577333e-06,
      "loss": 0.4041,
      "step": 16424,
      "task_loss": 0.4441361725330353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40214312076568604,
      "epoch": 13.88,
      "learning_rate": 4.132748904195367e-06,
      "loss": 0.5048,
      "step": 16425,
      "task_loss": 0.5997905135154724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26863881945610046,
      "epoch": 13.88,
      "learning_rate": 4.1296180338134006e-06,
      "loss": 0.3389,
      "step": 16426,
      "task_loss": 0.037727512419223785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6993637084960938,
      "epoch": 13.89,
      "learning_rate": 4.126487163431434e-06,
      "loss": 0.4959,
      "step": 16427,
      "task_loss": 0.7847298383712769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48367661237716675,
      "epoch": 13.89,
      "learning_rate": 4.1233562930494675e-06,
      "loss": 0.4845,
      "step": 16428,
      "task_loss": 0.6269140839576721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45781227946281433,
      "epoch": 13.89,
      "learning_rate": 4.120225422667502e-06,
      "loss": 0.479,
      "step": 16429,
      "task_loss": 0.33854055404663086
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6184714436531067,
      "epoch": 13.89,
      "learning_rate": 4.117094552285536e-06,
      "loss": 0.4974,
      "step": 16430,
      "task_loss": 0.8755799531936646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2719985842704773,
      "epoch": 13.89,
      "learning_rate": 4.11396368190357e-06,
      "loss": 0.418,
      "step": 16431,
      "task_loss": 0.46740278601646423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22278369963169098,
      "epoch": 13.89,
      "learning_rate": 4.110832811521603e-06,
      "loss": 0.4172,
      "step": 16432,
      "task_loss": 0.4937216341495514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5941270589828491,
      "epoch": 13.89,
      "learning_rate": 4.107701941139637e-06,
      "loss": 0.4397,
      "step": 16433,
      "task_loss": 0.8595921397209167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29090672731399536,
      "epoch": 13.89,
      "learning_rate": 4.104571070757671e-06,
      "loss": 0.4364,
      "step": 16434,
      "task_loss": 0.16140012443065643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29076820611953735,
      "epoch": 13.89,
      "learning_rate": 4.101440200375704e-06,
      "loss": 0.368,
      "step": 16435,
      "task_loss": 0.34101539850234985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.666029691696167,
      "epoch": 13.89,
      "learning_rate": 4.098309329993739e-06,
      "loss": 0.5121,
      "step": 16436,
      "task_loss": 0.9235875010490417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.518000602722168,
      "epoch": 13.89,
      "learning_rate": 4.095178459611772e-06,
      "loss": 0.4492,
      "step": 16437,
      "task_loss": 0.5727716684341431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5692358613014221,
      "epoch": 13.89,
      "learning_rate": 4.0920475892298065e-06,
      "loss": 0.4103,
      "step": 16438,
      "task_loss": 0.6539928913116455
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3381466269493103,
      "epoch": 13.9,
      "learning_rate": 4.08891671884784e-06,
      "loss": 0.3204,
      "step": 16439,
      "task_loss": 0.07513851672410965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29208195209503174,
      "epoch": 13.9,
      "learning_rate": 4.0857858484658734e-06,
      "loss": 0.344,
      "step": 16440,
      "task_loss": 0.20675575733184814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2953278720378876,
      "epoch": 13.9,
      "learning_rate": 4.082654978083907e-06,
      "loss": 0.4478,
      "step": 16441,
      "task_loss": 0.3635328710079193
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6570925712585449,
      "epoch": 13.9,
      "learning_rate": 4.079524107701941e-06,
      "loss": 0.3777,
      "step": 16442,
      "task_loss": 0.7093407511711121
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23915383219718933,
      "epoch": 13.9,
      "learning_rate": 4.0763932373199756e-06,
      "loss": 0.3568,
      "step": 16443,
      "task_loss": 0.30426958203315735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36913424730300903,
      "epoch": 13.9,
      "learning_rate": 4.073262366938009e-06,
      "loss": 0.4566,
      "step": 16444,
      "task_loss": 0.4190140664577484
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2664641737937927,
      "epoch": 13.9,
      "learning_rate": 4.0701314965560425e-06,
      "loss": 0.3012,
      "step": 16445,
      "task_loss": 0.07489842921495438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35399144887924194,
      "epoch": 13.9,
      "learning_rate": 4.067000626174077e-06,
      "loss": 0.4122,
      "step": 16446,
      "task_loss": 0.8306644558906555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44773802161216736,
      "epoch": 13.9,
      "learning_rate": 4.06386975579211e-06,
      "loss": 0.433,
      "step": 16447,
      "task_loss": 1.1180543899536133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42489832639694214,
      "epoch": 13.9,
      "learning_rate": 4.060738885410145e-06,
      "loss": 0.4244,
      "step": 16448,
      "task_loss": 0.36702316999435425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22299036383628845,
      "epoch": 13.9,
      "learning_rate": 4.057608015028178e-06,
      "loss": 0.3843,
      "step": 16449,
      "task_loss": 0.3584781885147095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.572941780090332,
      "epoch": 13.9,
      "learning_rate": 4.054477144646212e-06,
      "loss": 0.5273,
      "step": 16450,
      "task_loss": 0.9274557828903198
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2975853383541107,
      "epoch": 13.91,
      "learning_rate": 4.051346274264246e-06,
      "loss": 0.3699,
      "step": 16451,
      "task_loss": 0.563959538936615
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27018871903419495,
      "epoch": 13.91,
      "learning_rate": 4.048215403882279e-06,
      "loss": 0.3597,
      "step": 16452,
      "task_loss": 0.7062305808067322
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5194599628448486,
      "epoch": 13.91,
      "learning_rate": 4.045084533500313e-06,
      "loss": 0.379,
      "step": 16453,
      "task_loss": 0.45913466811180115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5736343264579773,
      "epoch": 13.91,
      "learning_rate": 4.041953663118346e-06,
      "loss": 0.4053,
      "step": 16454,
      "task_loss": 1.0039979219436646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38389283418655396,
      "epoch": 13.91,
      "learning_rate": 4.0388227927363815e-06,
      "loss": 0.3554,
      "step": 16455,
      "task_loss": 0.06669417768716812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6706545352935791,
      "epoch": 13.91,
      "learning_rate": 4.035691922354415e-06,
      "loss": 0.4858,
      "step": 16456,
      "task_loss": 0.9371312856674194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30056464672088623,
      "epoch": 13.91,
      "learning_rate": 4.0325610519724485e-06,
      "loss": 0.4105,
      "step": 16457,
      "task_loss": 0.17415913939476013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33330732583999634,
      "epoch": 13.91,
      "learning_rate": 4.029430181590482e-06,
      "loss": 0.4222,
      "step": 16458,
      "task_loss": 0.4060627222061157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32789161801338196,
      "epoch": 13.91,
      "learning_rate": 4.026299311208516e-06,
      "loss": 0.3559,
      "step": 16459,
      "task_loss": 0.31982916593551636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3982716202735901,
      "epoch": 13.91,
      "learning_rate": 4.02316844082655e-06,
      "loss": 0.395,
      "step": 16460,
      "task_loss": 0.6655773520469666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27375710010528564,
      "epoch": 13.91,
      "learning_rate": 4.020037570444584e-06,
      "loss": 0.4235,
      "step": 16461,
      "task_loss": 0.7664551138877869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36737364530563354,
      "epoch": 13.91,
      "learning_rate": 4.0169067000626175e-06,
      "loss": 0.3351,
      "step": 16462,
      "task_loss": 0.27944961190223694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4980902075767517,
      "epoch": 13.92,
      "learning_rate": 4.013775829680652e-06,
      "loss": 0.4748,
      "step": 16463,
      "task_loss": 0.5740262866020203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2667354643344879,
      "epoch": 13.92,
      "learning_rate": 4.010644959298685e-06,
      "loss": 0.4886,
      "step": 16464,
      "task_loss": 0.7052434682846069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3154122531414032,
      "epoch": 13.92,
      "learning_rate": 4.007514088916719e-06,
      "loss": 0.4562,
      "step": 16465,
      "task_loss": 0.5833793878555298
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5064323544502258,
      "epoch": 13.92,
      "learning_rate": 4.004383218534752e-06,
      "loss": 0.5355,
      "step": 16466,
      "task_loss": 0.660574734210968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8409949541091919,
      "epoch": 13.92,
      "learning_rate": 4.001252348152787e-06,
      "loss": 0.5747,
      "step": 16467,
      "task_loss": 1.1016498804092407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3607318103313446,
      "epoch": 13.92,
      "learning_rate": 3.998121477770821e-06,
      "loss": 0.4592,
      "step": 16468,
      "task_loss": 0.06994148343801498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5086803436279297,
      "epoch": 13.92,
      "learning_rate": 3.994990607388854e-06,
      "loss": 0.3887,
      "step": 16469,
      "task_loss": 0.6707781553268433
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40276798605918884,
      "epoch": 13.92,
      "learning_rate": 3.991859737006888e-06,
      "loss": 0.3785,
      "step": 16470,
      "task_loss": 1.6727322340011597
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4985622763633728,
      "epoch": 13.92,
      "learning_rate": 3.988728866624921e-06,
      "loss": 0.4575,
      "step": 16471,
      "task_loss": 0.059138067066669464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5977975130081177,
      "epoch": 13.92,
      "learning_rate": 3.985597996242956e-06,
      "loss": 0.4677,
      "step": 16472,
      "task_loss": 0.7886539101600647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37768712639808655,
      "epoch": 13.92,
      "learning_rate": 3.98246712586099e-06,
      "loss": 0.4553,
      "step": 16473,
      "task_loss": 1.3670716285705566
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3611014485359192,
      "epoch": 13.93,
      "learning_rate": 3.9793362554790235e-06,
      "loss": 0.3443,
      "step": 16474,
      "task_loss": 0.5837692022323608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5468282699584961,
      "epoch": 13.93,
      "learning_rate": 3.976205385097057e-06,
      "loss": 0.5484,
      "step": 16475,
      "task_loss": 0.4883539080619812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42070135474205017,
      "epoch": 13.93,
      "learning_rate": 3.973074514715091e-06,
      "loss": 0.3951,
      "step": 16476,
      "task_loss": 0.08386661857366562
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5144878625869751,
      "epoch": 13.93,
      "learning_rate": 3.969943644333125e-06,
      "loss": 0.4239,
      "step": 16477,
      "task_loss": 0.39162734150886536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5920753479003906,
      "epoch": 13.93,
      "learning_rate": 3.966812773951158e-06,
      "loss": 0.5283,
      "step": 16478,
      "task_loss": 1.3184375762939453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7936543226242065,
      "epoch": 13.93,
      "learning_rate": 3.9636819035691925e-06,
      "loss": 0.4602,
      "step": 16479,
      "task_loss": 0.2932255268096924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187294483184814,
      "epoch": 13.93,
      "learning_rate": 3.960551033187226e-06,
      "loss": 0.3306,
      "step": 16480,
      "task_loss": 1.1131318807601929
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18763676285743713,
      "epoch": 13.93,
      "learning_rate": 3.95742016280526e-06,
      "loss": 0.3094,
      "step": 16481,
      "task_loss": 0.5515356659889221
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3793075680732727,
      "epoch": 13.93,
      "learning_rate": 3.954289292423294e-06,
      "loss": 0.3369,
      "step": 16482,
      "task_loss": 0.27310505509376526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42201298475265503,
      "epoch": 13.93,
      "learning_rate": 3.951158422041327e-06,
      "loss": 0.486,
      "step": 16483,
      "task_loss": 0.674584150314331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4883400797843933,
      "epoch": 13.93,
      "learning_rate": 3.948027551659362e-06,
      "loss": 0.5081,
      "step": 16484,
      "task_loss": 1.082183837890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2836020886898041,
      "epoch": 13.93,
      "learning_rate": 3.944896681277396e-06,
      "loss": 0.3302,
      "step": 16485,
      "task_loss": 0.4353885352611542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3587155342102051,
      "epoch": 13.94,
      "learning_rate": 3.941765810895429e-06,
      "loss": 0.4612,
      "step": 16486,
      "task_loss": 0.3200996518135071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3966309726238251,
      "epoch": 13.94,
      "learning_rate": 3.938634940513463e-06,
      "loss": 0.5157,
      "step": 16487,
      "task_loss": 0.4173533022403717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6567266583442688,
      "epoch": 13.94,
      "learning_rate": 3.935504070131496e-06,
      "loss": 0.4928,
      "step": 16488,
      "task_loss": 1.1690829992294312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.13989828526973724,
      "epoch": 13.94,
      "learning_rate": 3.932373199749531e-06,
      "loss": 0.3816,
      "step": 16489,
      "task_loss": 0.030914224684238434
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5096784234046936,
      "epoch": 13.94,
      "learning_rate": 3.929242329367564e-06,
      "loss": 0.3761,
      "step": 16490,
      "task_loss": 1.2862626314163208
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37493646144866943,
      "epoch": 13.94,
      "learning_rate": 3.9261114589855985e-06,
      "loss": 0.3835,
      "step": 16491,
      "task_loss": 1.4589217901229858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5190935134887695,
      "epoch": 13.94,
      "learning_rate": 3.922980588603632e-06,
      "loss": 0.4367,
      "step": 16492,
      "task_loss": 0.9683103561401367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34295403957366943,
      "epoch": 13.94,
      "learning_rate": 3.919849718221666e-06,
      "loss": 0.4409,
      "step": 16493,
      "task_loss": 0.6002787947654724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47701555490493774,
      "epoch": 13.94,
      "learning_rate": 3.9167188478397e-06,
      "loss": 0.4094,
      "step": 16494,
      "task_loss": 0.26211801171302795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4160897135734558,
      "epoch": 13.94,
      "learning_rate": 3.913587977457733e-06,
      "loss": 0.4071,
      "step": 16495,
      "task_loss": 0.5472652912139893
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2972728908061981,
      "epoch": 13.94,
      "learning_rate": 3.910457107075767e-06,
      "loss": 0.4027,
      "step": 16496,
      "task_loss": 0.3433762192726135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5884740948677063,
      "epoch": 13.94,
      "learning_rate": 3.907326236693801e-06,
      "loss": 0.3662,
      "step": 16497,
      "task_loss": 0.9965288639068604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3567471206188202,
      "epoch": 13.95,
      "learning_rate": 3.904195366311835e-06,
      "loss": 0.4291,
      "step": 16498,
      "task_loss": 0.7490228414535522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2886922359466553,
      "epoch": 13.95,
      "learning_rate": 3.901064495929869e-06,
      "loss": 0.4088,
      "step": 16499,
      "task_loss": 0.5343332886695862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5600884556770325,
      "epoch": 13.95,
      "learning_rate": 3.897933625547902e-06,
      "loss": 0.5472,
      "step": 16500,
      "task_loss": 0.36970171332359314
    },
    {
      "epoch": 13.95,
      "eval_accuracy": 0.9134257425742575,
      "eval_loss": 0.303165465593338,
      "eval_runtime": 206.1169,
      "eval_samples_per_second": 122.503,
      "eval_steps_per_second": 0.961,
      "step": 16500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3510187268257141,
      "epoch": 13.95,
      "learning_rate": 3.894802755165937e-06,
      "loss": 0.3965,
      "step": 16501,
      "task_loss": 0.5386896729469299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2904305160045624,
      "epoch": 13.95,
      "learning_rate": 3.89167188478397e-06,
      "loss": 0.3947,
      "step": 16502,
      "task_loss": 0.35616934299468994
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5954498052597046,
      "epoch": 13.95,
      "learning_rate": 3.8885410144020036e-06,
      "loss": 0.4583,
      "step": 16503,
      "task_loss": 0.86827152967453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.565775990486145,
      "epoch": 13.95,
      "learning_rate": 3.885410144020038e-06,
      "loss": 0.4416,
      "step": 16504,
      "task_loss": 0.5518581867218018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5285365581512451,
      "epoch": 13.95,
      "learning_rate": 3.882279273638071e-06,
      "loss": 0.6178,
      "step": 16505,
      "task_loss": 1.21390700340271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5828710198402405,
      "epoch": 13.95,
      "learning_rate": 3.879148403256106e-06,
      "loss": 0.486,
      "step": 16506,
      "task_loss": 0.9648109078407288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26787102222442627,
      "epoch": 13.95,
      "learning_rate": 3.876017532874139e-06,
      "loss": 0.3052,
      "step": 16507,
      "task_loss": 0.3682158291339874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33363527059555054,
      "epoch": 13.95,
      "learning_rate": 3.872886662492173e-06,
      "loss": 0.4577,
      "step": 16508,
      "task_loss": 0.3041831851005554
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31259801983833313,
      "epoch": 13.95,
      "learning_rate": 3.869755792110206e-06,
      "loss": 0.4708,
      "step": 16509,
      "task_loss": 0.28872066736221313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5248394012451172,
      "epoch": 13.96,
      "learning_rate": 3.866624921728241e-06,
      "loss": 0.3653,
      "step": 16510,
      "task_loss": 0.30287033319473267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38704460859298706,
      "epoch": 13.96,
      "learning_rate": 3.863494051346275e-06,
      "loss": 0.34,
      "step": 16511,
      "task_loss": 0.2172536849975586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2280166745185852,
      "epoch": 13.96,
      "learning_rate": 3.860363180964308e-06,
      "loss": 0.3367,
      "step": 16512,
      "task_loss": 0.6053559184074402
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5263766646385193,
      "epoch": 13.96,
      "learning_rate": 3.857232310582342e-06,
      "loss": 0.5527,
      "step": 16513,
      "task_loss": 0.7904815673828125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.513543426990509,
      "epoch": 13.96,
      "learning_rate": 3.854101440200376e-06,
      "loss": 0.4037,
      "step": 16514,
      "task_loss": 0.12018617987632751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40749165415763855,
      "epoch": 13.96,
      "learning_rate": 3.8509705698184095e-06,
      "loss": 0.4392,
      "step": 16515,
      "task_loss": 0.588556706905365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4315241575241089,
      "epoch": 13.96,
      "learning_rate": 3.847839699436444e-06,
      "loss": 0.3632,
      "step": 16516,
      "task_loss": 1.120820164680481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48848769068717957,
      "epoch": 13.96,
      "learning_rate": 3.844708829054477e-06,
      "loss": 0.4751,
      "step": 16517,
      "task_loss": 0.2652299702167511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3446184992790222,
      "epoch": 13.96,
      "learning_rate": 3.841577958672511e-06,
      "loss": 0.3804,
      "step": 16518,
      "task_loss": 0.5100160241127014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46127164363861084,
      "epoch": 13.96,
      "learning_rate": 3.838447088290545e-06,
      "loss": 0.4278,
      "step": 16519,
      "task_loss": 0.5272716879844666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5187241435050964,
      "epoch": 13.96,
      "learning_rate": 3.8353162179085786e-06,
      "loss": 0.4835,
      "step": 16520,
      "task_loss": 0.987303614616394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46849220991134644,
      "epoch": 13.96,
      "learning_rate": 3.832185347526612e-06,
      "loss": 0.6267,
      "step": 16521,
      "task_loss": 0.5234523415565491
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5844963788986206,
      "epoch": 13.97,
      "learning_rate": 3.829054477144646e-06,
      "loss": 0.4931,
      "step": 16522,
      "task_loss": 0.5933325886726379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5102123022079468,
      "epoch": 13.97,
      "learning_rate": 3.825923606762681e-06,
      "loss": 0.5696,
      "step": 16523,
      "task_loss": 0.5118111371994019
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33932697772979736,
      "epoch": 13.97,
      "learning_rate": 3.822792736380714e-06,
      "loss": 0.4579,
      "step": 16524,
      "task_loss": 0.6113328337669373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4034292995929718,
      "epoch": 13.97,
      "learning_rate": 3.819661865998748e-06,
      "loss": 0.4254,
      "step": 16525,
      "task_loss": 0.462442547082901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6585119962692261,
      "epoch": 13.97,
      "learning_rate": 3.816530995616781e-06,
      "loss": 0.5524,
      "step": 16526,
      "task_loss": 0.983272910118103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5623289346694946,
      "epoch": 13.97,
      "learning_rate": 3.813400125234815e-06,
      "loss": 0.4588,
      "step": 16527,
      "task_loss": 1.0010493993759155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42672839760780334,
      "epoch": 13.97,
      "learning_rate": 3.8102692548528498e-06,
      "loss": 0.5814,
      "step": 16528,
      "task_loss": 1.2609426975250244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3716003894805908,
      "epoch": 13.97,
      "learning_rate": 3.8071383844708832e-06,
      "loss": 0.4841,
      "step": 16529,
      "task_loss": 0.9383043050765991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42990797758102417,
      "epoch": 13.97,
      "learning_rate": 3.804007514088917e-06,
      "loss": 0.6128,
      "step": 16530,
      "task_loss": 0.13007552921772003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21334561705589294,
      "epoch": 13.97,
      "learning_rate": 3.8008766437069506e-06,
      "loss": 0.2809,
      "step": 16531,
      "task_loss": 0.7723675966262817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38261154294013977,
      "epoch": 13.97,
      "learning_rate": 3.7977457733249845e-06,
      "loss": 0.3647,
      "step": 16532,
      "task_loss": 0.5644190311431885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25132542848587036,
      "epoch": 13.97,
      "learning_rate": 3.794614902943018e-06,
      "loss": 0.3815,
      "step": 16533,
      "task_loss": 1.2010051012039185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6533140540122986,
      "epoch": 13.98,
      "learning_rate": 3.7914840325610523e-06,
      "loss": 0.4724,
      "step": 16534,
      "task_loss": 0.3099665641784668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21690885722637177,
      "epoch": 13.98,
      "learning_rate": 3.788353162179086e-06,
      "loss": 0.4445,
      "step": 16535,
      "task_loss": 0.17909343540668488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3880302309989929,
      "epoch": 13.98,
      "learning_rate": 3.7852222917971197e-06,
      "loss": 0.5118,
      "step": 16536,
      "task_loss": 0.3290344476699829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4691469669342041,
      "epoch": 13.98,
      "learning_rate": 3.7820914214151536e-06,
      "loss": 0.5483,
      "step": 16537,
      "task_loss": 0.17622515559196472
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4048526883125305,
      "epoch": 13.98,
      "learning_rate": 3.7789605510331875e-06,
      "loss": 0.4387,
      "step": 16538,
      "task_loss": 0.78774094581604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30605828762054443,
      "epoch": 13.98,
      "learning_rate": 3.775829680651221e-06,
      "loss": 0.3393,
      "step": 16539,
      "task_loss": 0.6667405366897583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.534171462059021,
      "epoch": 13.98,
      "learning_rate": 3.7726988102692553e-06,
      "loss": 0.4061,
      "step": 16540,
      "task_loss": 0.1649617850780487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3081711530685425,
      "epoch": 13.98,
      "learning_rate": 3.769567939887289e-06,
      "loss": 0.4681,
      "step": 16541,
      "task_loss": 0.1653508096933365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5681308507919312,
      "epoch": 13.98,
      "learning_rate": 3.7664370695053227e-06,
      "loss": 0.6457,
      "step": 16542,
      "task_loss": 1.4154589176177979
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5178776383399963,
      "epoch": 13.98,
      "learning_rate": 3.7633061991233566e-06,
      "loss": 0.3898,
      "step": 16543,
      "task_loss": 0.7426899075508118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4773732125759125,
      "epoch": 13.98,
      "learning_rate": 3.76017532874139e-06,
      "loss": 0.3904,
      "step": 16544,
      "task_loss": 0.5238459706306458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3057432770729065,
      "epoch": 13.99,
      "learning_rate": 3.757044458359424e-06,
      "loss": 0.3086,
      "step": 16545,
      "task_loss": 0.8700815439224243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3759247064590454,
      "epoch": 13.99,
      "learning_rate": 3.7539135879774574e-06,
      "loss": 0.396,
      "step": 16546,
      "task_loss": 0.310603529214859
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3285183012485504,
      "epoch": 13.99,
      "learning_rate": 3.750782717595492e-06,
      "loss": 0.3324,
      "step": 16547,
      "task_loss": 0.4550637900829315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5848722457885742,
      "epoch": 13.99,
      "learning_rate": 3.7476518472135256e-06,
      "loss": 0.4044,
      "step": 16548,
      "task_loss": 1.561119556427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.11638437211513519,
      "epoch": 13.99,
      "learning_rate": 3.7445209768315595e-06,
      "loss": 0.3512,
      "step": 16549,
      "task_loss": 0.4469057321548462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2752820551395416,
      "epoch": 13.99,
      "learning_rate": 3.741390106449593e-06,
      "loss": 0.3577,
      "step": 16550,
      "task_loss": 0.1615479290485382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5525320172309875,
      "epoch": 13.99,
      "learning_rate": 3.738259236067627e-06,
      "loss": 0.6001,
      "step": 16551,
      "task_loss": 0.6760501265525818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5011394023895264,
      "epoch": 13.99,
      "learning_rate": 3.7351283656856604e-06,
      "loss": 0.3946,
      "step": 16552,
      "task_loss": 0.35647785663604736
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2375747114419937,
      "epoch": 13.99,
      "learning_rate": 3.7319974953036947e-06,
      "loss": 0.4729,
      "step": 16553,
      "task_loss": 0.26266565918922424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42811957001686096,
      "epoch": 13.99,
      "learning_rate": 3.7288666249217286e-06,
      "loss": 0.4135,
      "step": 16554,
      "task_loss": 0.1813298910856247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4091813266277313,
      "epoch": 13.99,
      "learning_rate": 3.725735754539762e-06,
      "loss": 0.4324,
      "step": 16555,
      "task_loss": 1.5524423122406006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4683910608291626,
      "epoch": 13.99,
      "learning_rate": 3.722604884157796e-06,
      "loss": 0.5354,
      "step": 16556,
      "task_loss": 1.3643735647201538
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22099092602729797,
      "epoch": 14.0,
      "learning_rate": 3.71947401377583e-06,
      "loss": 0.4098,
      "step": 16557,
      "task_loss": 0.510031521320343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3890569806098938,
      "epoch": 14.0,
      "learning_rate": 3.7163431433938633e-06,
      "loss": 0.3508,
      "step": 16558,
      "task_loss": 0.6692176461219788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2878648638725281,
      "epoch": 14.0,
      "learning_rate": 3.7132122730118977e-06,
      "loss": 0.3767,
      "step": 16559,
      "task_loss": 0.22526881098747253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4476144313812256,
      "epoch": 14.0,
      "learning_rate": 3.7100814026299316e-06,
      "loss": 0.4211,
      "step": 16560,
      "task_loss": 0.7798353433609009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3899519443511963,
      "epoch": 14.0,
      "learning_rate": 3.706950532247965e-06,
      "loss": 0.4344,
      "step": 16561,
      "task_loss": 0.14298665523529053
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39945894479751587,
      "epoch": 14.0,
      "learning_rate": 3.703819661865999e-06,
      "loss": 0.4087,
      "step": 16562,
      "task_loss": 0.9455318450927734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5649905204772949,
      "epoch": 14.0,
      "learning_rate": 3.7006887914840324e-06,
      "loss": 0.8504,
      "step": 16563,
      "task_loss": 0.7508898377418518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3512151539325714,
      "epoch": 14.0,
      "learning_rate": 3.6975579211020663e-06,
      "loss": 0.4178,
      "step": 16564,
      "task_loss": 0.359850138425827
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4854937791824341,
      "epoch": 14.0,
      "learning_rate": 3.6944270507201006e-06,
      "loss": 0.5599,
      "step": 16565,
      "task_loss": 0.458648681640625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3373410701751709,
      "epoch": 14.0,
      "learning_rate": 3.6912961803381345e-06,
      "loss": 0.4326,
      "step": 16566,
      "task_loss": 0.42862969636917114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.446760892868042,
      "epoch": 14.0,
      "learning_rate": 3.688165309956168e-06,
      "loss": 0.3931,
      "step": 16567,
      "task_loss": 0.24998527765274048
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4060378670692444,
      "epoch": 14.01,
      "learning_rate": 3.685034439574202e-06,
      "loss": 0.4226,
      "step": 16568,
      "task_loss": 0.5132647156715393
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5328637361526489,
      "epoch": 14.01,
      "learning_rate": 3.6819035691922354e-06,
      "loss": 0.4598,
      "step": 16569,
      "task_loss": 0.7107442617416382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3708736300468445,
      "epoch": 14.01,
      "learning_rate": 3.6787726988102693e-06,
      "loss": 0.4289,
      "step": 16570,
      "task_loss": 0.13718156516551971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19045455753803253,
      "epoch": 14.01,
      "learning_rate": 3.6756418284283036e-06,
      "loss": 0.3399,
      "step": 16571,
      "task_loss": 0.26186665892601013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38661885261535645,
      "epoch": 14.01,
      "learning_rate": 3.672510958046337e-06,
      "loss": 0.4418,
      "step": 16572,
      "task_loss": 0.09336303919553757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46085309982299805,
      "epoch": 14.01,
      "learning_rate": 3.669380087664371e-06,
      "loss": 0.4912,
      "step": 16573,
      "task_loss": 0.6248362064361572
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39125993847846985,
      "epoch": 14.01,
      "learning_rate": 3.6662492172824045e-06,
      "loss": 0.4129,
      "step": 16574,
      "task_loss": 0.3576470613479614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35053446888923645,
      "epoch": 14.01,
      "learning_rate": 3.6631183469004384e-06,
      "loss": 0.4245,
      "step": 16575,
      "task_loss": 0.6774932146072388
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37130701541900635,
      "epoch": 14.01,
      "learning_rate": 3.6599874765184723e-06,
      "loss": 0.3231,
      "step": 16576,
      "task_loss": 1.2671937942504883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3145853877067566,
      "epoch": 14.01,
      "learning_rate": 3.6568566061365066e-06,
      "loss": 0.336,
      "step": 16577,
      "task_loss": 0.3732157349586487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5715894103050232,
      "epoch": 14.01,
      "learning_rate": 3.65372573575454e-06,
      "loss": 0.4397,
      "step": 16578,
      "task_loss": 1.2308374643325806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3797394037246704,
      "epoch": 14.01,
      "learning_rate": 3.650594865372574e-06,
      "loss": 0.4008,
      "step": 16579,
      "task_loss": 0.6664953827857971
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36662253737449646,
      "epoch": 14.02,
      "learning_rate": 3.6474639949906074e-06,
      "loss": 0.3229,
      "step": 16580,
      "task_loss": 0.36640363931655884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8118773698806763,
      "epoch": 14.02,
      "learning_rate": 3.6443331246086413e-06,
      "loss": 0.5229,
      "step": 16581,
      "task_loss": 0.9511626362800598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.350055456161499,
      "epoch": 14.02,
      "learning_rate": 3.641202254226675e-06,
      "loss": 0.4366,
      "step": 16582,
      "task_loss": 0.8448593020439148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49182185530662537,
      "epoch": 14.02,
      "learning_rate": 3.638071383844709e-06,
      "loss": 0.421,
      "step": 16583,
      "task_loss": 0.5719929933547974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32098549604415894,
      "epoch": 14.02,
      "learning_rate": 3.634940513462743e-06,
      "loss": 0.4233,
      "step": 16584,
      "task_loss": 0.2322402149438858
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6126773357391357,
      "epoch": 14.02,
      "learning_rate": 3.631809643080777e-06,
      "loss": 0.4716,
      "step": 16585,
      "task_loss": 1.228800892829895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48058149218559265,
      "epoch": 14.02,
      "learning_rate": 3.6286787726988104e-06,
      "loss": 0.4471,
      "step": 16586,
      "task_loss": 1.1898515224456787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41392695903778076,
      "epoch": 14.02,
      "learning_rate": 3.6255479023168443e-06,
      "loss": 0.431,
      "step": 16587,
      "task_loss": 0.305397629737854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4891948997974396,
      "epoch": 14.02,
      "learning_rate": 3.6224170319348778e-06,
      "loss": 0.4421,
      "step": 16588,
      "task_loss": 0.16767841577529907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2990739941596985,
      "epoch": 14.02,
      "learning_rate": 3.619286161552912e-06,
      "loss": 0.4174,
      "step": 16589,
      "task_loss": 0.08373275399208069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2723061144351959,
      "epoch": 14.02,
      "learning_rate": 3.616155291170946e-06,
      "loss": 0.4133,
      "step": 16590,
      "task_loss": 0.450976699590683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35926249623298645,
      "epoch": 14.02,
      "learning_rate": 3.6130244207889795e-06,
      "loss": 0.4545,
      "step": 16591,
      "task_loss": 0.15174129605293274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6667042970657349,
      "epoch": 14.03,
      "learning_rate": 3.6098935504070134e-06,
      "loss": 0.6059,
      "step": 16592,
      "task_loss": 0.07348207384347916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2947467565536499,
      "epoch": 14.03,
      "learning_rate": 3.606762680025047e-06,
      "loss": 0.4536,
      "step": 16593,
      "task_loss": 0.9610814452171326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.15723592042922974,
      "epoch": 14.03,
      "learning_rate": 3.6036318096430807e-06,
      "loss": 0.321,
      "step": 16594,
      "task_loss": 0.039662010967731476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45034438371658325,
      "epoch": 14.03,
      "learning_rate": 3.6005009392611146e-06,
      "loss": 0.3961,
      "step": 16595,
      "task_loss": 0.5883641839027405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38538676500320435,
      "epoch": 14.03,
      "learning_rate": 3.597370068879149e-06,
      "loss": 0.4214,
      "step": 16596,
      "task_loss": 0.07230599969625473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1545482873916626,
      "epoch": 14.03,
      "learning_rate": 3.5942391984971824e-06,
      "loss": 0.3553,
      "step": 16597,
      "task_loss": 0.12961719930171967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44013333320617676,
      "epoch": 14.03,
      "learning_rate": 3.5911083281152163e-06,
      "loss": 0.53,
      "step": 16598,
      "task_loss": 0.883078396320343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34822484850883484,
      "epoch": 14.03,
      "learning_rate": 3.58797745773325e-06,
      "loss": 0.42,
      "step": 16599,
      "task_loss": 0.18502286076545715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3347959518432617,
      "epoch": 14.03,
      "learning_rate": 3.5848465873512837e-06,
      "loss": 0.4468,
      "step": 16600,
      "task_loss": 0.7294427752494812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3928414583206177,
      "epoch": 14.03,
      "learning_rate": 3.581715716969317e-06,
      "loss": 0.4402,
      "step": 16601,
      "task_loss": 0.9170352220535278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6119402050971985,
      "epoch": 14.03,
      "learning_rate": 3.578584846587352e-06,
      "loss": 0.54,
      "step": 16602,
      "task_loss": 0.89034104347229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36253711581230164,
      "epoch": 14.03,
      "learning_rate": 3.5754539762053854e-06,
      "loss": 0.3215,
      "step": 16603,
      "task_loss": 0.7398703098297119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8320568203926086,
      "epoch": 14.04,
      "learning_rate": 3.5723231058234193e-06,
      "loss": 0.5245,
      "step": 16604,
      "task_loss": 2.339993953704834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40631651878356934,
      "epoch": 14.04,
      "learning_rate": 3.5691922354414528e-06,
      "loss": 0.4659,
      "step": 16605,
      "task_loss": 0.5000026226043701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5401800274848938,
      "epoch": 14.04,
      "learning_rate": 3.5660613650594867e-06,
      "loss": 0.5105,
      "step": 16606,
      "task_loss": 1.213660478591919
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3401307165622711,
      "epoch": 14.04,
      "learning_rate": 3.56293049467752e-06,
      "loss": 0.4441,
      "step": 16607,
      "task_loss": 0.5574635863304138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6184453964233398,
      "epoch": 14.04,
      "learning_rate": 3.5597996242955545e-06,
      "loss": 0.5188,
      "step": 16608,
      "task_loss": 1.7591652870178223
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37417489290237427,
      "epoch": 14.04,
      "learning_rate": 3.5566687539135884e-06,
      "loss": 0.439,
      "step": 16609,
      "task_loss": 0.8494524955749512
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44436246156692505,
      "epoch": 14.04,
      "learning_rate": 3.553537883531622e-06,
      "loss": 0.3633,
      "step": 16610,
      "task_loss": 0.16162975132465363
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3073500394821167,
      "epoch": 14.04,
      "learning_rate": 3.5504070131496557e-06,
      "loss": 0.434,
      "step": 16611,
      "task_loss": 0.36215853691101074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31966811418533325,
      "epoch": 14.04,
      "learning_rate": 3.5472761427676892e-06,
      "loss": 0.4148,
      "step": 16612,
      "task_loss": 0.7491605281829834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4083715081214905,
      "epoch": 14.04,
      "learning_rate": 3.544145272385723e-06,
      "loss": 0.4635,
      "step": 16613,
      "task_loss": 1.0630096197128296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28911328315734863,
      "epoch": 14.04,
      "learning_rate": 3.5410144020037574e-06,
      "loss": 0.4562,
      "step": 16614,
      "task_loss": 0.3713776171207428
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2602614164352417,
      "epoch": 14.04,
      "learning_rate": 3.5378835316217913e-06,
      "loss": 0.3296,
      "step": 16615,
      "task_loss": 0.9033509492874146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31547701358795166,
      "epoch": 14.05,
      "learning_rate": 3.534752661239825e-06,
      "loss": 0.3698,
      "step": 16616,
      "task_loss": 0.4864380955696106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37545210123062134,
      "epoch": 14.05,
      "learning_rate": 3.5316217908578587e-06,
      "loss": 0.5186,
      "step": 16617,
      "task_loss": 0.21208709478378296
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44650042057037354,
      "epoch": 14.05,
      "learning_rate": 3.528490920475892e-06,
      "loss": 0.3965,
      "step": 16618,
      "task_loss": 0.2483750730752945
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36038994789123535,
      "epoch": 14.05,
      "learning_rate": 3.525360050093926e-06,
      "loss": 0.4026,
      "step": 16619,
      "task_loss": 0.10904853045940399
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5164042711257935,
      "epoch": 14.05,
      "learning_rate": 3.5222291797119604e-06,
      "loss": 0.3632,
      "step": 16620,
      "task_loss": 0.6200109720230103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6653776168823242,
      "epoch": 14.05,
      "learning_rate": 3.5190983093299943e-06,
      "loss": 0.5283,
      "step": 16621,
      "task_loss": 1.219690203666687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5635845065116882,
      "epoch": 14.05,
      "learning_rate": 3.5159674389480278e-06,
      "loss": 0.4382,
      "step": 16622,
      "task_loss": 0.525129497051239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2994413375854492,
      "epoch": 14.05,
      "learning_rate": 3.5128365685660617e-06,
      "loss": 0.4216,
      "step": 16623,
      "task_loss": 1.1369531154632568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3216892182826996,
      "epoch": 14.05,
      "learning_rate": 3.509705698184095e-06,
      "loss": 0.4349,
      "step": 16624,
      "task_loss": 0.08935043960809708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29794955253601074,
      "epoch": 14.05,
      "learning_rate": 3.506574827802129e-06,
      "loss": 0.4382,
      "step": 16625,
      "task_loss": 0.4666251242160797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23371165990829468,
      "epoch": 14.05,
      "learning_rate": 3.5034439574201634e-06,
      "loss": 0.4245,
      "step": 16626,
      "task_loss": 0.33100077509880066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.351892352104187,
      "epoch": 14.05,
      "learning_rate": 3.500313087038197e-06,
      "loss": 0.3932,
      "step": 16627,
      "task_loss": 0.5006498098373413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41794055700302124,
      "epoch": 14.06,
      "learning_rate": 3.4971822166562308e-06,
      "loss": 0.4432,
      "step": 16628,
      "task_loss": 0.47702282667160034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27873730659484863,
      "epoch": 14.06,
      "learning_rate": 3.4940513462742642e-06,
      "loss": 0.4239,
      "step": 16629,
      "task_loss": 0.4012645483016968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3918468952178955,
      "epoch": 14.06,
      "learning_rate": 3.490920475892298e-06,
      "loss": 0.4396,
      "step": 16630,
      "task_loss": 0.2825097441673279
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7786844372749329,
      "epoch": 14.06,
      "learning_rate": 3.4877896055103316e-06,
      "loss": 0.6531,
      "step": 16631,
      "task_loss": 1.358902096748352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34678030014038086,
      "epoch": 14.06,
      "learning_rate": 3.4846587351283663e-06,
      "loss": 0.4423,
      "step": 16632,
      "task_loss": 0.2599804997444153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41035202145576477,
      "epoch": 14.06,
      "learning_rate": 3.4815278647464e-06,
      "loss": 0.4615,
      "step": 16633,
      "task_loss": 0.3048070967197418
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33393394947052,
      "epoch": 14.06,
      "learning_rate": 3.4783969943644337e-06,
      "loss": 0.4279,
      "step": 16634,
      "task_loss": 0.5837187170982361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32838720083236694,
      "epoch": 14.06,
      "learning_rate": 3.475266123982467e-06,
      "loss": 0.4051,
      "step": 16635,
      "task_loss": 0.05288040265440941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3729170560836792,
      "epoch": 14.06,
      "learning_rate": 3.472135253600501e-06,
      "loss": 0.4788,
      "step": 16636,
      "task_loss": 1.1828525066375732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25883448123931885,
      "epoch": 14.06,
      "learning_rate": 3.4690043832185346e-06,
      "loss": 0.3533,
      "step": 16637,
      "task_loss": 0.4162878096103668
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5855430364608765,
      "epoch": 14.06,
      "learning_rate": 3.4658735128365685e-06,
      "loss": 0.4556,
      "step": 16638,
      "task_loss": 0.22995835542678833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44196832180023193,
      "epoch": 14.07,
      "learning_rate": 3.462742642454603e-06,
      "loss": 0.3432,
      "step": 16639,
      "task_loss": 0.641635000705719
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3725370764732361,
      "epoch": 14.07,
      "learning_rate": 3.4596117720726367e-06,
      "loss": 0.3961,
      "step": 16640,
      "task_loss": 0.736556887626648
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3294290006160736,
      "epoch": 14.07,
      "learning_rate": 3.45648090169067e-06,
      "loss": 0.5334,
      "step": 16641,
      "task_loss": 0.4173990488052368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34436678886413574,
      "epoch": 14.07,
      "learning_rate": 3.453350031308704e-06,
      "loss": 0.4876,
      "step": 16642,
      "task_loss": 0.890171468257904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3581418991088867,
      "epoch": 14.07,
      "learning_rate": 3.4502191609267375e-06,
      "loss": 0.4376,
      "step": 16643,
      "task_loss": 0.9581742882728577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2894332706928253,
      "epoch": 14.07,
      "learning_rate": 3.4470882905447714e-06,
      "loss": 0.3766,
      "step": 16644,
      "task_loss": 1.108647108078003
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.12074895203113556,
      "epoch": 14.07,
      "learning_rate": 3.4439574201628058e-06,
      "loss": 0.3936,
      "step": 16645,
      "task_loss": 0.4089471995830536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27118566632270813,
      "epoch": 14.07,
      "learning_rate": 3.4408265497808392e-06,
      "loss": 0.3392,
      "step": 16646,
      "task_loss": 0.18898004293441772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32885342836380005,
      "epoch": 14.07,
      "learning_rate": 3.437695679398873e-06,
      "loss": 0.3627,
      "step": 16647,
      "task_loss": 0.7766087651252747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5416033267974854,
      "epoch": 14.07,
      "learning_rate": 3.4345648090169066e-06,
      "loss": 0.398,
      "step": 16648,
      "task_loss": 0.49229249358177185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31389716267585754,
      "epoch": 14.07,
      "learning_rate": 3.4314339386349405e-06,
      "loss": 0.3666,
      "step": 16649,
      "task_loss": 0.2705325484275818
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4094359576702118,
      "epoch": 14.07,
      "learning_rate": 3.428303068252974e-06,
      "loss": 0.5005,
      "step": 16650,
      "task_loss": 1.0979394912719727
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5237434506416321,
      "epoch": 14.08,
      "learning_rate": 3.4251721978710087e-06,
      "loss": 0.432,
      "step": 16651,
      "task_loss": 1.4004660844802856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5491586923599243,
      "epoch": 14.08,
      "learning_rate": 3.422041327489042e-06,
      "loss": 0.5394,
      "step": 16652,
      "task_loss": 0.7955853939056396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3890582025051117,
      "epoch": 14.08,
      "learning_rate": 3.418910457107076e-06,
      "loss": 0.4479,
      "step": 16653,
      "task_loss": 0.9333439469337463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7368963956832886,
      "epoch": 14.08,
      "learning_rate": 3.4157795867251096e-06,
      "loss": 0.348,
      "step": 16654,
      "task_loss": 1.130610704421997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6728568077087402,
      "epoch": 14.08,
      "learning_rate": 3.4126487163431435e-06,
      "loss": 0.4429,
      "step": 16655,
      "task_loss": 1.0777437686920166
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.331524133682251,
      "epoch": 14.08,
      "learning_rate": 3.409517845961177e-06,
      "loss": 0.391,
      "step": 16656,
      "task_loss": 1.0006953477859497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3774237036705017,
      "epoch": 14.08,
      "learning_rate": 3.4063869755792113e-06,
      "loss": 0.3603,
      "step": 16657,
      "task_loss": 0.5431119799613953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.424228310585022,
      "epoch": 14.08,
      "learning_rate": 3.403256105197245e-06,
      "loss": 0.4686,
      "step": 16658,
      "task_loss": 0.31099969148635864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47960782051086426,
      "epoch": 14.08,
      "learning_rate": 3.400125234815279e-06,
      "loss": 0.4864,
      "step": 16659,
      "task_loss": 0.4054742157459259
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6612704992294312,
      "epoch": 14.08,
      "learning_rate": 3.3969943644333125e-06,
      "loss": 0.535,
      "step": 16660,
      "task_loss": 1.1338762044906616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5819136500358582,
      "epoch": 14.08,
      "learning_rate": 3.3938634940513464e-06,
      "loss": 0.3382,
      "step": 16661,
      "task_loss": 0.40725505352020264
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5189341902732849,
      "epoch": 14.08,
      "learning_rate": 3.39073262366938e-06,
      "loss": 0.4257,
      "step": 16662,
      "task_loss": 0.5260877013206482
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6165244579315186,
      "epoch": 14.09,
      "learning_rate": 3.3876017532874142e-06,
      "loss": 0.3786,
      "step": 16663,
      "task_loss": 0.8416500091552734
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.530254602432251,
      "epoch": 14.09,
      "learning_rate": 3.384470882905448e-06,
      "loss": 0.5454,
      "step": 16664,
      "task_loss": 0.4529018700122833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29551127552986145,
      "epoch": 14.09,
      "learning_rate": 3.3813400125234816e-06,
      "loss": 0.3325,
      "step": 16665,
      "task_loss": 0.10524212568998337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27661803364753723,
      "epoch": 14.09,
      "learning_rate": 3.3782091421415155e-06,
      "loss": 0.4631,
      "step": 16666,
      "task_loss": 0.44427767395973206
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37128740549087524,
      "epoch": 14.09,
      "learning_rate": 3.375078271759549e-06,
      "loss": 0.4703,
      "step": 16667,
      "task_loss": 0.43555766344070435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8361345529556274,
      "epoch": 14.09,
      "learning_rate": 3.371947401377583e-06,
      "loss": 0.5759,
      "step": 16668,
      "task_loss": 1.0943480730056763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21265538036823273,
      "epoch": 14.09,
      "learning_rate": 3.3688165309956172e-06,
      "loss": 0.2762,
      "step": 16669,
      "task_loss": 0.26338082551956177
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3816104829311371,
      "epoch": 14.09,
      "learning_rate": 3.365685660613651e-06,
      "loss": 0.4801,
      "step": 16670,
      "task_loss": 0.26315563917160034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2475188821554184,
      "epoch": 14.09,
      "learning_rate": 3.3625547902316846e-06,
      "loss": 0.4376,
      "step": 16671,
      "task_loss": 0.8411150574684143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.506128191947937,
      "epoch": 14.09,
      "learning_rate": 3.3594239198497185e-06,
      "loss": 0.4643,
      "step": 16672,
      "task_loss": 1.3404780626296997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3440450429916382,
      "epoch": 14.09,
      "learning_rate": 3.356293049467752e-06,
      "loss": 0.4014,
      "step": 16673,
      "task_loss": 0.464986115694046
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4350292682647705,
      "epoch": 14.09,
      "learning_rate": 3.353162179085786e-06,
      "loss": 0.5536,
      "step": 16674,
      "task_loss": 0.4171915650367737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3717454671859741,
      "epoch": 14.1,
      "learning_rate": 3.35003130870382e-06,
      "loss": 0.392,
      "step": 16675,
      "task_loss": 0.41278350353240967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44366833567619324,
      "epoch": 14.1,
      "learning_rate": 3.3469004383218537e-06,
      "loss": 0.433,
      "step": 16676,
      "task_loss": 0.5942737460136414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2817080318927765,
      "epoch": 14.1,
      "learning_rate": 3.3437695679398876e-06,
      "loss": 0.3832,
      "step": 16677,
      "task_loss": 0.6162261962890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4779600501060486,
      "epoch": 14.1,
      "learning_rate": 3.3406386975579215e-06,
      "loss": 0.4874,
      "step": 16678,
      "task_loss": 0.845024824142456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3418300151824951,
      "epoch": 14.1,
      "learning_rate": 3.337507827175955e-06,
      "loss": 0.4323,
      "step": 16679,
      "task_loss": 1.2598177194595337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3183099627494812,
      "epoch": 14.1,
      "learning_rate": 3.334376956793989e-06,
      "loss": 0.4356,
      "step": 16680,
      "task_loss": 0.24696582555770874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5110447406768799,
      "epoch": 14.1,
      "learning_rate": 3.331246086412023e-06,
      "loss": 0.4355,
      "step": 16681,
      "task_loss": 1.3576562404632568
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22315004467964172,
      "epoch": 14.1,
      "learning_rate": 3.3281152160300566e-06,
      "loss": 0.4199,
      "step": 16682,
      "task_loss": 0.07477252930402756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4650924801826477,
      "epoch": 14.1,
      "learning_rate": 3.3249843456480905e-06,
      "loss": 0.4853,
      "step": 16683,
      "task_loss": 1.2031347751617432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44078773260116577,
      "epoch": 14.1,
      "learning_rate": 3.321853475266124e-06,
      "loss": 0.5242,
      "step": 16684,
      "task_loss": 1.0352847576141357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5508905053138733,
      "epoch": 14.1,
      "learning_rate": 3.318722604884158e-06,
      "loss": 0.4348,
      "step": 16685,
      "task_loss": 0.3995194733142853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4097152054309845,
      "epoch": 14.1,
      "learning_rate": 3.3155917345021914e-06,
      "loss": 0.4495,
      "step": 16686,
      "task_loss": 1.0202393531799316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5102778673171997,
      "epoch": 14.11,
      "learning_rate": 3.3124608641202253e-06,
      "loss": 0.463,
      "step": 16687,
      "task_loss": 0.15414008498191833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6029987335205078,
      "epoch": 14.11,
      "learning_rate": 3.3093299937382596e-06,
      "loss": 0.5421,
      "step": 16688,
      "task_loss": 0.2968686521053314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45070236921310425,
      "epoch": 14.11,
      "learning_rate": 3.3061991233562935e-06,
      "loss": 0.3496,
      "step": 16689,
      "task_loss": 0.6418491005897522
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2973948121070862,
      "epoch": 14.11,
      "learning_rate": 3.303068252974327e-06,
      "loss": 0.3682,
      "step": 16690,
      "task_loss": 0.5368298292160034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29722297191619873,
      "epoch": 14.11,
      "learning_rate": 3.299937382592361e-06,
      "loss": 0.3355,
      "step": 16691,
      "task_loss": 0.7067745923995972
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5541505813598633,
      "epoch": 14.11,
      "learning_rate": 3.2968065122103943e-06,
      "loss": 0.4253,
      "step": 16692,
      "task_loss": 1.1107912063598633
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4288604259490967,
      "epoch": 14.11,
      "learning_rate": 3.2936756418284282e-06,
      "loss": 0.4526,
      "step": 16693,
      "task_loss": 0.25848525762557983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47651001811027527,
      "epoch": 14.11,
      "learning_rate": 3.2905447714464626e-06,
      "loss": 0.4195,
      "step": 16694,
      "task_loss": 0.37270018458366394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3540933132171631,
      "epoch": 14.11,
      "learning_rate": 3.287413901064496e-06,
      "loss": 0.476,
      "step": 16695,
      "task_loss": 1.5523518323898315
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6425036191940308,
      "epoch": 14.11,
      "learning_rate": 3.28428303068253e-06,
      "loss": 0.4721,
      "step": 16696,
      "task_loss": 0.9533817768096924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4575101137161255,
      "epoch": 14.11,
      "learning_rate": 3.281152160300564e-06,
      "loss": 0.4398,
      "step": 16697,
      "task_loss": 0.2596123516559601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37098291516304016,
      "epoch": 14.11,
      "learning_rate": 3.2780212899185973e-06,
      "loss": 0.3638,
      "step": 16698,
      "task_loss": 0.25670933723449707
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6039205193519592,
      "epoch": 14.12,
      "learning_rate": 3.2748904195366312e-06,
      "loss": 0.3754,
      "step": 16699,
      "task_loss": 0.9416992664337158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5350862741470337,
      "epoch": 14.12,
      "learning_rate": 3.2717595491546655e-06,
      "loss": 0.4499,
      "step": 16700,
      "task_loss": 0.8137832283973694
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5729490518569946,
      "epoch": 14.12,
      "learning_rate": 3.268628678772699e-06,
      "loss": 0.4649,
      "step": 16701,
      "task_loss": 0.6728530526161194
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.759671151638031,
      "epoch": 14.12,
      "learning_rate": 3.265497808390733e-06,
      "loss": 0.5294,
      "step": 16702,
      "task_loss": 0.3539232313632965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3813536465167999,
      "epoch": 14.12,
      "learning_rate": 3.2623669380087664e-06,
      "loss": 0.4642,
      "step": 16703,
      "task_loss": 1.1901003122329712
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4491240978240967,
      "epoch": 14.12,
      "learning_rate": 3.2592360676268003e-06,
      "loss": 0.483,
      "step": 16704,
      "task_loss": 0.8476523756980896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3718731999397278,
      "epoch": 14.12,
      "learning_rate": 3.2561051972448338e-06,
      "loss": 0.3414,
      "step": 16705,
      "task_loss": 0.6647421717643738
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4109448790550232,
      "epoch": 14.12,
      "learning_rate": 3.2529743268628685e-06,
      "loss": 0.4175,
      "step": 16706,
      "task_loss": 0.41014549136161804
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4031458795070648,
      "epoch": 14.12,
      "learning_rate": 3.249843456480902e-06,
      "loss": 0.377,
      "step": 16707,
      "task_loss": 0.6447562575340271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4080791175365448,
      "epoch": 14.12,
      "learning_rate": 3.246712586098936e-06,
      "loss": 0.3189,
      "step": 16708,
      "task_loss": 0.22831475734710693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5118553638458252,
      "epoch": 14.12,
      "learning_rate": 3.2435817157169694e-06,
      "loss": 0.3617,
      "step": 16709,
      "task_loss": 0.19311045110225677
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23838666081428528,
      "epoch": 14.13,
      "learning_rate": 3.2404508453350033e-06,
      "loss": 0.5287,
      "step": 16710,
      "task_loss": 0.4069368243217468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33573824167251587,
      "epoch": 14.13,
      "learning_rate": 3.2373199749530367e-06,
      "loss": 0.3114,
      "step": 16711,
      "task_loss": 0.41208821535110474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37269479036331177,
      "epoch": 14.13,
      "learning_rate": 3.234189104571071e-06,
      "loss": 0.5015,
      "step": 16712,
      "task_loss": 0.6381068825721741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47478315234184265,
      "epoch": 14.13,
      "learning_rate": 3.231058234189105e-06,
      "loss": 0.4454,
      "step": 16713,
      "task_loss": 0.4108310639858246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6401984095573425,
      "epoch": 14.13,
      "learning_rate": 3.2279273638071384e-06,
      "loss": 0.4554,
      "step": 16714,
      "task_loss": 0.4813010096549988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20808406174182892,
      "epoch": 14.13,
      "learning_rate": 3.2247964934251723e-06,
      "loss": 0.3632,
      "step": 16715,
      "task_loss": 0.04833192750811577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27220702171325684,
      "epoch": 14.13,
      "learning_rate": 3.2216656230432062e-06,
      "loss": 0.3548,
      "step": 16716,
      "task_loss": 0.183022141456604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4017159044742584,
      "epoch": 14.13,
      "learning_rate": 3.2185347526612397e-06,
      "loss": 0.4298,
      "step": 16717,
      "task_loss": 0.22892899811267853
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1925036609172821,
      "epoch": 14.13,
      "learning_rate": 3.215403882279274e-06,
      "loss": 0.392,
      "step": 16718,
      "task_loss": 0.6011527180671692
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25135478377342224,
      "epoch": 14.13,
      "learning_rate": 3.212273011897308e-06,
      "loss": 0.4261,
      "step": 16719,
      "task_loss": 0.6498263478279114
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39042648673057556,
      "epoch": 14.13,
      "learning_rate": 3.2091421415153414e-06,
      "loss": 0.3249,
      "step": 16720,
      "task_loss": 0.5287468433380127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4795578420162201,
      "epoch": 14.13,
      "learning_rate": 3.2060112711333753e-06,
      "loss": 0.4927,
      "step": 16721,
      "task_loss": 0.4578231871128082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6027464270591736,
      "epoch": 14.14,
      "learning_rate": 3.2028804007514088e-06,
      "loss": 0.4807,
      "step": 16722,
      "task_loss": 1.0429420471191406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2549973130226135,
      "epoch": 14.14,
      "learning_rate": 3.1997495303694427e-06,
      "loss": 0.315,
      "step": 16723,
      "task_loss": 0.8940004706382751
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3379175066947937,
      "epoch": 14.14,
      "learning_rate": 3.196618659987477e-06,
      "loss": 0.2883,
      "step": 16724,
      "task_loss": 0.7091282606124878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4868648648262024,
      "epoch": 14.14,
      "learning_rate": 3.193487789605511e-06,
      "loss": 0.4765,
      "step": 16725,
      "task_loss": 0.9675384163856506
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4753872752189636,
      "epoch": 14.14,
      "learning_rate": 3.1903569192235444e-06,
      "loss": 0.3752,
      "step": 16726,
      "task_loss": 0.18052351474761963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4290948510169983,
      "epoch": 14.14,
      "learning_rate": 3.1872260488415783e-06,
      "loss": 0.2995,
      "step": 16727,
      "task_loss": 0.1252918690443039
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2899719774723053,
      "epoch": 14.14,
      "learning_rate": 3.1840951784596117e-06,
      "loss": 0.4234,
      "step": 16728,
      "task_loss": 0.24042710661888123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3868565559387207,
      "epoch": 14.14,
      "learning_rate": 3.1809643080776456e-06,
      "loss": 0.4791,
      "step": 16729,
      "task_loss": 0.23231185972690582
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30586880445480347,
      "epoch": 14.14,
      "learning_rate": 3.177833437695679e-06,
      "loss": 0.3613,
      "step": 16730,
      "task_loss": 0.2420385479927063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33693718910217285,
      "epoch": 14.14,
      "learning_rate": 3.1747025673137134e-06,
      "loss": 0.3466,
      "step": 16731,
      "task_loss": 0.5448337197303772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3863060772418976,
      "epoch": 14.14,
      "learning_rate": 3.1715716969317473e-06,
      "loss": 0.4569,
      "step": 16732,
      "task_loss": 0.6408237218856812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2766968905925751,
      "epoch": 14.14,
      "learning_rate": 3.168440826549781e-06,
      "loss": 0.385,
      "step": 16733,
      "task_loss": 0.21599163115024567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3304632902145386,
      "epoch": 14.15,
      "learning_rate": 3.1653099561678147e-06,
      "loss": 0.4899,
      "step": 16734,
      "task_loss": 0.4432154893875122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38324683904647827,
      "epoch": 14.15,
      "learning_rate": 3.1621790857858486e-06,
      "loss": 0.4282,
      "step": 16735,
      "task_loss": 1.0474220514297485
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29569655656814575,
      "epoch": 14.15,
      "learning_rate": 3.159048215403882e-06,
      "loss": 0.3481,
      "step": 16736,
      "task_loss": 0.6255205273628235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.610668420791626,
      "epoch": 14.15,
      "learning_rate": 3.1559173450219164e-06,
      "loss": 0.4365,
      "step": 16737,
      "task_loss": 0.27214300632476807
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44577112793922424,
      "epoch": 14.15,
      "learning_rate": 3.1527864746399503e-06,
      "loss": 0.6539,
      "step": 16738,
      "task_loss": 0.3203915059566498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434094071388245,
      "epoch": 14.15,
      "learning_rate": 3.1496556042579838e-06,
      "loss": 0.4456,
      "step": 16739,
      "task_loss": 0.7115404605865479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2543061375617981,
      "epoch": 14.15,
      "learning_rate": 3.1465247338760177e-06,
      "loss": 0.4458,
      "step": 16740,
      "task_loss": 0.051698874682188034
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18559342622756958,
      "epoch": 14.15,
      "learning_rate": 3.143393863494051e-06,
      "loss": 0.4082,
      "step": 16741,
      "task_loss": 0.43008047342300415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1842956244945526,
      "epoch": 14.15,
      "learning_rate": 3.140262993112085e-06,
      "loss": 0.3718,
      "step": 16742,
      "task_loss": 0.09390833228826523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2516264319419861,
      "epoch": 14.15,
      "learning_rate": 3.1371321227301194e-06,
      "loss": 0.4097,
      "step": 16743,
      "task_loss": 0.6436243653297424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17793160676956177,
      "epoch": 14.15,
      "learning_rate": 3.1340012523481533e-06,
      "loss": 0.3575,
      "step": 16744,
      "task_loss": 0.20801731944084167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2504723072052002,
      "epoch": 14.15,
      "learning_rate": 3.1308703819661867e-06,
      "loss": 0.3369,
      "step": 16745,
      "task_loss": 0.3262992799282074
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4681759476661682,
      "epoch": 14.16,
      "learning_rate": 3.1277395115842206e-06,
      "loss": 0.5047,
      "step": 16746,
      "task_loss": 0.5157175064086914
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26004043221473694,
      "epoch": 14.16,
      "learning_rate": 3.1246086412022545e-06,
      "loss": 0.4007,
      "step": 16747,
      "task_loss": 0.1870332509279251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37750813364982605,
      "epoch": 14.16,
      "learning_rate": 3.1214777708202884e-06,
      "loss": 0.468,
      "step": 16748,
      "task_loss": 0.644827663898468
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20619633793830872,
      "epoch": 14.16,
      "learning_rate": 3.118346900438322e-06,
      "loss": 0.5623,
      "step": 16749,
      "task_loss": 0.2467750757932663
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23240235447883606,
      "epoch": 14.16,
      "learning_rate": 3.115216030056356e-06,
      "loss": 0.2574,
      "step": 16750,
      "task_loss": 0.31303632259368896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3519785702228546,
      "epoch": 14.16,
      "learning_rate": 3.1120851596743897e-06,
      "loss": 0.3828,
      "step": 16751,
      "task_loss": 0.5880220532417297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43124425411224365,
      "epoch": 14.16,
      "learning_rate": 3.108954289292423e-06,
      "loss": 0.4281,
      "step": 16752,
      "task_loss": 0.48011505603790283
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22745707631111145,
      "epoch": 14.16,
      "learning_rate": 3.105823418910457e-06,
      "loss": 0.4509,
      "step": 16753,
      "task_loss": 0.1687062382698059
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19888520240783691,
      "epoch": 14.16,
      "learning_rate": 3.102692548528491e-06,
      "loss": 0.3551,
      "step": 16754,
      "task_loss": 0.29573020339012146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4134036898612976,
      "epoch": 14.16,
      "learning_rate": 3.099561678146525e-06,
      "loss": 0.364,
      "step": 16755,
      "task_loss": 0.35861414670944214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29533708095550537,
      "epoch": 14.16,
      "learning_rate": 3.0964308077645584e-06,
      "loss": 0.4775,
      "step": 16756,
      "task_loss": 0.9049550890922546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2561722993850708,
      "epoch": 14.16,
      "learning_rate": 3.0932999373825927e-06,
      "loss": 0.4119,
      "step": 16757,
      "task_loss": 1.323047399520874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.478391170501709,
      "epoch": 14.17,
      "learning_rate": 3.090169067000626e-06,
      "loss": 0.368,
      "step": 16758,
      "task_loss": 0.4114754796028137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5475700497627258,
      "epoch": 14.17,
      "learning_rate": 3.08703819661866e-06,
      "loss": 0.4381,
      "step": 16759,
      "task_loss": 0.22574780881404877
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28307443857192993,
      "epoch": 14.17,
      "learning_rate": 3.083907326236694e-06,
      "loss": 0.4249,
      "step": 16760,
      "task_loss": 0.772895336151123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5513944625854492,
      "epoch": 14.17,
      "learning_rate": 3.080776455854728e-06,
      "loss": 0.3734,
      "step": 16761,
      "task_loss": 0.1971167027950287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4763180911540985,
      "epoch": 14.17,
      "learning_rate": 3.0776455854727613e-06,
      "loss": 0.4366,
      "step": 16762,
      "task_loss": 0.2293403595685959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3988131880760193,
      "epoch": 14.17,
      "learning_rate": 3.0745147150907957e-06,
      "loss": 0.4182,
      "step": 16763,
      "task_loss": 0.2211586833000183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31873440742492676,
      "epoch": 14.17,
      "learning_rate": 3.071383844708829e-06,
      "loss": 0.4506,
      "step": 16764,
      "task_loss": 0.3412633240222931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40190982818603516,
      "epoch": 14.17,
      "learning_rate": 3.068252974326863e-06,
      "loss": 0.3931,
      "step": 16765,
      "task_loss": 1.0317198038101196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43424710631370544,
      "epoch": 14.17,
      "learning_rate": 3.065122103944897e-06,
      "loss": 0.4253,
      "step": 16766,
      "task_loss": 1.0506731271743774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37289243936538696,
      "epoch": 14.17,
      "learning_rate": 3.061991233562931e-06,
      "loss": 0.555,
      "step": 16767,
      "task_loss": 0.4150778651237488
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37710604071617126,
      "epoch": 14.17,
      "learning_rate": 3.0588603631809643e-06,
      "loss": 0.5766,
      "step": 16768,
      "task_loss": 1.0937278270721436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27137109637260437,
      "epoch": 14.17,
      "learning_rate": 3.055729492798998e-06,
      "loss": 0.3489,
      "step": 16769,
      "task_loss": 0.8881827592849731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.296378493309021,
      "epoch": 14.18,
      "learning_rate": 3.052598622417032e-06,
      "loss": 0.4357,
      "step": 16770,
      "task_loss": 0.6819801330566406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34909719228744507,
      "epoch": 14.18,
      "learning_rate": 3.0494677520350656e-06,
      "loss": 0.4682,
      "step": 16771,
      "task_loss": 0.3444351553916931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5647115707397461,
      "epoch": 14.18,
      "learning_rate": 3.0463368816531e-06,
      "loss": 0.4425,
      "step": 16772,
      "task_loss": 1.3047960996627808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17982083559036255,
      "epoch": 14.18,
      "learning_rate": 3.0432060112711334e-06,
      "loss": 0.2491,
      "step": 16773,
      "task_loss": 0.038089267909526825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5155758857727051,
      "epoch": 14.18,
      "learning_rate": 3.0400751408891673e-06,
      "loss": 0.3567,
      "step": 16774,
      "task_loss": 1.4581151008605957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4634135961532593,
      "epoch": 14.18,
      "learning_rate": 3.036944270507201e-06,
      "loss": 0.5091,
      "step": 16775,
      "task_loss": 0.3943212330341339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5898382067680359,
      "epoch": 14.18,
      "learning_rate": 3.033813400125235e-06,
      "loss": 0.4626,
      "step": 16776,
      "task_loss": 0.9010851979255676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24743294715881348,
      "epoch": 14.18,
      "learning_rate": 3.0306825297432685e-06,
      "loss": 0.4038,
      "step": 16777,
      "task_loss": 0.41517046093940735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3121030032634735,
      "epoch": 14.18,
      "learning_rate": 3.027551659361303e-06,
      "loss": 0.3696,
      "step": 16778,
      "task_loss": 0.303835391998291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33394214510917664,
      "epoch": 14.18,
      "learning_rate": 3.0244207889793363e-06,
      "loss": 0.4454,
      "step": 16779,
      "task_loss": 1.0437358617782593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30445945262908936,
      "epoch": 14.18,
      "learning_rate": 3.0212899185973702e-06,
      "loss": 0.4116,
      "step": 16780,
      "task_loss": 0.8258463144302368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28568026423454285,
      "epoch": 14.19,
      "learning_rate": 3.018159048215404e-06,
      "loss": 0.4285,
      "step": 16781,
      "task_loss": 0.4263773262500763
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3190816640853882,
      "epoch": 14.19,
      "learning_rate": 3.015028177833438e-06,
      "loss": 0.3626,
      "step": 16782,
      "task_loss": 0.2758204936981201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33364254236221313,
      "epoch": 14.19,
      "learning_rate": 3.0118973074514715e-06,
      "loss": 0.5025,
      "step": 16783,
      "task_loss": 0.5587963461875916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3371988534927368,
      "epoch": 14.19,
      "learning_rate": 3.0087664370695054e-06,
      "loss": 0.3446,
      "step": 16784,
      "task_loss": 0.16406987607479095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3068675100803375,
      "epoch": 14.19,
      "learning_rate": 3.0056355666875393e-06,
      "loss": 0.3882,
      "step": 16785,
      "task_loss": 0.5557737350463867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1928108036518097,
      "epoch": 14.19,
      "learning_rate": 3.002504696305573e-06,
      "loss": 0.3029,
      "step": 16786,
      "task_loss": 0.26465144753456116
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4728195071220398,
      "epoch": 14.19,
      "learning_rate": 2.999373825923607e-06,
      "loss": 0.366,
      "step": 16787,
      "task_loss": 0.7223328351974487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6131080985069275,
      "epoch": 14.19,
      "learning_rate": 2.9962429555416406e-06,
      "loss": 0.4911,
      "step": 16788,
      "task_loss": 1.1513460874557495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.254392147064209,
      "epoch": 14.19,
      "learning_rate": 2.9931120851596745e-06,
      "loss": 0.3586,
      "step": 16789,
      "task_loss": 0.09545312076807022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28153884410858154,
      "epoch": 14.19,
      "learning_rate": 2.9899812147777084e-06,
      "loss": 0.3547,
      "step": 16790,
      "task_loss": 1.0480576753616333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39610928297042847,
      "epoch": 14.19,
      "learning_rate": 2.9868503443957423e-06,
      "loss": 0.3562,
      "step": 16791,
      "task_loss": 0.6943846940994263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34122443199157715,
      "epoch": 14.19,
      "learning_rate": 2.9837194740137758e-06,
      "loss": 0.4235,
      "step": 16792,
      "task_loss": 0.313327819108963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5018352270126343,
      "epoch": 14.2,
      "learning_rate": 2.98058860363181e-06,
      "loss": 0.5112,
      "step": 16793,
      "task_loss": 0.9160400629043579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22860071063041687,
      "epoch": 14.2,
      "learning_rate": 2.9774577332498436e-06,
      "loss": 0.4538,
      "step": 16794,
      "task_loss": 0.6695484519004822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35037317872047424,
      "epoch": 14.2,
      "learning_rate": 2.9743268628678775e-06,
      "loss": 0.4349,
      "step": 16795,
      "task_loss": 0.5359184145927429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17649665474891663,
      "epoch": 14.2,
      "learning_rate": 2.9711959924859114e-06,
      "loss": 0.3086,
      "step": 16796,
      "task_loss": 0.05295177549123764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5803205966949463,
      "epoch": 14.2,
      "learning_rate": 2.9680651221039453e-06,
      "loss": 0.3934,
      "step": 16797,
      "task_loss": 0.6233041882514954
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45203152298927307,
      "epoch": 14.2,
      "learning_rate": 2.9649342517219787e-06,
      "loss": 0.531,
      "step": 16798,
      "task_loss": 0.7007414102554321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4238870441913605,
      "epoch": 14.2,
      "learning_rate": 2.9618033813400126e-06,
      "loss": 0.3832,
      "step": 16799,
      "task_loss": 0.6086696982383728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31659209728240967,
      "epoch": 14.2,
      "learning_rate": 2.9586725109580465e-06,
      "loss": 0.4209,
      "step": 16800,
      "task_loss": 0.5097706317901611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2423413246870041,
      "epoch": 14.2,
      "learning_rate": 2.9555416405760804e-06,
      "loss": 0.3823,
      "step": 16801,
      "task_loss": 0.08062314987182617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3674079179763794,
      "epoch": 14.2,
      "learning_rate": 2.952410770194114e-06,
      "loss": 0.5086,
      "step": 16802,
      "task_loss": 0.11048687994480133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48295778036117554,
      "epoch": 14.2,
      "learning_rate": 2.949279899812148e-06,
      "loss": 0.4877,
      "step": 16803,
      "task_loss": 0.40487203001976013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5174657106399536,
      "epoch": 14.2,
      "learning_rate": 2.9461490294301817e-06,
      "loss": 0.4482,
      "step": 16804,
      "task_loss": 0.35262587666511536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6155754327774048,
      "epoch": 14.21,
      "learning_rate": 2.9430181590482156e-06,
      "loss": 0.5237,
      "step": 16805,
      "task_loss": 0.5806806087493896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43616509437561035,
      "epoch": 14.21,
      "learning_rate": 2.9398872886662495e-06,
      "loss": 0.4291,
      "step": 16806,
      "task_loss": 0.5118290185928345
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27535125613212585,
      "epoch": 14.21,
      "learning_rate": 2.936756418284283e-06,
      "loss": 0.4704,
      "step": 16807,
      "task_loss": 0.14014218747615814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6773364543914795,
      "epoch": 14.21,
      "learning_rate": 2.933625547902317e-06,
      "loss": 0.502,
      "step": 16808,
      "task_loss": 1.076874017715454
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19959509372711182,
      "epoch": 14.21,
      "learning_rate": 2.9304946775203508e-06,
      "loss": 0.3132,
      "step": 16809,
      "task_loss": 0.7073841691017151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3998625576496124,
      "epoch": 14.21,
      "learning_rate": 2.9273638071383847e-06,
      "loss": 0.4874,
      "step": 16810,
      "task_loss": 0.6735832691192627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3473345637321472,
      "epoch": 14.21,
      "learning_rate": 2.924232936756418e-06,
      "loss": 0.4259,
      "step": 16811,
      "task_loss": 1.1879584789276123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26906806230545044,
      "epoch": 14.21,
      "learning_rate": 2.9211020663744525e-06,
      "loss": 0.39,
      "step": 16812,
      "task_loss": 1.556945562362671
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2862372398376465,
      "epoch": 14.21,
      "learning_rate": 2.917971195992486e-06,
      "loss": 0.327,
      "step": 16813,
      "task_loss": 0.3970416486263275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.339463472366333,
      "epoch": 14.21,
      "learning_rate": 2.91484032561052e-06,
      "loss": 0.428,
      "step": 16814,
      "task_loss": 0.4205631613731384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3750857710838318,
      "epoch": 14.21,
      "learning_rate": 2.9117094552285537e-06,
      "loss": 0.3406,
      "step": 16815,
      "task_loss": 0.6083822846412659
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6159992218017578,
      "epoch": 14.21,
      "learning_rate": 2.9085785848465876e-06,
      "loss": 0.4075,
      "step": 16816,
      "task_loss": 0.7434397339820862
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5176740884780884,
      "epoch": 14.22,
      "learning_rate": 2.905447714464621e-06,
      "loss": 0.4866,
      "step": 16817,
      "task_loss": 0.26146024465560913
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4890359044075012,
      "epoch": 14.22,
      "learning_rate": 2.9023168440826554e-06,
      "loss": 0.4595,
      "step": 16818,
      "task_loss": 0.8235184550285339
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5972027778625488,
      "epoch": 14.22,
      "learning_rate": 2.899185973700689e-06,
      "loss": 0.3969,
      "step": 16819,
      "task_loss": 0.2290230691432953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6192071437835693,
      "epoch": 14.22,
      "learning_rate": 2.896055103318723e-06,
      "loss": 0.3621,
      "step": 16820,
      "task_loss": 0.4904252290725708
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2917618155479431,
      "epoch": 14.22,
      "learning_rate": 2.8929242329367567e-06,
      "loss": 0.3166,
      "step": 16821,
      "task_loss": 0.20978212356567383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32286420464515686,
      "epoch": 14.22,
      "learning_rate": 2.88979336255479e-06,
      "loss": 0.4103,
      "step": 16822,
      "task_loss": 0.4527497887611389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2589210867881775,
      "epoch": 14.22,
      "learning_rate": 2.886662492172824e-06,
      "loss": 0.3247,
      "step": 16823,
      "task_loss": 0.05127372592687607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4971885085105896,
      "epoch": 14.22,
      "learning_rate": 2.883531621790858e-06,
      "loss": 0.3918,
      "step": 16824,
      "task_loss": 0.9979428052902222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5150735974311829,
      "epoch": 14.22,
      "learning_rate": 2.880400751408892e-06,
      "loss": 0.3564,
      "step": 16825,
      "task_loss": 0.7046076059341431
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5191441774368286,
      "epoch": 14.22,
      "learning_rate": 2.8772698810269254e-06,
      "loss": 0.5678,
      "step": 16826,
      "task_loss": 1.2800184488296509
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2315463125705719,
      "epoch": 14.22,
      "learning_rate": 2.8741390106449597e-06,
      "loss": 0.4287,
      "step": 16827,
      "task_loss": 0.4074268937110901
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6254975199699402,
      "epoch": 14.22,
      "learning_rate": 2.871008140262993e-06,
      "loss": 0.4608,
      "step": 16828,
      "task_loss": 0.5892733335494995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38801679015159607,
      "epoch": 14.23,
      "learning_rate": 2.867877269881027e-06,
      "loss": 0.264,
      "step": 16829,
      "task_loss": 0.4810626208782196
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3277725577354431,
      "epoch": 14.23,
      "learning_rate": 2.864746399499061e-06,
      "loss": 0.5092,
      "step": 16830,
      "task_loss": 0.6325255632400513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40789395570755005,
      "epoch": 14.23,
      "learning_rate": 2.861615529117095e-06,
      "loss": 0.4768,
      "step": 16831,
      "task_loss": 0.6437469124794006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3851545453071594,
      "epoch": 14.23,
      "learning_rate": 2.8584846587351283e-06,
      "loss": 0.4544,
      "step": 16832,
      "task_loss": 0.6051374673843384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5259397029876709,
      "epoch": 14.23,
      "learning_rate": 2.8553537883531626e-06,
      "loss": 0.3345,
      "step": 16833,
      "task_loss": 0.16826188564300537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3280130922794342,
      "epoch": 14.23,
      "learning_rate": 2.852222917971196e-06,
      "loss": 0.4064,
      "step": 16834,
      "task_loss": 0.4911932349205017
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4984583258628845,
      "epoch": 14.23,
      "learning_rate": 2.84909204758923e-06,
      "loss": 0.4468,
      "step": 16835,
      "task_loss": 0.7974283695220947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36193686723709106,
      "epoch": 14.23,
      "learning_rate": 2.845961177207264e-06,
      "loss": 0.292,
      "step": 16836,
      "task_loss": 0.8045521974563599
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4395745098590851,
      "epoch": 14.23,
      "learning_rate": 2.842830306825298e-06,
      "loss": 0.4364,
      "step": 16837,
      "task_loss": 1.222826600074768
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30270472168922424,
      "epoch": 14.23,
      "learning_rate": 2.8396994364433313e-06,
      "loss": 0.352,
      "step": 16838,
      "task_loss": 1.0981618165969849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4132867455482483,
      "epoch": 14.23,
      "learning_rate": 2.836568566061365e-06,
      "loss": 0.481,
      "step": 16839,
      "task_loss": 0.7292972803115845
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5127169489860535,
      "epoch": 14.23,
      "learning_rate": 2.833437695679399e-06,
      "loss": 0.4301,
      "step": 16840,
      "task_loss": 0.738821268081665
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30517300963401794,
      "epoch": 14.24,
      "learning_rate": 2.8303068252974326e-06,
      "loss": 0.4197,
      "step": 16841,
      "task_loss": 1.2851279973983765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.12287113815546036,
      "epoch": 14.24,
      "learning_rate": 2.827175954915467e-06,
      "loss": 0.3604,
      "step": 16842,
      "task_loss": 0.07723229378461838
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4904131293296814,
      "epoch": 14.24,
      "learning_rate": 2.8240450845335004e-06,
      "loss": 0.4612,
      "step": 16843,
      "task_loss": 0.5380504131317139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3374950885772705,
      "epoch": 14.24,
      "learning_rate": 2.8209142141515343e-06,
      "loss": 0.4996,
      "step": 16844,
      "task_loss": 1.1050177812576294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38051676750183105,
      "epoch": 14.24,
      "learning_rate": 2.8177833437695677e-06,
      "loss": 0.4001,
      "step": 16845,
      "task_loss": 0.4026775360107422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4248877465724945,
      "epoch": 14.24,
      "learning_rate": 2.814652473387602e-06,
      "loss": 0.4488,
      "step": 16846,
      "task_loss": 0.4150923490524292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49452078342437744,
      "epoch": 14.24,
      "learning_rate": 2.8115216030056355e-06,
      "loss": 0.4568,
      "step": 16847,
      "task_loss": 1.2653331756591797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3455706536769867,
      "epoch": 14.24,
      "learning_rate": 2.8083907326236694e-06,
      "loss": 0.3089,
      "step": 16848,
      "task_loss": 0.5102758407592773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5419859886169434,
      "epoch": 14.24,
      "learning_rate": 2.8052598622417033e-06,
      "loss": 0.525,
      "step": 16849,
      "task_loss": 0.4211790859699249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40407103300094604,
      "epoch": 14.24,
      "learning_rate": 2.8021289918597372e-06,
      "loss": 0.4242,
      "step": 16850,
      "task_loss": 0.8957080841064453
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2637454867362976,
      "epoch": 14.24,
      "learning_rate": 2.7989981214777707e-06,
      "loss": 0.3866,
      "step": 16851,
      "task_loss": 0.4431425631046295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5033305287361145,
      "epoch": 14.24,
      "learning_rate": 2.795867251095805e-06,
      "loss": 0.404,
      "step": 16852,
      "task_loss": 0.832224428653717
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31082355976104736,
      "epoch": 14.25,
      "learning_rate": 2.7927363807138385e-06,
      "loss": 0.4291,
      "step": 16853,
      "task_loss": 0.6217875480651855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.521175742149353,
      "epoch": 14.25,
      "learning_rate": 2.7896055103318724e-06,
      "loss": 0.4303,
      "step": 16854,
      "task_loss": 0.7254982590675354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3093973994255066,
      "epoch": 14.25,
      "learning_rate": 2.7864746399499063e-06,
      "loss": 0.438,
      "step": 16855,
      "task_loss": 0.6640552282333374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41099095344543457,
      "epoch": 14.25,
      "learning_rate": 2.78334376956794e-06,
      "loss": 0.4837,
      "step": 16856,
      "task_loss": 0.4437297284603119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35916227102279663,
      "epoch": 14.25,
      "learning_rate": 2.7802128991859737e-06,
      "loss": 0.544,
      "step": 16857,
      "task_loss": 0.5664665102958679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3819722831249237,
      "epoch": 14.25,
      "learning_rate": 2.7770820288040076e-06,
      "loss": 0.4142,
      "step": 16858,
      "task_loss": 0.37226223945617676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26928871870040894,
      "epoch": 14.25,
      "learning_rate": 2.7739511584220415e-06,
      "loss": 0.3237,
      "step": 16859,
      "task_loss": 0.348271906375885
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44315940141677856,
      "epoch": 14.25,
      "learning_rate": 2.770820288040075e-06,
      "loss": 0.4402,
      "step": 16860,
      "task_loss": 0.33715564012527466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4261418282985687,
      "epoch": 14.25,
      "learning_rate": 2.7676894176581093e-06,
      "loss": 0.4985,
      "step": 16861,
      "task_loss": 1.0327155590057373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3361784815788269,
      "epoch": 14.25,
      "learning_rate": 2.7645585472761427e-06,
      "loss": 0.4244,
      "step": 16862,
      "task_loss": 0.8237431645393372
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27203312516212463,
      "epoch": 14.25,
      "learning_rate": 2.7614276768941766e-06,
      "loss": 0.3936,
      "step": 16863,
      "task_loss": 0.48978227376937866
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37870103120803833,
      "epoch": 14.26,
      "learning_rate": 2.7582968065122105e-06,
      "loss": 0.4338,
      "step": 16864,
      "task_loss": 0.8035740852355957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44729921221733093,
      "epoch": 14.26,
      "learning_rate": 2.7551659361302444e-06,
      "loss": 0.4914,
      "step": 16865,
      "task_loss": 0.424022912979126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43188321590423584,
      "epoch": 14.26,
      "learning_rate": 2.752035065748278e-06,
      "loss": 0.4179,
      "step": 16866,
      "task_loss": 0.5804831981658936
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32825666666030884,
      "epoch": 14.26,
      "learning_rate": 2.7489041953663122e-06,
      "loss": 0.3485,
      "step": 16867,
      "task_loss": 0.6519280672073364
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47014832496643066,
      "epoch": 14.26,
      "learning_rate": 2.7457733249843457e-06,
      "loss": 0.4144,
      "step": 16868,
      "task_loss": 0.9441032409667969
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35128432512283325,
      "epoch": 14.26,
      "learning_rate": 2.7426424546023796e-06,
      "loss": 0.4161,
      "step": 16869,
      "task_loss": 0.7342578172683716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5216079354286194,
      "epoch": 14.26,
      "learning_rate": 2.7395115842204135e-06,
      "loss": 0.4482,
      "step": 16870,
      "task_loss": 1.0270495414733887
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3423991799354553,
      "epoch": 14.26,
      "learning_rate": 2.7363807138384474e-06,
      "loss": 0.5024,
      "step": 16871,
      "task_loss": 0.6569247841835022
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28084254264831543,
      "epoch": 14.26,
      "learning_rate": 2.733249843456481e-06,
      "loss": 0.3929,
      "step": 16872,
      "task_loss": 1.2246469259262085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8179463744163513,
      "epoch": 14.26,
      "learning_rate": 2.7301189730745148e-06,
      "loss": 0.4258,
      "step": 16873,
      "task_loss": 1.632295846939087
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30140256881713867,
      "epoch": 14.26,
      "learning_rate": 2.7269881026925487e-06,
      "loss": 0.3688,
      "step": 16874,
      "task_loss": 0.32597672939300537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6076879501342773,
      "epoch": 14.26,
      "learning_rate": 2.7238572323105826e-06,
      "loss": 0.4878,
      "step": 16875,
      "task_loss": 1.2495604753494263
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4158540964126587,
      "epoch": 14.27,
      "learning_rate": 2.7207263619286165e-06,
      "loss": 0.4278,
      "step": 16876,
      "task_loss": 0.414215087890625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7365249991416931,
      "epoch": 14.27,
      "learning_rate": 2.71759549154665e-06,
      "loss": 0.4425,
      "step": 16877,
      "task_loss": 0.7719587087631226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.312755823135376,
      "epoch": 14.27,
      "learning_rate": 2.714464621164684e-06,
      "loss": 0.324,
      "step": 16878,
      "task_loss": 0.6069991588592529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4606669545173645,
      "epoch": 14.27,
      "learning_rate": 2.7113337507827178e-06,
      "loss": 0.5014,
      "step": 16879,
      "task_loss": 0.7246982455253601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30392974615097046,
      "epoch": 14.27,
      "learning_rate": 2.7082028804007517e-06,
      "loss": 0.3387,
      "step": 16880,
      "task_loss": 0.41444331407546997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24765431880950928,
      "epoch": 14.27,
      "learning_rate": 2.705072010018785e-06,
      "loss": 0.3021,
      "step": 16881,
      "task_loss": 0.04889160394668579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4233742356300354,
      "epoch": 14.27,
      "learning_rate": 2.7019411396368194e-06,
      "loss": 0.4021,
      "step": 16882,
      "task_loss": 0.20455434918403625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.512436032295227,
      "epoch": 14.27,
      "learning_rate": 2.698810269254853e-06,
      "loss": 0.4052,
      "step": 16883,
      "task_loss": 0.6191865801811218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38527968525886536,
      "epoch": 14.27,
      "learning_rate": 2.695679398872887e-06,
      "loss": 0.4586,
      "step": 16884,
      "task_loss": 0.5359143614768982
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36162298917770386,
      "epoch": 14.27,
      "learning_rate": 2.6925485284909207e-06,
      "loss": 0.5297,
      "step": 16885,
      "task_loss": 1.0327314138412476
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28886717557907104,
      "epoch": 14.27,
      "learning_rate": 2.6894176581089546e-06,
      "loss": 0.3025,
      "step": 16886,
      "task_loss": 0.29749780893325806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42549076676368713,
      "epoch": 14.27,
      "learning_rate": 2.686286787726988e-06,
      "loss": 0.42,
      "step": 16887,
      "task_loss": 0.28640952706336975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6049543023109436,
      "epoch": 14.28,
      "learning_rate": 2.6831559173450224e-06,
      "loss": 0.6136,
      "step": 16888,
      "task_loss": 0.6840921640396118
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40304461121559143,
      "epoch": 14.28,
      "learning_rate": 2.680025046963056e-06,
      "loss": 0.4085,
      "step": 16889,
      "task_loss": 1.0584402084350586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2732566297054291,
      "epoch": 14.28,
      "learning_rate": 2.67689417658109e-06,
      "loss": 0.4827,
      "step": 16890,
      "task_loss": 0.6670897603034973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5541156530380249,
      "epoch": 14.28,
      "learning_rate": 2.6737633061991237e-06,
      "loss": 0.5415,
      "step": 16891,
      "task_loss": 0.7721157670021057
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7756498456001282,
      "epoch": 14.28,
      "learning_rate": 2.670632435817157e-06,
      "loss": 0.506,
      "step": 16892,
      "task_loss": 0.9605322480201721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1764499545097351,
      "epoch": 14.28,
      "learning_rate": 2.667501565435191e-06,
      "loss": 0.3219,
      "step": 16893,
      "task_loss": 0.9979633688926697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3354296088218689,
      "epoch": 14.28,
      "learning_rate": 2.664370695053225e-06,
      "loss": 0.4873,
      "step": 16894,
      "task_loss": 0.5367278456687927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2875908613204956,
      "epoch": 14.28,
      "learning_rate": 2.661239824671259e-06,
      "loss": 0.3845,
      "step": 16895,
      "task_loss": 0.84916752576828
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4107818007469177,
      "epoch": 14.28,
      "learning_rate": 2.6581089542892923e-06,
      "loss": 0.4621,
      "step": 16896,
      "task_loss": 1.2823753356933594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2969222962856293,
      "epoch": 14.28,
      "learning_rate": 2.6549780839073262e-06,
      "loss": 0.4129,
      "step": 16897,
      "task_loss": 0.4624881148338318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42139026522636414,
      "epoch": 14.28,
      "learning_rate": 2.65184721352536e-06,
      "loss": 0.5254,
      "step": 16898,
      "task_loss": 0.7346590757369995
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34942880272865295,
      "epoch": 14.28,
      "learning_rate": 2.648716343143394e-06,
      "loss": 0.4529,
      "step": 16899,
      "task_loss": 1.5853722095489502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41321784257888794,
      "epoch": 14.29,
      "learning_rate": 2.6455854727614275e-06,
      "loss": 0.4278,
      "step": 16900,
      "task_loss": 0.1384279578924179
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4330812096595764,
      "epoch": 14.29,
      "learning_rate": 2.642454602379462e-06,
      "loss": 0.4613,
      "step": 16901,
      "task_loss": 0.1388973742723465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4742439091205597,
      "epoch": 14.29,
      "learning_rate": 2.6393237319974953e-06,
      "loss": 0.4315,
      "step": 16902,
      "task_loss": 0.5763947367668152
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29920631647109985,
      "epoch": 14.29,
      "learning_rate": 2.636192861615529e-06,
      "loss": 0.3973,
      "step": 16903,
      "task_loss": 0.8230830430984497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4544236958026886,
      "epoch": 14.29,
      "learning_rate": 2.633061991233563e-06,
      "loss": 0.386,
      "step": 16904,
      "task_loss": 0.9173434972763062
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5352775454521179,
      "epoch": 14.29,
      "learning_rate": 2.629931120851597e-06,
      "loss": 0.5458,
      "step": 16905,
      "task_loss": 0.31956344842910767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3606671392917633,
      "epoch": 14.29,
      "learning_rate": 2.6268002504696305e-06,
      "loss": 0.4225,
      "step": 16906,
      "task_loss": 0.403218150138855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5469859838485718,
      "epoch": 14.29,
      "learning_rate": 2.623669380087665e-06,
      "loss": 0.4316,
      "step": 16907,
      "task_loss": 0.5976096391677856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40991321206092834,
      "epoch": 14.29,
      "learning_rate": 2.6205385097056983e-06,
      "loss": 0.4108,
      "step": 16908,
      "task_loss": 0.5744232535362244
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5528317093849182,
      "epoch": 14.29,
      "learning_rate": 2.617407639323732e-06,
      "loss": 0.4103,
      "step": 16909,
      "task_loss": 0.28172144293785095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4966018795967102,
      "epoch": 14.29,
      "learning_rate": 2.614276768941766e-06,
      "loss": 0.2914,
      "step": 16910,
      "task_loss": 0.21170172095298767
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3967249393463135,
      "epoch": 14.29,
      "learning_rate": 2.6111458985597995e-06,
      "loss": 0.4045,
      "step": 16911,
      "task_loss": 1.1174641847610474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36752796173095703,
      "epoch": 14.3,
      "learning_rate": 2.6080150281778334e-06,
      "loss": 0.4732,
      "step": 16912,
      "task_loss": 1.5603023767471313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3216938078403473,
      "epoch": 14.3,
      "learning_rate": 2.6048841577958673e-06,
      "loss": 0.5141,
      "step": 16913,
      "task_loss": 0.11344992369413376
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7221918106079102,
      "epoch": 14.3,
      "learning_rate": 2.6017532874139012e-06,
      "loss": 0.4798,
      "step": 16914,
      "task_loss": 0.7034560441970825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5659767985343933,
      "epoch": 14.3,
      "learning_rate": 2.5986224170319347e-06,
      "loss": 0.4465,
      "step": 16915,
      "task_loss": 0.36493560671806335
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3010462820529938,
      "epoch": 14.3,
      "learning_rate": 2.595491546649969e-06,
      "loss": 0.3766,
      "step": 16916,
      "task_loss": 0.3652375638484955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5430692434310913,
      "epoch": 14.3,
      "learning_rate": 2.5923606762680025e-06,
      "loss": 0.5085,
      "step": 16917,
      "task_loss": 1.2571969032287598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43151992559432983,
      "epoch": 14.3,
      "learning_rate": 2.5892298058860364e-06,
      "loss": 0.3894,
      "step": 16918,
      "task_loss": 0.09197002649307251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20767848193645477,
      "epoch": 14.3,
      "learning_rate": 2.5860989355040703e-06,
      "loss": 0.2802,
      "step": 16919,
      "task_loss": 0.04735748842358589
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3066610097885132,
      "epoch": 14.3,
      "learning_rate": 2.5829680651221042e-06,
      "loss": 0.3933,
      "step": 16920,
      "task_loss": 0.1164565309882164
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49706220626831055,
      "epoch": 14.3,
      "learning_rate": 2.5798371947401377e-06,
      "loss": 0.3759,
      "step": 16921,
      "task_loss": 0.7011775374412537
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.770554780960083,
      "epoch": 14.3,
      "learning_rate": 2.576706324358172e-06,
      "loss": 0.6207,
      "step": 16922,
      "task_loss": 1.1125162839889526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36150652170181274,
      "epoch": 14.3,
      "learning_rate": 2.5735754539762055e-06,
      "loss": 0.4355,
      "step": 16923,
      "task_loss": 0.9214553833007812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39973700046539307,
      "epoch": 14.31,
      "learning_rate": 2.5704445835942394e-06,
      "loss": 0.5276,
      "step": 16924,
      "task_loss": 0.35341450572013855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.14942902326583862,
      "epoch": 14.31,
      "learning_rate": 2.5673137132122733e-06,
      "loss": 0.4549,
      "step": 16925,
      "task_loss": 0.33860424160957336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6255999803543091,
      "epoch": 14.31,
      "learning_rate": 2.564182842830307e-06,
      "loss": 0.5213,
      "step": 16926,
      "task_loss": 0.5427426695823669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2506321370601654,
      "epoch": 14.31,
      "learning_rate": 2.5610519724483407e-06,
      "loss": 0.3997,
      "step": 16927,
      "task_loss": 0.43429669737815857
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4168117046356201,
      "epoch": 14.31,
      "learning_rate": 2.5579211020663746e-06,
      "loss": 0.48,
      "step": 16928,
      "task_loss": 0.683347225189209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.285641074180603,
      "epoch": 14.31,
      "learning_rate": 2.5547902316844085e-06,
      "loss": 0.3108,
      "step": 16929,
      "task_loss": 0.3767116069793701
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.192729651927948,
      "epoch": 14.31,
      "learning_rate": 2.551659361302442e-06,
      "loss": 0.3644,
      "step": 16930,
      "task_loss": 0.24135538935661316
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24821221828460693,
      "epoch": 14.31,
      "learning_rate": 2.5485284909204763e-06,
      "loss": 0.3518,
      "step": 16931,
      "task_loss": 0.2761807143688202
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3973490595817566,
      "epoch": 14.31,
      "learning_rate": 2.5453976205385097e-06,
      "loss": 0.4858,
      "step": 16932,
      "task_loss": 0.7436056137084961
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3953794836997986,
      "epoch": 14.31,
      "learning_rate": 2.5422667501565436e-06,
      "loss": 0.3311,
      "step": 16933,
      "task_loss": 0.6790536046028137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2257581353187561,
      "epoch": 14.31,
      "learning_rate": 2.5391358797745775e-06,
      "loss": 0.3781,
      "step": 16934,
      "task_loss": 0.7577512860298157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3755621016025543,
      "epoch": 14.32,
      "learning_rate": 2.5360050093926114e-06,
      "loss": 0.5025,
      "step": 16935,
      "task_loss": 0.38519227504730225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.550688624382019,
      "epoch": 14.32,
      "learning_rate": 2.532874139010645e-06,
      "loss": 0.4446,
      "step": 16936,
      "task_loss": 0.40538644790649414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.859978199005127,
      "epoch": 14.32,
      "learning_rate": 2.5297432686286792e-06,
      "loss": 0.6814,
      "step": 16937,
      "task_loss": 0.8428338170051575
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2833622694015503,
      "epoch": 14.32,
      "learning_rate": 2.5266123982467127e-06,
      "loss": 0.4436,
      "step": 16938,
      "task_loss": 0.8469380140304565
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5748258233070374,
      "epoch": 14.32,
      "learning_rate": 2.5234815278647466e-06,
      "loss": 0.4731,
      "step": 16939,
      "task_loss": 0.8804970979690552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39345842599868774,
      "epoch": 14.32,
      "learning_rate": 2.52035065748278e-06,
      "loss": 0.429,
      "step": 16940,
      "task_loss": 0.9083094596862793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7291097044944763,
      "epoch": 14.32,
      "learning_rate": 2.5172197871008144e-06,
      "loss": 0.3669,
      "step": 16941,
      "task_loss": 0.4440445303916931
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2211826890707016,
      "epoch": 14.32,
      "learning_rate": 2.514088916718848e-06,
      "loss": 0.3409,
      "step": 16942,
      "task_loss": 1.4219880104064941
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2674461305141449,
      "epoch": 14.32,
      "learning_rate": 2.5109580463368818e-06,
      "loss": 0.4588,
      "step": 16943,
      "task_loss": 0.9667202234268188
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33086276054382324,
      "epoch": 14.32,
      "learning_rate": 2.5078271759549157e-06,
      "loss": 0.4308,
      "step": 16944,
      "task_loss": 0.41770774126052856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43897926807403564,
      "epoch": 14.32,
      "learning_rate": 2.5046963055729496e-06,
      "loss": 0.4288,
      "step": 16945,
      "task_loss": 1.1318669319152832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3584946095943451,
      "epoch": 14.32,
      "learning_rate": 2.501565435190983e-06,
      "loss": 0.5117,
      "step": 16946,
      "task_loss": 1.134596586227417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2536831200122833,
      "epoch": 14.33,
      "learning_rate": 2.498434564809017e-06,
      "loss": 0.5121,
      "step": 16947,
      "task_loss": 0.38555386662483215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2360806167125702,
      "epoch": 14.33,
      "learning_rate": 2.495303694427051e-06,
      "loss": 0.3961,
      "step": 16948,
      "task_loss": 0.6067257523536682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.52390456199646,
      "epoch": 14.33,
      "learning_rate": 2.4921728240450843e-06,
      "loss": 0.431,
      "step": 16949,
      "task_loss": 0.8766690492630005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46188926696777344,
      "epoch": 14.33,
      "learning_rate": 2.4890419536631186e-06,
      "loss": 0.397,
      "step": 16950,
      "task_loss": 1.375383973121643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29685887694358826,
      "epoch": 14.33,
      "learning_rate": 2.485911083281152e-06,
      "loss": 0.4833,
      "step": 16951,
      "task_loss": 0.5362703800201416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3911954462528229,
      "epoch": 14.33,
      "learning_rate": 2.482780212899186e-06,
      "loss": 0.4062,
      "step": 16952,
      "task_loss": 0.4345564544200897
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3213005065917969,
      "epoch": 14.33,
      "learning_rate": 2.47964934251722e-06,
      "loss": 0.3981,
      "step": 16953,
      "task_loss": 0.6563644409179688
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6857778429985046,
      "epoch": 14.33,
      "learning_rate": 2.476518472135254e-06,
      "loss": 0.4751,
      "step": 16954,
      "task_loss": 0.9314416646957397
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18154658377170563,
      "epoch": 14.33,
      "learning_rate": 2.4733876017532873e-06,
      "loss": 0.4153,
      "step": 16955,
      "task_loss": 1.0903838872909546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5001688599586487,
      "epoch": 14.33,
      "learning_rate": 2.4702567313713216e-06,
      "loss": 0.5342,
      "step": 16956,
      "task_loss": 0.9540747404098511
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29893964529037476,
      "epoch": 14.33,
      "learning_rate": 2.467125860989355e-06,
      "loss": 0.3797,
      "step": 16957,
      "task_loss": 0.6282181739807129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3427810072898865,
      "epoch": 14.33,
      "learning_rate": 2.463994990607389e-06,
      "loss": 0.4504,
      "step": 16958,
      "task_loss": 0.2690582871437073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44246339797973633,
      "epoch": 14.34,
      "learning_rate": 2.460864120225423e-06,
      "loss": 0.3955,
      "step": 16959,
      "task_loss": 0.4824792146682739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6337159872055054,
      "epoch": 14.34,
      "learning_rate": 2.4577332498434568e-06,
      "loss": 0.45,
      "step": 16960,
      "task_loss": 1.3907444477081299
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36312136054039,
      "epoch": 14.34,
      "learning_rate": 2.4546023794614903e-06,
      "loss": 0.4598,
      "step": 16961,
      "task_loss": 0.4632100760936737
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4949847161769867,
      "epoch": 14.34,
      "learning_rate": 2.451471509079524e-06,
      "loss": 0.516,
      "step": 16962,
      "task_loss": 1.7358111143112183
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4260847270488739,
      "epoch": 14.34,
      "learning_rate": 2.448340638697558e-06,
      "loss": 0.4496,
      "step": 16963,
      "task_loss": 1.62985360622406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3400513529777527,
      "epoch": 14.34,
      "learning_rate": 2.445209768315592e-06,
      "loss": 0.3555,
      "step": 16964,
      "task_loss": 0.3390430510044098
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5419490337371826,
      "epoch": 14.34,
      "learning_rate": 2.442078897933626e-06,
      "loss": 0.4337,
      "step": 16965,
      "task_loss": 1.448744535446167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44007623195648193,
      "epoch": 14.34,
      "learning_rate": 2.4389480275516593e-06,
      "loss": 0.5875,
      "step": 16966,
      "task_loss": 1.3985419273376465
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.476474791765213,
      "epoch": 14.34,
      "learning_rate": 2.4358171571696932e-06,
      "loss": 0.5138,
      "step": 16967,
      "task_loss": 1.1435050964355469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24502462148666382,
      "epoch": 14.34,
      "learning_rate": 2.432686286787727e-06,
      "loss": 0.4791,
      "step": 16968,
      "task_loss": 0.6537520885467529
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40376704931259155,
      "epoch": 14.34,
      "learning_rate": 2.429555416405761e-06,
      "loss": 0.4495,
      "step": 16969,
      "task_loss": 0.6741514801979065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3195580542087555,
      "epoch": 14.34,
      "learning_rate": 2.4264245460237945e-06,
      "loss": 0.3825,
      "step": 16970,
      "task_loss": 0.7726265788078308
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7048090100288391,
      "epoch": 14.35,
      "learning_rate": 2.423293675641829e-06,
      "loss": 0.5822,
      "step": 16971,
      "task_loss": 0.9791837930679321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4710816442966461,
      "epoch": 14.35,
      "learning_rate": 2.4201628052598623e-06,
      "loss": 0.4598,
      "step": 16972,
      "task_loss": 0.6541593670845032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25442707538604736,
      "epoch": 14.35,
      "learning_rate": 2.417031934877896e-06,
      "loss": 0.3196,
      "step": 16973,
      "task_loss": 0.4482167959213257
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18006816506385803,
      "epoch": 14.35,
      "learning_rate": 2.41390106449593e-06,
      "loss": 0.2951,
      "step": 16974,
      "task_loss": 0.09349211305379868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38182422518730164,
      "epoch": 14.35,
      "learning_rate": 2.410770194113964e-06,
      "loss": 0.3794,
      "step": 16975,
      "task_loss": 1.0027036666870117
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46744734048843384,
      "epoch": 14.35,
      "learning_rate": 2.4076393237319975e-06,
      "loss": 0.4646,
      "step": 16976,
      "task_loss": 0.40447574853897095
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40375226736068726,
      "epoch": 14.35,
      "learning_rate": 2.404508453350032e-06,
      "loss": 0.4712,
      "step": 16977,
      "task_loss": 0.8360303640365601
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2627166211605072,
      "epoch": 14.35,
      "learning_rate": 2.4013775829680653e-06,
      "loss": 0.3437,
      "step": 16978,
      "task_loss": 0.41338589787483215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7379041314125061,
      "epoch": 14.35,
      "learning_rate": 2.398246712586099e-06,
      "loss": 0.475,
      "step": 16979,
      "task_loss": 0.32351577281951904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3998968303203583,
      "epoch": 14.35,
      "learning_rate": 2.395115842204133e-06,
      "loss": 0.4527,
      "step": 16980,
      "task_loss": 0.5885001420974731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4916171431541443,
      "epoch": 14.35,
      "learning_rate": 2.3919849718221665e-06,
      "loss": 0.5394,
      "step": 16981,
      "task_loss": 0.5033742785453796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4229595363140106,
      "epoch": 14.35,
      "learning_rate": 2.3888541014402004e-06,
      "loss": 0.4983,
      "step": 16982,
      "task_loss": 1.2141704559326172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4969249367713928,
      "epoch": 14.36,
      "learning_rate": 2.3857232310582343e-06,
      "loss": 0.5093,
      "step": 16983,
      "task_loss": 1.0630598068237305
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46316856145858765,
      "epoch": 14.36,
      "learning_rate": 2.3825923606762682e-06,
      "loss": 0.423,
      "step": 16984,
      "task_loss": 0.6580414772033691
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2468324899673462,
      "epoch": 14.36,
      "learning_rate": 2.3794614902943017e-06,
      "loss": 0.4075,
      "step": 16985,
      "task_loss": 0.20304061472415924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4632755517959595,
      "epoch": 14.36,
      "learning_rate": 2.3763306199123356e-06,
      "loss": 0.4814,
      "step": 16986,
      "task_loss": 0.7388198375701904
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4557124972343445,
      "epoch": 14.36,
      "learning_rate": 2.3731997495303695e-06,
      "loss": 0.3872,
      "step": 16987,
      "task_loss": 0.526508092880249
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27184566855430603,
      "epoch": 14.36,
      "learning_rate": 2.3700688791484034e-06,
      "loss": 0.3339,
      "step": 16988,
      "task_loss": 0.4505508244037628
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.265281617641449,
      "epoch": 14.36,
      "learning_rate": 2.366938008766437e-06,
      "loss": 0.3103,
      "step": 16989,
      "task_loss": 0.48957183957099915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4960874021053314,
      "epoch": 14.36,
      "learning_rate": 2.363807138384471e-06,
      "loss": 0.4687,
      "step": 16990,
      "task_loss": 0.9115301370620728
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3451184630393982,
      "epoch": 14.36,
      "learning_rate": 2.3606762680025047e-06,
      "loss": 0.4797,
      "step": 16991,
      "task_loss": 0.8047777414321899
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26995527744293213,
      "epoch": 14.36,
      "learning_rate": 2.3575453976205386e-06,
      "loss": 0.333,
      "step": 16992,
      "task_loss": 0.7914491891860962
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2461918741464615,
      "epoch": 14.36,
      "learning_rate": 2.3544145272385725e-06,
      "loss": 0.5169,
      "step": 16993,
      "task_loss": 0.5036942958831787
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.547360360622406,
      "epoch": 14.36,
      "learning_rate": 2.3512836568566064e-06,
      "loss": 0.4765,
      "step": 16994,
      "task_loss": 0.7030032873153687
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5179256200790405,
      "epoch": 14.37,
      "learning_rate": 2.34815278647464e-06,
      "loss": 0.3864,
      "step": 16995,
      "task_loss": 0.8099617958068848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4391767084598541,
      "epoch": 14.37,
      "learning_rate": 2.345021916092674e-06,
      "loss": 0.4251,
      "step": 16996,
      "task_loss": 0.2637600898742676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3198185861110687,
      "epoch": 14.37,
      "learning_rate": 2.3418910457107076e-06,
      "loss": 0.3185,
      "step": 16997,
      "task_loss": 0.2300020009279251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7188162803649902,
      "epoch": 14.37,
      "learning_rate": 2.3387601753287415e-06,
      "loss": 0.5301,
      "step": 16998,
      "task_loss": 1.4310415983200073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27125656604766846,
      "epoch": 14.37,
      "learning_rate": 2.3356293049467754e-06,
      "loss": 0.4602,
      "step": 16999,
      "task_loss": 0.9330090284347534
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32956308126449585,
      "epoch": 14.37,
      "learning_rate": 2.332498434564809e-06,
      "loss": 0.3264,
      "step": 17000,
      "task_loss": 0.08102009445428848
    },
    {
      "epoch": 14.37,
      "eval_accuracy": 0.9133861386138614,
      "eval_loss": 0.3013368546962738,
      "eval_runtime": 206.499,
      "eval_samples_per_second": 122.277,
      "eval_steps_per_second": 0.959,
      "step": 17000
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4224097728729248,
      "epoch": 14.37,
      "learning_rate": 2.329367564182843e-06,
      "loss": 0.4423,
      "step": 17001,
      "task_loss": 0.6053940057754517
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43341541290283203,
      "epoch": 14.37,
      "learning_rate": 2.3262366938008767e-06,
      "loss": 0.4432,
      "step": 17002,
      "task_loss": 0.9978618025779724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26511120796203613,
      "epoch": 14.37,
      "learning_rate": 2.3231058234189106e-06,
      "loss": 0.3964,
      "step": 17003,
      "task_loss": 0.17120735347270966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29614952206611633,
      "epoch": 14.37,
      "learning_rate": 2.319974953036944e-06,
      "loss": 0.4291,
      "step": 17004,
      "task_loss": 0.386795312166214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3776577413082123,
      "epoch": 14.37,
      "learning_rate": 2.3168440826549784e-06,
      "loss": 0.389,
      "step": 17005,
      "task_loss": 0.3832383453845978
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4512473940849304,
      "epoch": 14.38,
      "learning_rate": 2.313713212273012e-06,
      "loss": 0.4569,
      "step": 17006,
      "task_loss": 0.2908323407173157
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5078731775283813,
      "epoch": 14.38,
      "learning_rate": 2.3105823418910458e-06,
      "loss": 0.5326,
      "step": 17007,
      "task_loss": 0.5618603825569153
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5013499855995178,
      "epoch": 14.38,
      "learning_rate": 2.3074514715090797e-06,
      "loss": 0.5225,
      "step": 17008,
      "task_loss": 0.486826628446579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3716428279876709,
      "epoch": 14.38,
      "learning_rate": 2.3043206011271136e-06,
      "loss": 0.4553,
      "step": 17009,
      "task_loss": 0.4333835244178772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44317522644996643,
      "epoch": 14.38,
      "learning_rate": 2.301189730745147e-06,
      "loss": 0.3915,
      "step": 17010,
      "task_loss": 0.8114355802536011
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3020232021808624,
      "epoch": 14.38,
      "learning_rate": 2.2980588603631814e-06,
      "loss": 0.4188,
      "step": 17011,
      "task_loss": 0.1666896641254425
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6019055247306824,
      "epoch": 14.38,
      "learning_rate": 2.294927989981215e-06,
      "loss": 0.6724,
      "step": 17012,
      "task_loss": 0.9749858379364014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3760109543800354,
      "epoch": 14.38,
      "learning_rate": 2.2917971195992488e-06,
      "loss": 0.4412,
      "step": 17013,
      "task_loss": 0.6557241678237915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5988087058067322,
      "epoch": 14.38,
      "learning_rate": 2.2886662492172827e-06,
      "loss": 0.4657,
      "step": 17014,
      "task_loss": 1.0217214822769165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5436655282974243,
      "epoch": 14.38,
      "learning_rate": 2.2855353788353166e-06,
      "loss": 0.51,
      "step": 17015,
      "task_loss": 0.46601712703704834
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3836589455604553,
      "epoch": 14.38,
      "learning_rate": 2.28240450845335e-06,
      "loss": 0.4155,
      "step": 17016,
      "task_loss": 0.6716861128807068
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3056049644947052,
      "epoch": 14.38,
      "learning_rate": 2.279273638071384e-06,
      "loss": 0.3642,
      "step": 17017,
      "task_loss": 0.36967265605926514
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3844407796859741,
      "epoch": 14.39,
      "learning_rate": 2.276142767689418e-06,
      "loss": 0.4531,
      "step": 17018,
      "task_loss": 0.5781558156013489
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33329451084136963,
      "epoch": 14.39,
      "learning_rate": 2.2730118973074513e-06,
      "loss": 0.4278,
      "step": 17019,
      "task_loss": 0.6403993964195251
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2829543948173523,
      "epoch": 14.39,
      "learning_rate": 2.2698810269254856e-06,
      "loss": 0.4878,
      "step": 17020,
      "task_loss": 0.11275778710842133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42371058464050293,
      "epoch": 14.39,
      "learning_rate": 2.266750156543519e-06,
      "loss": 0.3379,
      "step": 17021,
      "task_loss": 0.6358447074890137
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37090373039245605,
      "epoch": 14.39,
      "learning_rate": 2.263619286161553e-06,
      "loss": 0.3768,
      "step": 17022,
      "task_loss": 0.5261725187301636
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4696246385574341,
      "epoch": 14.39,
      "learning_rate": 2.260488415779587e-06,
      "loss": 0.4002,
      "step": 17023,
      "task_loss": 0.5560694336891174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3889421224594116,
      "epoch": 14.39,
      "learning_rate": 2.257357545397621e-06,
      "loss": 0.563,
      "step": 17024,
      "task_loss": 0.9493229389190674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.436814546585083,
      "epoch": 14.39,
      "learning_rate": 2.2542266750156543e-06,
      "loss": 0.4278,
      "step": 17025,
      "task_loss": 0.8370649218559265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30854129791259766,
      "epoch": 14.39,
      "learning_rate": 2.2510958046336886e-06,
      "loss": 0.495,
      "step": 17026,
      "task_loss": 0.7150130271911621
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1429872214794159,
      "epoch": 14.39,
      "learning_rate": 2.247964934251722e-06,
      "loss": 0.371,
      "step": 17027,
      "task_loss": 0.06699833273887634
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7891684174537659,
      "epoch": 14.39,
      "learning_rate": 2.244834063869756e-06,
      "loss": 0.4892,
      "step": 17028,
      "task_loss": 0.8327986001968384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6311046481132507,
      "epoch": 14.39,
      "learning_rate": 2.24170319348779e-06,
      "loss": 0.4444,
      "step": 17029,
      "task_loss": 0.4155322313308716
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5061174631118774,
      "epoch": 14.4,
      "learning_rate": 2.2385723231058238e-06,
      "loss": 0.5137,
      "step": 17030,
      "task_loss": 0.262525737285614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.14721810817718506,
      "epoch": 14.4,
      "learning_rate": 2.2354414527238572e-06,
      "loss": 0.4203,
      "step": 17031,
      "task_loss": 0.15225312113761902
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5631392002105713,
      "epoch": 14.4,
      "learning_rate": 2.232310582341891e-06,
      "loss": 0.5505,
      "step": 17032,
      "task_loss": 0.20860423147678375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40474769473075867,
      "epoch": 14.4,
      "learning_rate": 2.229179711959925e-06,
      "loss": 0.4358,
      "step": 17033,
      "task_loss": 1.322075605392456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.50384521484375,
      "epoch": 14.4,
      "learning_rate": 2.226048841577959e-06,
      "loss": 0.4399,
      "step": 17034,
      "task_loss": 0.8847029209136963
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5669137835502625,
      "epoch": 14.4,
      "learning_rate": 2.2229179711959924e-06,
      "loss": 0.4219,
      "step": 17035,
      "task_loss": 0.7325623035430908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4784701466560364,
      "epoch": 14.4,
      "learning_rate": 2.2197871008140263e-06,
      "loss": 0.4941,
      "step": 17036,
      "task_loss": 0.8709529042243958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41373157501220703,
      "epoch": 14.4,
      "learning_rate": 2.21665623043206e-06,
      "loss": 0.4668,
      "step": 17037,
      "task_loss": 0.7388058304786682
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34762462973594666,
      "epoch": 14.4,
      "learning_rate": 2.2135253600500937e-06,
      "loss": 0.4131,
      "step": 17038,
      "task_loss": 0.10849006474018097
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33532771468162537,
      "epoch": 14.4,
      "learning_rate": 2.210394489668128e-06,
      "loss": 0.4411,
      "step": 17039,
      "task_loss": 0.4068177044391632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5850255489349365,
      "epoch": 14.4,
      "learning_rate": 2.2072636192861615e-06,
      "loss": 0.5336,
      "step": 17040,
      "task_loss": 1.4384632110595703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7811648845672607,
      "epoch": 14.4,
      "learning_rate": 2.2041327489041954e-06,
      "loss": 0.4967,
      "step": 17041,
      "task_loss": 0.6797370910644531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4746514558792114,
      "epoch": 14.41,
      "learning_rate": 2.2010018785222293e-06,
      "loss": 0.5036,
      "step": 17042,
      "task_loss": 0.7009791135787964
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2907337546348572,
      "epoch": 14.41,
      "learning_rate": 2.197871008140263e-06,
      "loss": 0.3019,
      "step": 17043,
      "task_loss": 0.4674879014492035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2732164263725281,
      "epoch": 14.41,
      "learning_rate": 2.1947401377582967e-06,
      "loss": 0.4702,
      "step": 17044,
      "task_loss": 1.4386523962020874
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44329631328582764,
      "epoch": 14.41,
      "learning_rate": 2.191609267376331e-06,
      "loss": 0.3579,
      "step": 17045,
      "task_loss": 0.3205452263355255
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30396372079849243,
      "epoch": 14.41,
      "learning_rate": 2.1884783969943645e-06,
      "loss": 0.4185,
      "step": 17046,
      "task_loss": 0.6953396797180176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2815837264060974,
      "epoch": 14.41,
      "learning_rate": 2.1853475266123984e-06,
      "loss": 0.429,
      "step": 17047,
      "task_loss": 0.6295050382614136
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46043556928634644,
      "epoch": 14.41,
      "learning_rate": 2.1822166562304323e-06,
      "loss": 0.4471,
      "step": 17048,
      "task_loss": 0.8123957514762878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3041290044784546,
      "epoch": 14.41,
      "learning_rate": 2.179085785848466e-06,
      "loss": 0.3422,
      "step": 17049,
      "task_loss": 1.1939655542373657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31454625725746155,
      "epoch": 14.41,
      "learning_rate": 2.1759549154664996e-06,
      "loss": 0.4323,
      "step": 17050,
      "task_loss": 1.0996830463409424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4345274567604065,
      "epoch": 14.41,
      "learning_rate": 2.1728240450845335e-06,
      "loss": 0.402,
      "step": 17051,
      "task_loss": 0.48853474855422974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4577874541282654,
      "epoch": 14.41,
      "learning_rate": 2.1696931747025674e-06,
      "loss": 0.4211,
      "step": 17052,
      "task_loss": 0.8907535076141357
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35886847972869873,
      "epoch": 14.41,
      "learning_rate": 2.1665623043206013e-06,
      "loss": 0.4073,
      "step": 17053,
      "task_loss": 0.4558582305908203
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.504020094871521,
      "epoch": 14.42,
      "learning_rate": 2.1634314339386352e-06,
      "loss": 0.4153,
      "step": 17054,
      "task_loss": 0.5848085880279541
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34031933546066284,
      "epoch": 14.42,
      "learning_rate": 2.1603005635566687e-06,
      "loss": 0.3852,
      "step": 17055,
      "task_loss": 0.4556264877319336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3586856424808502,
      "epoch": 14.42,
      "learning_rate": 2.1571696931747026e-06,
      "loss": 0.3882,
      "step": 17056,
      "task_loss": 0.4623953700065613
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33999255299568176,
      "epoch": 14.42,
      "learning_rate": 2.1540388227927365e-06,
      "loss": 0.3342,
      "step": 17057,
      "task_loss": 1.2324965000152588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.513388454914093,
      "epoch": 14.42,
      "learning_rate": 2.1509079524107704e-06,
      "loss": 0.3977,
      "step": 17058,
      "task_loss": 0.934048056602478
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49317553639411926,
      "epoch": 14.42,
      "learning_rate": 2.147777082028804e-06,
      "loss": 0.4432,
      "step": 17059,
      "task_loss": 0.5496571660041809
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37298110127449036,
      "epoch": 14.42,
      "learning_rate": 2.144646211646838e-06,
      "loss": 0.416,
      "step": 17060,
      "task_loss": 0.23669669032096863
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36476579308509827,
      "epoch": 14.42,
      "learning_rate": 2.1415153412648717e-06,
      "loss": 0.4683,
      "step": 17061,
      "task_loss": 0.6539167165756226
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4677216112613678,
      "epoch": 14.42,
      "learning_rate": 2.1383844708829056e-06,
      "loss": 0.279,
      "step": 17062,
      "task_loss": 0.6168791651725769
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.518626868724823,
      "epoch": 14.42,
      "learning_rate": 2.1352536005009395e-06,
      "loss": 0.5122,
      "step": 17063,
      "task_loss": 0.9121850728988647
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47359538078308105,
      "epoch": 14.42,
      "learning_rate": 2.1321227301189734e-06,
      "loss": 0.3231,
      "step": 17064,
      "task_loss": 0.9990469217300415
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3886065185070038,
      "epoch": 14.42,
      "learning_rate": 2.128991859737007e-06,
      "loss": 0.4206,
      "step": 17065,
      "task_loss": 0.253556489944458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32990631461143494,
      "epoch": 14.43,
      "learning_rate": 2.125860989355041e-06,
      "loss": 0.417,
      "step": 17066,
      "task_loss": 0.4137279987335205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3401615023612976,
      "epoch": 14.43,
      "learning_rate": 2.1227301189730746e-06,
      "loss": 0.4204,
      "step": 17067,
      "task_loss": 0.8747336864471436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21492800116539001,
      "epoch": 14.43,
      "learning_rate": 2.1195992485911085e-06,
      "loss": 0.3745,
      "step": 17068,
      "task_loss": 0.07780715823173523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19542288780212402,
      "epoch": 14.43,
      "learning_rate": 2.1164683782091424e-06,
      "loss": 0.3078,
      "step": 17069,
      "task_loss": 0.441522479057312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3404368758201599,
      "epoch": 14.43,
      "learning_rate": 2.113337507827176e-06,
      "loss": 0.4023,
      "step": 17070,
      "task_loss": 0.5195527672767639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5529292821884155,
      "epoch": 14.43,
      "learning_rate": 2.11020663744521e-06,
      "loss": 0.538,
      "step": 17071,
      "task_loss": 0.4953586161136627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23891079425811768,
      "epoch": 14.43,
      "learning_rate": 2.1070757670632437e-06,
      "loss": 0.2767,
      "step": 17072,
      "task_loss": 0.32229769229888916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5608909726142883,
      "epoch": 14.43,
      "learning_rate": 2.1039448966812776e-06,
      "loss": 0.5251,
      "step": 17073,
      "task_loss": 0.2852182984352112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31067201495170593,
      "epoch": 14.43,
      "learning_rate": 2.100814026299311e-06,
      "loss": 0.3854,
      "step": 17074,
      "task_loss": 0.39424699544906616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48377931118011475,
      "epoch": 14.43,
      "learning_rate": 2.0976831559173454e-06,
      "loss": 0.5126,
      "step": 17075,
      "task_loss": 0.8404556512832642
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6903190016746521,
      "epoch": 14.43,
      "learning_rate": 2.094552285535379e-06,
      "loss": 0.579,
      "step": 17076,
      "task_loss": 1.341103434562683
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5251779556274414,
      "epoch": 14.44,
      "learning_rate": 2.0914214151534128e-06,
      "loss": 0.4983,
      "step": 17077,
      "task_loss": 0.14310218393802643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26847127079963684,
      "epoch": 14.44,
      "learning_rate": 2.0882905447714463e-06,
      "loss": 0.4814,
      "step": 17078,
      "task_loss": 0.8884453773498535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4624747931957245,
      "epoch": 14.44,
      "learning_rate": 2.0851596743894806e-06,
      "loss": 0.431,
      "step": 17079,
      "task_loss": 1.0339730978012085
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7527148127555847,
      "epoch": 14.44,
      "learning_rate": 2.082028804007514e-06,
      "loss": 0.57,
      "step": 17080,
      "task_loss": 0.9098384976387024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3820611834526062,
      "epoch": 14.44,
      "learning_rate": 2.078897933625548e-06,
      "loss": 0.3955,
      "step": 17081,
      "task_loss": 0.36976709961891174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1693924218416214,
      "epoch": 14.44,
      "learning_rate": 2.075767063243582e-06,
      "loss": 0.3678,
      "step": 17082,
      "task_loss": 0.07108151912689209
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3194323182106018,
      "epoch": 14.44,
      "learning_rate": 2.0726361928616157e-06,
      "loss": 0.5563,
      "step": 17083,
      "task_loss": 0.8618040084838867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5273467898368835,
      "epoch": 14.44,
      "learning_rate": 2.0695053224796492e-06,
      "loss": 0.4579,
      "step": 17084,
      "task_loss": 0.6510439515113831
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4463006258010864,
      "epoch": 14.44,
      "learning_rate": 2.0663744520976835e-06,
      "loss": 0.4437,
      "step": 17085,
      "task_loss": 0.6728331446647644
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4626080393791199,
      "epoch": 14.44,
      "learning_rate": 2.063243581715717e-06,
      "loss": 0.355,
      "step": 17086,
      "task_loss": 0.6273505687713623
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4035361409187317,
      "epoch": 14.44,
      "learning_rate": 2.060112711333751e-06,
      "loss": 0.4414,
      "step": 17087,
      "task_loss": 0.216421440243721
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4702436625957489,
      "epoch": 14.44,
      "learning_rate": 2.056981840951785e-06,
      "loss": 0.4452,
      "step": 17088,
      "task_loss": 0.2622109651565552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38666635751724243,
      "epoch": 14.45,
      "learning_rate": 2.0538509705698183e-06,
      "loss": 0.4329,
      "step": 17089,
      "task_loss": 0.08540882170200348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37357574701309204,
      "epoch": 14.45,
      "learning_rate": 2.050720100187852e-06,
      "loss": 0.3731,
      "step": 17090,
      "task_loss": 0.32835695147514343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32942062616348267,
      "epoch": 14.45,
      "learning_rate": 2.047589229805886e-06,
      "loss": 0.4521,
      "step": 17091,
      "task_loss": 0.6114057898521423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3755573630332947,
      "epoch": 14.45,
      "learning_rate": 2.04445835942392e-06,
      "loss": 0.514,
      "step": 17092,
      "task_loss": 0.5717068314552307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4963315427303314,
      "epoch": 14.45,
      "learning_rate": 2.0413274890419535e-06,
      "loss": 0.498,
      "step": 17093,
      "task_loss": 0.4628738462924957
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4146181046962738,
      "epoch": 14.45,
      "learning_rate": 2.0381966186599878e-06,
      "loss": 0.3814,
      "step": 17094,
      "task_loss": 0.5248845815658569
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44675010442733765,
      "epoch": 14.45,
      "learning_rate": 2.0350657482780213e-06,
      "loss": 0.3645,
      "step": 17095,
      "task_loss": 0.39243653416633606
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37641003727912903,
      "epoch": 14.45,
      "learning_rate": 2.031934877896055e-06,
      "loss": 0.4088,
      "step": 17096,
      "task_loss": 0.44169825315475464
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20302490890026093,
      "epoch": 14.45,
      "learning_rate": 2.028804007514089e-06,
      "loss": 0.3626,
      "step": 17097,
      "task_loss": 0.09893098473548889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5129652619361877,
      "epoch": 14.45,
      "learning_rate": 2.025673137132123e-06,
      "loss": 0.4154,
      "step": 17098,
      "task_loss": 0.15456923842430115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37375715374946594,
      "epoch": 14.45,
      "learning_rate": 2.0225422667501564e-06,
      "loss": 0.3438,
      "step": 17099,
      "task_loss": 0.6767800450325012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23710153996944427,
      "epoch": 14.45,
      "learning_rate": 2.0194113963681908e-06,
      "loss": 0.3925,
      "step": 17100,
      "task_loss": 0.6784706115722656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3963415026664734,
      "epoch": 14.46,
      "learning_rate": 2.0162805259862242e-06,
      "loss": 0.3809,
      "step": 17101,
      "task_loss": 1.0974016189575195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27013465762138367,
      "epoch": 14.46,
      "learning_rate": 2.013149655604258e-06,
      "loss": 0.3619,
      "step": 17102,
      "task_loss": 0.3456646800041199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32096144556999207,
      "epoch": 14.46,
      "learning_rate": 2.010018785222292e-06,
      "loss": 0.3604,
      "step": 17103,
      "task_loss": 0.8245082497596741
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33317047357559204,
      "epoch": 14.46,
      "learning_rate": 2.006887914840326e-06,
      "loss": 0.4236,
      "step": 17104,
      "task_loss": 0.20510134100914001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4671610891819,
      "epoch": 14.46,
      "learning_rate": 2.0037570444583594e-06,
      "loss": 0.3713,
      "step": 17105,
      "task_loss": 1.302169680595398
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3505662977695465,
      "epoch": 14.46,
      "learning_rate": 2.0006261740763933e-06,
      "loss": 0.4154,
      "step": 17106,
      "task_loss": 0.28350159525871277
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1824244260787964,
      "epoch": 14.46,
      "learning_rate": 1.997495303694427e-06,
      "loss": 0.4572,
      "step": 17107,
      "task_loss": 0.3434523642063141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25623559951782227,
      "epoch": 14.46,
      "learning_rate": 1.9943644333124607e-06,
      "loss": 0.3574,
      "step": 17108,
      "task_loss": 0.10978834331035614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5830317735671997,
      "epoch": 14.46,
      "learning_rate": 1.991233562930495e-06,
      "loss": 0.3877,
      "step": 17109,
      "task_loss": 0.663288950920105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5273993015289307,
      "epoch": 14.46,
      "learning_rate": 1.9881026925485285e-06,
      "loss": 0.4051,
      "step": 17110,
      "task_loss": 0.35831737518310547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5855656266212463,
      "epoch": 14.46,
      "learning_rate": 1.9849718221665624e-06,
      "loss": 0.4857,
      "step": 17111,
      "task_loss": 1.0054036378860474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4674663543701172,
      "epoch": 14.46,
      "learning_rate": 1.9818409517845963e-06,
      "loss": 0.4309,
      "step": 17112,
      "task_loss": 0.18503636121749878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2932996153831482,
      "epoch": 14.47,
      "learning_rate": 1.97871008140263e-06,
      "loss": 0.4978,
      "step": 17113,
      "task_loss": 0.7442161440849304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3222893476486206,
      "epoch": 14.47,
      "learning_rate": 1.9755792110206636e-06,
      "loss": 0.4192,
      "step": 17114,
      "task_loss": 0.7568285465240479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22396814823150635,
      "epoch": 14.47,
      "learning_rate": 1.972448340638698e-06,
      "loss": 0.3434,
      "step": 17115,
      "task_loss": 0.6109732389450073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3655206263065338,
      "epoch": 14.47,
      "learning_rate": 1.9693174702567314e-06,
      "loss": 0.4706,
      "step": 17116,
      "task_loss": 0.8684963583946228
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6832581758499146,
      "epoch": 14.47,
      "learning_rate": 1.9661865998747653e-06,
      "loss": 0.4615,
      "step": 17117,
      "task_loss": 1.083510398864746
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36014050245285034,
      "epoch": 14.47,
      "learning_rate": 1.9630557294927992e-06,
      "loss": 0.3573,
      "step": 17118,
      "task_loss": 0.30781424045562744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3714837431907654,
      "epoch": 14.47,
      "learning_rate": 1.959924859110833e-06,
      "loss": 0.3506,
      "step": 17119,
      "task_loss": 1.101069688796997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39622974395751953,
      "epoch": 14.47,
      "learning_rate": 1.9567939887288666e-06,
      "loss": 0.3345,
      "step": 17120,
      "task_loss": 0.7741361856460571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4194400906562805,
      "epoch": 14.47,
      "learning_rate": 1.9536631183469005e-06,
      "loss": 0.4209,
      "step": 17121,
      "task_loss": 0.3098800778388977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24856427311897278,
      "epoch": 14.47,
      "learning_rate": 1.9505322479649344e-06,
      "loss": 0.4003,
      "step": 17122,
      "task_loss": 0.46408605575561523
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33665260672569275,
      "epoch": 14.47,
      "learning_rate": 1.9474013775829683e-06,
      "loss": 0.3347,
      "step": 17123,
      "task_loss": 0.5319698452949524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5659143924713135,
      "epoch": 14.47,
      "learning_rate": 1.9442705072010018e-06,
      "loss": 0.4905,
      "step": 17124,
      "task_loss": 0.7712333798408508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4208787679672241,
      "epoch": 14.48,
      "learning_rate": 1.9411396368190357e-06,
      "loss": 0.4706,
      "step": 17125,
      "task_loss": 1.3729037046432495
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26374927163124084,
      "epoch": 14.48,
      "learning_rate": 1.9380087664370696e-06,
      "loss": 0.4103,
      "step": 17126,
      "task_loss": 0.10871502012014389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2592189908027649,
      "epoch": 14.48,
      "learning_rate": 1.934877896055103e-06,
      "loss": 0.401,
      "step": 17127,
      "task_loss": 0.2634064257144928
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5163629651069641,
      "epoch": 14.48,
      "learning_rate": 1.9317470256731374e-06,
      "loss": 0.3844,
      "step": 17128,
      "task_loss": 1.0892045497894287
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2940589487552643,
      "epoch": 14.48,
      "learning_rate": 1.928616155291171e-06,
      "loss": 0.3845,
      "step": 17129,
      "task_loss": 0.0971054807305336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3297654092311859,
      "epoch": 14.48,
      "learning_rate": 1.9254852849092048e-06,
      "loss": 0.431,
      "step": 17130,
      "task_loss": 1.210829257965088
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4945014715194702,
      "epoch": 14.48,
      "learning_rate": 1.9223544145272387e-06,
      "loss": 0.5262,
      "step": 17131,
      "task_loss": 0.4511256814002991
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31258243322372437,
      "epoch": 14.48,
      "learning_rate": 1.9192235441452726e-06,
      "loss": 0.456,
      "step": 17132,
      "task_loss": 1.1360478401184082
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41305363178253174,
      "epoch": 14.48,
      "learning_rate": 1.916092673763306e-06,
      "loss": 0.3702,
      "step": 17133,
      "task_loss": 0.2268594205379486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5927967429161072,
      "epoch": 14.48,
      "learning_rate": 1.9129618033813403e-06,
      "loss": 0.6354,
      "step": 17134,
      "task_loss": 0.776505708694458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6878869533538818,
      "epoch": 14.48,
      "learning_rate": 1.909830932999374e-06,
      "loss": 0.4666,
      "step": 17135,
      "task_loss": 0.4707425832748413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5402549505233765,
      "epoch": 14.48,
      "learning_rate": 1.9067000626174075e-06,
      "loss": 0.3974,
      "step": 17136,
      "task_loss": 0.5685961246490479
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30798107385635376,
      "epoch": 14.49,
      "learning_rate": 1.9035691922354416e-06,
      "loss": 0.4812,
      "step": 17137,
      "task_loss": 0.23045311868190765
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4857250452041626,
      "epoch": 14.49,
      "learning_rate": 1.9004383218534753e-06,
      "loss": 0.5352,
      "step": 17138,
      "task_loss": 1.1092054843902588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5569819808006287,
      "epoch": 14.49,
      "learning_rate": 1.897307451471509e-06,
      "loss": 0.3404,
      "step": 17139,
      "task_loss": 1.00400710105896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3545370101928711,
      "epoch": 14.49,
      "learning_rate": 1.894176581089543e-06,
      "loss": 0.3603,
      "step": 17140,
      "task_loss": 0.1733947992324829
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4760085344314575,
      "epoch": 14.49,
      "learning_rate": 1.8910457107075768e-06,
      "loss": 0.488,
      "step": 17141,
      "task_loss": 0.5520528554916382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2508397102355957,
      "epoch": 14.49,
      "learning_rate": 1.8879148403256105e-06,
      "loss": 0.3365,
      "step": 17142,
      "task_loss": 0.2727559506893158
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4612678587436676,
      "epoch": 14.49,
      "learning_rate": 1.8847839699436446e-06,
      "loss": 0.4018,
      "step": 17143,
      "task_loss": 0.6322349309921265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33001041412353516,
      "epoch": 14.49,
      "learning_rate": 1.8816530995616783e-06,
      "loss": 0.3992,
      "step": 17144,
      "task_loss": 0.6406881213188171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30308282375335693,
      "epoch": 14.49,
      "learning_rate": 1.878522229179712e-06,
      "loss": 0.5592,
      "step": 17145,
      "task_loss": 1.3972036838531494
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3843546509742737,
      "epoch": 14.49,
      "learning_rate": 1.875391358797746e-06,
      "loss": 0.3329,
      "step": 17146,
      "task_loss": 0.7211971879005432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3494929373264313,
      "epoch": 14.49,
      "learning_rate": 1.8722604884157798e-06,
      "loss": 0.4382,
      "step": 17147,
      "task_loss": 0.4910690486431122
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4327915608882904,
      "epoch": 14.5,
      "learning_rate": 1.8691296180338134e-06,
      "loss": 0.3976,
      "step": 17148,
      "task_loss": 0.543530285358429
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44581884145736694,
      "epoch": 14.5,
      "learning_rate": 1.8659987476518473e-06,
      "loss": 0.3918,
      "step": 17149,
      "task_loss": 0.6715652346611023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6174805164337158,
      "epoch": 14.5,
      "learning_rate": 1.862867877269881e-06,
      "loss": 0.4512,
      "step": 17150,
      "task_loss": 1.2200100421905518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44085693359375,
      "epoch": 14.5,
      "learning_rate": 1.859737006887915e-06,
      "loss": 0.4335,
      "step": 17151,
      "task_loss": 0.8422995209693909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5089803338050842,
      "epoch": 14.5,
      "learning_rate": 1.8566061365059488e-06,
      "loss": 0.4879,
      "step": 17152,
      "task_loss": 0.42755523324012756
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3331029713153839,
      "epoch": 14.5,
      "learning_rate": 1.8534752661239825e-06,
      "loss": 0.4475,
      "step": 17153,
      "task_loss": 0.3573738634586334
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2687777876853943,
      "epoch": 14.5,
      "learning_rate": 1.8503443957420162e-06,
      "loss": 0.2745,
      "step": 17154,
      "task_loss": 0.4204857051372528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4128282964229584,
      "epoch": 14.5,
      "learning_rate": 1.8472135253600503e-06,
      "loss": 0.4586,
      "step": 17155,
      "task_loss": 0.4598551392555237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25596052408218384,
      "epoch": 14.5,
      "learning_rate": 1.844082654978084e-06,
      "loss": 0.4257,
      "step": 17156,
      "task_loss": 0.515296995639801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3365122675895691,
      "epoch": 14.5,
      "learning_rate": 1.8409517845961177e-06,
      "loss": 0.4396,
      "step": 17157,
      "task_loss": 0.8232836723327637
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5818839073181152,
      "epoch": 14.5,
      "learning_rate": 1.8378209142141518e-06,
      "loss": 0.49,
      "step": 17158,
      "task_loss": 1.4746359586715698
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.624703586101532,
      "epoch": 14.5,
      "learning_rate": 1.8346900438321855e-06,
      "loss": 0.4433,
      "step": 17159,
      "task_loss": 0.6088507175445557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5939818024635315,
      "epoch": 14.51,
      "learning_rate": 1.8315591734502192e-06,
      "loss": 0.4751,
      "step": 17160,
      "task_loss": 0.11638196557760239
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32193875312805176,
      "epoch": 14.51,
      "learning_rate": 1.8284283030682533e-06,
      "loss": 0.3962,
      "step": 17161,
      "task_loss": 0.5396692752838135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3688032031059265,
      "epoch": 14.51,
      "learning_rate": 1.825297432686287e-06,
      "loss": 0.405,
      "step": 17162,
      "task_loss": 0.7146035432815552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34023046493530273,
      "epoch": 14.51,
      "learning_rate": 1.8221665623043207e-06,
      "loss": 0.4062,
      "step": 17163,
      "task_loss": 0.5507836937904358
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6317505836486816,
      "epoch": 14.51,
      "learning_rate": 1.8190356919223546e-06,
      "loss": 0.5761,
      "step": 17164,
      "task_loss": 0.968604564666748
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26028740406036377,
      "epoch": 14.51,
      "learning_rate": 1.8159048215403885e-06,
      "loss": 0.3625,
      "step": 17165,
      "task_loss": 0.1907990276813507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5034575462341309,
      "epoch": 14.51,
      "learning_rate": 1.8127739511584221e-06,
      "loss": 0.3943,
      "step": 17166,
      "task_loss": 1.2303072214126587
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3189324140548706,
      "epoch": 14.51,
      "learning_rate": 1.809643080776456e-06,
      "loss": 0.5497,
      "step": 17167,
      "task_loss": 0.12679512798786163
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5811895728111267,
      "epoch": 14.51,
      "learning_rate": 1.8065122103944897e-06,
      "loss": 0.5386,
      "step": 17168,
      "task_loss": 0.7623231410980225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35094332695007324,
      "epoch": 14.51,
      "learning_rate": 1.8033813400125234e-06,
      "loss": 0.3884,
      "step": 17169,
      "task_loss": 0.5511020421981812
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41644835472106934,
      "epoch": 14.51,
      "learning_rate": 1.8002504696305573e-06,
      "loss": 0.4385,
      "step": 17170,
      "task_loss": 1.2136207818984985
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4445434808731079,
      "epoch": 14.51,
      "learning_rate": 1.7971195992485912e-06,
      "loss": 0.418,
      "step": 17171,
      "task_loss": 1.1115741729736328
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46563416719436646,
      "epoch": 14.52,
      "learning_rate": 1.793988728866625e-06,
      "loss": 0.3417,
      "step": 17172,
      "task_loss": 0.7812803387641907
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42502397298812866,
      "epoch": 14.52,
      "learning_rate": 1.7908578584846586e-06,
      "loss": 0.4429,
      "step": 17173,
      "task_loss": 0.6695414781570435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6955183744430542,
      "epoch": 14.52,
      "learning_rate": 1.7877269881026927e-06,
      "loss": 0.426,
      "step": 17174,
      "task_loss": 1.1654292345046997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23286494612693787,
      "epoch": 14.52,
      "learning_rate": 1.7845961177207264e-06,
      "loss": 0.3558,
      "step": 17175,
      "task_loss": 0.24160555005073547
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49450570344924927,
      "epoch": 14.52,
      "learning_rate": 1.78146524733876e-06,
      "loss": 0.5818,
      "step": 17176,
      "task_loss": 1.225767970085144
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3347471356391907,
      "epoch": 14.52,
      "learning_rate": 1.7783343769567942e-06,
      "loss": 0.5093,
      "step": 17177,
      "task_loss": 0.81629478931427
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43596622347831726,
      "epoch": 14.52,
      "learning_rate": 1.7752035065748279e-06,
      "loss": 0.5388,
      "step": 17178,
      "task_loss": 0.5252591967582703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4458302855491638,
      "epoch": 14.52,
      "learning_rate": 1.7720726361928616e-06,
      "loss": 0.5631,
      "step": 17179,
      "task_loss": 0.17128820717334747
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4463277757167816,
      "epoch": 14.52,
      "learning_rate": 1.7689417658108957e-06,
      "loss": 0.3589,
      "step": 17180,
      "task_loss": 0.8688385486602783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3874890208244324,
      "epoch": 14.52,
      "learning_rate": 1.7658108954289294e-06,
      "loss": 0.3351,
      "step": 17181,
      "task_loss": 0.1681387722492218
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2573944926261902,
      "epoch": 14.52,
      "learning_rate": 1.762680025046963e-06,
      "loss": 0.3295,
      "step": 17182,
      "task_loss": 0.0813586413860321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33523496985435486,
      "epoch": 14.52,
      "learning_rate": 1.7595491546649972e-06,
      "loss": 0.4247,
      "step": 17183,
      "task_loss": 0.20954161882400513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3353843092918396,
      "epoch": 14.53,
      "learning_rate": 1.7564182842830308e-06,
      "loss": 0.451,
      "step": 17184,
      "task_loss": 0.3416750133037567
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24771720170974731,
      "epoch": 14.53,
      "learning_rate": 1.7532874139010645e-06,
      "loss": 0.3286,
      "step": 17185,
      "task_loss": 0.869066596031189
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1734934002161026,
      "epoch": 14.53,
      "learning_rate": 1.7501565435190984e-06,
      "loss": 0.3207,
      "step": 17186,
      "task_loss": 0.3999532461166382
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4610580503940582,
      "epoch": 14.53,
      "learning_rate": 1.7470256731371321e-06,
      "loss": 0.4401,
      "step": 17187,
      "task_loss": 0.9649704694747925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8150652647018433,
      "epoch": 14.53,
      "learning_rate": 1.7438948027551658e-06,
      "loss": 0.4996,
      "step": 17188,
      "task_loss": 0.41869115829467773
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39124324917793274,
      "epoch": 14.53,
      "learning_rate": 1.7407639323732e-06,
      "loss": 0.3388,
      "step": 17189,
      "task_loss": 0.8398354053497314
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5649592876434326,
      "epoch": 14.53,
      "learning_rate": 1.7376330619912336e-06,
      "loss": 0.4813,
      "step": 17190,
      "task_loss": 0.8546082377433777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2996498644351959,
      "epoch": 14.53,
      "learning_rate": 1.7345021916092673e-06,
      "loss": 0.4047,
      "step": 17191,
      "task_loss": 0.7353487014770508
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35074225068092346,
      "epoch": 14.53,
      "learning_rate": 1.7313713212273014e-06,
      "loss": 0.3285,
      "step": 17192,
      "task_loss": 0.06174403056502342
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3170080780982971,
      "epoch": 14.53,
      "learning_rate": 1.728240450845335e-06,
      "loss": 0.431,
      "step": 17193,
      "task_loss": 0.7953160405158997
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6341738104820251,
      "epoch": 14.53,
      "learning_rate": 1.7251095804633688e-06,
      "loss": 0.4163,
      "step": 17194,
      "task_loss": 1.128311038017273
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4974920153617859,
      "epoch": 14.53,
      "learning_rate": 1.7219787100814029e-06,
      "loss": 0.4072,
      "step": 17195,
      "task_loss": 0.40026476979255676
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2541795074939728,
      "epoch": 14.54,
      "learning_rate": 1.7188478396994366e-06,
      "loss": 0.617,
      "step": 17196,
      "task_loss": 1.1928843259811401
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23028606176376343,
      "epoch": 14.54,
      "learning_rate": 1.7157169693174703e-06,
      "loss": 0.3363,
      "step": 17197,
      "task_loss": 0.5183702707290649
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23577705025672913,
      "epoch": 14.54,
      "learning_rate": 1.7125860989355044e-06,
      "loss": 0.3573,
      "step": 17198,
      "task_loss": 0.28214848041534424
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5232810378074646,
      "epoch": 14.54,
      "learning_rate": 1.709455228553538e-06,
      "loss": 0.4981,
      "step": 17199,
      "task_loss": 0.4145178496837616
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37670832872390747,
      "epoch": 14.54,
      "learning_rate": 1.7063243581715717e-06,
      "loss": 0.4411,
      "step": 17200,
      "task_loss": 0.35126960277557373
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6056106090545654,
      "epoch": 14.54,
      "learning_rate": 1.7031934877896056e-06,
      "loss": 0.4467,
      "step": 17201,
      "task_loss": 0.5828391313552856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.310541570186615,
      "epoch": 14.54,
      "learning_rate": 1.7000626174076395e-06,
      "loss": 0.3043,
      "step": 17202,
      "task_loss": 0.33325737714767456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5862204432487488,
      "epoch": 14.54,
      "learning_rate": 1.6969317470256732e-06,
      "loss": 0.5235,
      "step": 17203,
      "task_loss": 0.4860534965991974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6971747875213623,
      "epoch": 14.54,
      "learning_rate": 1.6938008766437071e-06,
      "loss": 0.6157,
      "step": 17204,
      "task_loss": 0.758511483669281
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3226625621318817,
      "epoch": 14.54,
      "learning_rate": 1.6906700062617408e-06,
      "loss": 0.4864,
      "step": 17205,
      "task_loss": 0.23236438632011414
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32875359058380127,
      "epoch": 14.54,
      "learning_rate": 1.6875391358797745e-06,
      "loss": 0.5218,
      "step": 17206,
      "task_loss": 1.018942952156067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6945748925209045,
      "epoch": 14.54,
      "learning_rate": 1.6844082654978086e-06,
      "loss": 0.5539,
      "step": 17207,
      "task_loss": 1.2604470252990723
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3931906819343567,
      "epoch": 14.55,
      "learning_rate": 1.6812773951158423e-06,
      "loss": 0.4116,
      "step": 17208,
      "task_loss": 0.3568468689918518
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49545061588287354,
      "epoch": 14.55,
      "learning_rate": 1.678146524733876e-06,
      "loss": 0.3723,
      "step": 17209,
      "task_loss": 0.3244306743144989
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3989715874195099,
      "epoch": 14.55,
      "learning_rate": 1.67501565435191e-06,
      "loss": 0.5803,
      "step": 17210,
      "task_loss": 0.2940036654472351
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26443877816200256,
      "epoch": 14.55,
      "learning_rate": 1.6718847839699438e-06,
      "loss": 0.3887,
      "step": 17211,
      "task_loss": 0.2641715109348297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2366946041584015,
      "epoch": 14.55,
      "learning_rate": 1.6687539135879775e-06,
      "loss": 0.3777,
      "step": 17212,
      "task_loss": 0.21904629468917847
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23915889859199524,
      "epoch": 14.55,
      "learning_rate": 1.6656230432060116e-06,
      "loss": 0.3311,
      "step": 17213,
      "task_loss": 0.48719826340675354
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3997771739959717,
      "epoch": 14.55,
      "learning_rate": 1.6624921728240453e-06,
      "loss": 0.4296,
      "step": 17214,
      "task_loss": 0.37938666343688965
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3508864641189575,
      "epoch": 14.55,
      "learning_rate": 1.659361302442079e-06,
      "loss": 0.4152,
      "step": 17215,
      "task_loss": 1.053418755531311
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42499208450317383,
      "epoch": 14.55,
      "learning_rate": 1.6562304320601126e-06,
      "loss": 0.4675,
      "step": 17216,
      "task_loss": 0.6221652626991272
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42762434482574463,
      "epoch": 14.55,
      "learning_rate": 1.6530995616781467e-06,
      "loss": 0.383,
      "step": 17217,
      "task_loss": 0.7209107875823975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1759936362504959,
      "epoch": 14.55,
      "learning_rate": 1.6499686912961804e-06,
      "loss": 0.31,
      "step": 17218,
      "task_loss": 0.02143777348101139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32599878311157227,
      "epoch": 14.56,
      "learning_rate": 1.6468378209142141e-06,
      "loss": 0.3883,
      "step": 17219,
      "task_loss": 0.7349538803100586
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3515596389770508,
      "epoch": 14.56,
      "learning_rate": 1.643706950532248e-06,
      "loss": 0.3706,
      "step": 17220,
      "task_loss": 0.21460795402526855
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4390218257904053,
      "epoch": 14.56,
      "learning_rate": 1.640576080150282e-06,
      "loss": 0.51,
      "step": 17221,
      "task_loss": 1.0591636896133423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4569816589355469,
      "epoch": 14.56,
      "learning_rate": 1.6374452097683156e-06,
      "loss": 0.5575,
      "step": 17222,
      "task_loss": 1.3406659364700317
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6836150288581848,
      "epoch": 14.56,
      "learning_rate": 1.6343143393863495e-06,
      "loss": 0.5776,
      "step": 17223,
      "task_loss": 1.5863791704177856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30748996138572693,
      "epoch": 14.56,
      "learning_rate": 1.6311834690043832e-06,
      "loss": 0.4324,
      "step": 17224,
      "task_loss": 0.20071610808372498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45699822902679443,
      "epoch": 14.56,
      "learning_rate": 1.6280525986224169e-06,
      "loss": 0.4688,
      "step": 17225,
      "task_loss": 1.3305816650390625
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3302941918373108,
      "epoch": 14.56,
      "learning_rate": 1.624921728240451e-06,
      "loss": 0.4475,
      "step": 17226,
      "task_loss": 0.8264939188957214
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3029214143753052,
      "epoch": 14.56,
      "learning_rate": 1.6217908578584847e-06,
      "loss": 0.5776,
      "step": 17227,
      "task_loss": 0.5357025861740112
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5746191740036011,
      "epoch": 14.56,
      "learning_rate": 1.6186599874765184e-06,
      "loss": 0.4967,
      "step": 17228,
      "task_loss": 1.407219409942627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5744656920433044,
      "epoch": 14.56,
      "learning_rate": 1.6155291170945525e-06,
      "loss": 0.4828,
      "step": 17229,
      "task_loss": 1.3388798236846924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3589078187942505,
      "epoch": 14.56,
      "learning_rate": 1.6123982467125862e-06,
      "loss": 0.4991,
      "step": 17230,
      "task_loss": 0.40696027874946594
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1679442822933197,
      "epoch": 14.57,
      "learning_rate": 1.6092673763306198e-06,
      "loss": 0.4005,
      "step": 17231,
      "task_loss": 0.14925263822078705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5106877088546753,
      "epoch": 14.57,
      "learning_rate": 1.606136505948654e-06,
      "loss": 0.447,
      "step": 17232,
      "task_loss": 0.8910394310951233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4541136920452118,
      "epoch": 14.57,
      "learning_rate": 1.6030056355666876e-06,
      "loss": 0.4363,
      "step": 17233,
      "task_loss": 0.5315420031547546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45758163928985596,
      "epoch": 14.57,
      "learning_rate": 1.5998747651847213e-06,
      "loss": 0.4115,
      "step": 17234,
      "task_loss": 0.5779350996017456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3459309935569763,
      "epoch": 14.57,
      "learning_rate": 1.5967438948027554e-06,
      "loss": 0.4796,
      "step": 17235,
      "task_loss": 0.45665818452835083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3580375909805298,
      "epoch": 14.57,
      "learning_rate": 1.5936130244207891e-06,
      "loss": 0.4072,
      "step": 17236,
      "task_loss": 0.9093347191810608
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5252633094787598,
      "epoch": 14.57,
      "learning_rate": 1.5904821540388228e-06,
      "loss": 0.4174,
      "step": 17237,
      "task_loss": 0.8439884185791016
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5348396301269531,
      "epoch": 14.57,
      "learning_rate": 1.5873512836568567e-06,
      "loss": 0.5759,
      "step": 17238,
      "task_loss": 0.9875627160072327
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6612797975540161,
      "epoch": 14.57,
      "learning_rate": 1.5842204132748904e-06,
      "loss": 0.4851,
      "step": 17239,
      "task_loss": 0.3518453538417816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3970454931259155,
      "epoch": 14.57,
      "learning_rate": 1.5810895428929243e-06,
      "loss": 0.5387,
      "step": 17240,
      "task_loss": 0.6235886812210083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47881972789764404,
      "epoch": 14.57,
      "learning_rate": 1.5779586725109582e-06,
      "loss": 0.4952,
      "step": 17241,
      "task_loss": 1.0482873916625977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30198046565055847,
      "epoch": 14.57,
      "learning_rate": 1.5748278021289919e-06,
      "loss": 0.4056,
      "step": 17242,
      "task_loss": 0.05242134630680084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4714646339416504,
      "epoch": 14.58,
      "learning_rate": 1.5716969317470256e-06,
      "loss": 0.4147,
      "step": 17243,
      "task_loss": 0.5463011264801025
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2727894186973572,
      "epoch": 14.58,
      "learning_rate": 1.5685660613650597e-06,
      "loss": 0.4421,
      "step": 17244,
      "task_loss": 0.9505635499954224
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5830545425415039,
      "epoch": 14.58,
      "learning_rate": 1.5654351909830934e-06,
      "loss": 0.4016,
      "step": 17245,
      "task_loss": 1.1720823049545288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5475051999092102,
      "epoch": 14.58,
      "learning_rate": 1.5623043206011273e-06,
      "loss": 0.5234,
      "step": 17246,
      "task_loss": 0.614881694316864
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3637557625770569,
      "epoch": 14.58,
      "learning_rate": 1.559173450219161e-06,
      "loss": 0.4011,
      "step": 17247,
      "task_loss": 0.561176598072052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42638325691223145,
      "epoch": 14.58,
      "learning_rate": 1.5560425798371949e-06,
      "loss": 0.4295,
      "step": 17248,
      "task_loss": 0.7968301773071289
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5601773262023926,
      "epoch": 14.58,
      "learning_rate": 1.5529117094552285e-06,
      "loss": 0.4841,
      "step": 17249,
      "task_loss": 0.6022218465805054
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3087989091873169,
      "epoch": 14.58,
      "learning_rate": 1.5497808390732624e-06,
      "loss": 0.3729,
      "step": 17250,
      "task_loss": 0.6413635611534119
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4698597192764282,
      "epoch": 14.58,
      "learning_rate": 1.5466499686912963e-06,
      "loss": 0.417,
      "step": 17251,
      "task_loss": 0.6083942651748657
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5878416895866394,
      "epoch": 14.58,
      "learning_rate": 1.54351909830933e-06,
      "loss": 0.4146,
      "step": 17252,
      "task_loss": 1.0150325298309326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3796367049217224,
      "epoch": 14.58,
      "learning_rate": 1.540388227927364e-06,
      "loss": 0.4923,
      "step": 17253,
      "task_loss": 0.7415944337844849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4676128625869751,
      "epoch": 14.58,
      "learning_rate": 1.5372573575453978e-06,
      "loss": 0.3949,
      "step": 17254,
      "task_loss": 0.9034557342529297
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45033371448516846,
      "epoch": 14.59,
      "learning_rate": 1.5341264871634315e-06,
      "loss": 0.5445,
      "step": 17255,
      "task_loss": 1.0362704992294312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27280083298683167,
      "epoch": 14.59,
      "learning_rate": 1.5309956167814654e-06,
      "loss": 0.4749,
      "step": 17256,
      "task_loss": 1.136778473854065
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45280537009239197,
      "epoch": 14.59,
      "learning_rate": 1.527864746399499e-06,
      "loss": 0.4788,
      "step": 17257,
      "task_loss": 0.9951274394989014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26841744780540466,
      "epoch": 14.59,
      "learning_rate": 1.5247338760175328e-06,
      "loss": 0.419,
      "step": 17258,
      "task_loss": 0.4445120394229889
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2763978838920593,
      "epoch": 14.59,
      "learning_rate": 1.5216030056355667e-06,
      "loss": 0.286,
      "step": 17259,
      "task_loss": 0.7184416055679321
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2963075637817383,
      "epoch": 14.59,
      "learning_rate": 1.5184721352536006e-06,
      "loss": 0.3339,
      "step": 17260,
      "task_loss": 0.17656856775283813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2531379759311676,
      "epoch": 14.59,
      "learning_rate": 1.5153412648716343e-06,
      "loss": 0.3941,
      "step": 17261,
      "task_loss": 0.3306145966053009
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33183592557907104,
      "epoch": 14.59,
      "learning_rate": 1.5122103944896682e-06,
      "loss": 0.3327,
      "step": 17262,
      "task_loss": 1.0159673690795898
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3940688371658325,
      "epoch": 14.59,
      "learning_rate": 1.509079524107702e-06,
      "loss": 0.4577,
      "step": 17263,
      "task_loss": 0.9605355262756348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28974857926368713,
      "epoch": 14.59,
      "learning_rate": 1.5059486537257358e-06,
      "loss": 0.3525,
      "step": 17264,
      "task_loss": 0.03501519933342934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3745652139186859,
      "epoch": 14.59,
      "learning_rate": 1.5028177833437697e-06,
      "loss": 0.577,
      "step": 17265,
      "task_loss": 0.1273271143436432
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37303176522254944,
      "epoch": 14.59,
      "learning_rate": 1.4996869129618036e-06,
      "loss": 0.3651,
      "step": 17266,
      "task_loss": 0.40447163581848145
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.860044538974762,
      "epoch": 14.6,
      "learning_rate": 1.4965560425798372e-06,
      "loss": 0.5916,
      "step": 17267,
      "task_loss": 0.5383151173591614
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2233278900384903,
      "epoch": 14.6,
      "learning_rate": 1.4934251721978711e-06,
      "loss": 0.318,
      "step": 17268,
      "task_loss": 0.0745527520775795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20887090265750885,
      "epoch": 14.6,
      "learning_rate": 1.490294301815905e-06,
      "loss": 0.2685,
      "step": 17269,
      "task_loss": 0.265988290309906
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37814944982528687,
      "epoch": 14.6,
      "learning_rate": 1.4871634314339387e-06,
      "loss": 0.428,
      "step": 17270,
      "task_loss": 0.6687100529670715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3034237027168274,
      "epoch": 14.6,
      "learning_rate": 1.4840325610519726e-06,
      "loss": 0.4598,
      "step": 17271,
      "task_loss": 0.6815308332443237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48559582233428955,
      "epoch": 14.6,
      "learning_rate": 1.4809016906700063e-06,
      "loss": 0.4193,
      "step": 17272,
      "task_loss": 1.1546450853347778
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3958321809768677,
      "epoch": 14.6,
      "learning_rate": 1.4777708202880402e-06,
      "loss": 0.3847,
      "step": 17273,
      "task_loss": 0.5302948355674744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.580419659614563,
      "epoch": 14.6,
      "learning_rate": 1.474639949906074e-06,
      "loss": 0.5044,
      "step": 17274,
      "task_loss": 1.3623911142349243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5084754228591919,
      "epoch": 14.6,
      "learning_rate": 1.4715090795241078e-06,
      "loss": 0.4033,
      "step": 17275,
      "task_loss": 0.792866051197052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5393266677856445,
      "epoch": 14.6,
      "learning_rate": 1.4683782091421415e-06,
      "loss": 0.4836,
      "step": 17276,
      "task_loss": 0.5101063251495361
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2739027142524719,
      "epoch": 14.6,
      "learning_rate": 1.4652473387601754e-06,
      "loss": 0.3873,
      "step": 17277,
      "task_loss": 0.3916671872138977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32769453525543213,
      "epoch": 14.6,
      "learning_rate": 1.462116468378209e-06,
      "loss": 0.3751,
      "step": 17278,
      "task_loss": 1.182735562324524
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3917797803878784,
      "epoch": 14.61,
      "learning_rate": 1.458985597996243e-06,
      "loss": 0.3567,
      "step": 17279,
      "task_loss": 0.19637514650821686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5470305681228638,
      "epoch": 14.61,
      "learning_rate": 1.4558547276142769e-06,
      "loss": 0.3494,
      "step": 17280,
      "task_loss": 0.9769011735916138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36930564045906067,
      "epoch": 14.61,
      "learning_rate": 1.4527238572323106e-06,
      "loss": 0.3386,
      "step": 17281,
      "task_loss": 0.2685878276824951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6520836353302002,
      "epoch": 14.61,
      "learning_rate": 1.4495929868503445e-06,
      "loss": 0.5598,
      "step": 17282,
      "task_loss": 0.8928559422492981
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6259812116622925,
      "epoch": 14.61,
      "learning_rate": 1.4464621164683784e-06,
      "loss": 0.4141,
      "step": 17283,
      "task_loss": 1.0065593719482422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5967378616333008,
      "epoch": 14.61,
      "learning_rate": 1.443331246086412e-06,
      "loss": 0.4944,
      "step": 17284,
      "task_loss": 0.6277262568473816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4341997504234314,
      "epoch": 14.61,
      "learning_rate": 1.440200375704446e-06,
      "loss": 0.3934,
      "step": 17285,
      "task_loss": 0.965166449546814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4914790093898773,
      "epoch": 14.61,
      "learning_rate": 1.4370695053224798e-06,
      "loss": 0.4996,
      "step": 17286,
      "task_loss": 1.4441951513290405
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23579122126102448,
      "epoch": 14.61,
      "learning_rate": 1.4339386349405135e-06,
      "loss": 0.3826,
      "step": 17287,
      "task_loss": 0.07365141808986664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3960835933685303,
      "epoch": 14.61,
      "learning_rate": 1.4308077645585474e-06,
      "loss": 0.4272,
      "step": 17288,
      "task_loss": 0.42647862434387207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5296005010604858,
      "epoch": 14.61,
      "learning_rate": 1.4276768941765813e-06,
      "loss": 0.4535,
      "step": 17289,
      "task_loss": 0.19638118147850037
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4988381564617157,
      "epoch": 14.61,
      "learning_rate": 1.424546023794615e-06,
      "loss": 0.431,
      "step": 17290,
      "task_loss": 0.6012593507766724
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4685893654823303,
      "epoch": 14.62,
      "learning_rate": 1.421415153412649e-06,
      "loss": 0.4694,
      "step": 17291,
      "task_loss": 0.5627483129501343
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4197808504104614,
      "epoch": 14.62,
      "learning_rate": 1.4182842830306826e-06,
      "loss": 0.3968,
      "step": 17292,
      "task_loss": 0.8268234729766846
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6513392925262451,
      "epoch": 14.62,
      "learning_rate": 1.4151534126487163e-06,
      "loss": 0.5,
      "step": 17293,
      "task_loss": 0.5154443979263306
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5747188925743103,
      "epoch": 14.62,
      "learning_rate": 1.4120225422667502e-06,
      "loss": 0.4371,
      "step": 17294,
      "task_loss": 1.051249384880066
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3696342706680298,
      "epoch": 14.62,
      "learning_rate": 1.4088916718847839e-06,
      "loss": 0.2927,
      "step": 17295,
      "task_loss": 0.12619948387145996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2519896328449249,
      "epoch": 14.62,
      "learning_rate": 1.4057608015028178e-06,
      "loss": 0.4181,
      "step": 17296,
      "task_loss": 0.7974138855934143
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20119225978851318,
      "epoch": 14.62,
      "learning_rate": 1.4026299311208517e-06,
      "loss": 0.2917,
      "step": 17297,
      "task_loss": 0.260373592376709
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45740705728530884,
      "epoch": 14.62,
      "learning_rate": 1.3994990607388854e-06,
      "loss": 0.3982,
      "step": 17298,
      "task_loss": 0.2627262473106384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.379129558801651,
      "epoch": 14.62,
      "learning_rate": 1.3963681903569193e-06,
      "loss": 0.3549,
      "step": 17299,
      "task_loss": 0.3021126687526703
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21881410479545593,
      "epoch": 14.62,
      "learning_rate": 1.3932373199749531e-06,
      "loss": 0.3969,
      "step": 17300,
      "task_loss": 0.6385721564292908
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35031658411026,
      "epoch": 14.62,
      "learning_rate": 1.3901064495929868e-06,
      "loss": 0.4585,
      "step": 17301,
      "task_loss": 1.2311146259307861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3911670446395874,
      "epoch": 14.63,
      "learning_rate": 1.3869755792110207e-06,
      "loss": 0.3901,
      "step": 17302,
      "task_loss": 0.891785740852356
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24634358286857605,
      "epoch": 14.63,
      "learning_rate": 1.3838447088290546e-06,
      "loss": 0.4279,
      "step": 17303,
      "task_loss": 0.3305288851261139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22739079594612122,
      "epoch": 14.63,
      "learning_rate": 1.3807138384470883e-06,
      "loss": 0.4081,
      "step": 17304,
      "task_loss": 0.23333978652954102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2509737014770508,
      "epoch": 14.63,
      "learning_rate": 1.3775829680651222e-06,
      "loss": 0.5666,
      "step": 17305,
      "task_loss": 0.8968561291694641
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3248009979724884,
      "epoch": 14.63,
      "learning_rate": 1.3744520976831561e-06,
      "loss": 0.4029,
      "step": 17306,
      "task_loss": 0.4645647406578064
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3371959328651428,
      "epoch": 14.63,
      "learning_rate": 1.3713212273011898e-06,
      "loss": 0.4657,
      "step": 17307,
      "task_loss": 0.6260866522789001
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22023454308509827,
      "epoch": 14.63,
      "learning_rate": 1.3681903569192237e-06,
      "loss": 0.3779,
      "step": 17308,
      "task_loss": 0.9183065891265869
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5598596930503845,
      "epoch": 14.63,
      "learning_rate": 1.3650594865372574e-06,
      "loss": 0.4527,
      "step": 17309,
      "task_loss": 0.4833635985851288
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5848575830459595,
      "epoch": 14.63,
      "learning_rate": 1.3619286161552913e-06,
      "loss": 0.4894,
      "step": 17310,
      "task_loss": 0.12340700626373291
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3043230175971985,
      "epoch": 14.63,
      "learning_rate": 1.358797745773325e-06,
      "loss": 0.3666,
      "step": 17311,
      "task_loss": 0.28896433115005493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6778768301010132,
      "epoch": 14.63,
      "learning_rate": 1.3556668753913589e-06,
      "loss": 0.4348,
      "step": 17312,
      "task_loss": 0.3596498668193817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33063891530036926,
      "epoch": 14.63,
      "learning_rate": 1.3525360050093926e-06,
      "loss": 0.4262,
      "step": 17313,
      "task_loss": 0.46729838848114014
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2666628360748291,
      "epoch": 14.64,
      "learning_rate": 1.3494051346274265e-06,
      "loss": 0.3828,
      "step": 17314,
      "task_loss": 0.3897934556007385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37514349818229675,
      "epoch": 14.64,
      "learning_rate": 1.3462742642454604e-06,
      "loss": 0.3996,
      "step": 17315,
      "task_loss": 0.3655327260494232
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3465350568294525,
      "epoch": 14.64,
      "learning_rate": 1.343143393863494e-06,
      "loss": 0.4306,
      "step": 17316,
      "task_loss": 0.8971902132034302
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44819894433021545,
      "epoch": 14.64,
      "learning_rate": 1.340012523481528e-06,
      "loss": 0.3959,
      "step": 17317,
      "task_loss": 0.889652669429779
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35851773619651794,
      "epoch": 14.64,
      "learning_rate": 1.3368816530995618e-06,
      "loss": 0.3855,
      "step": 17318,
      "task_loss": 0.1520441323518753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2131715565919876,
      "epoch": 14.64,
      "learning_rate": 1.3337507827175955e-06,
      "loss": 0.385,
      "step": 17319,
      "task_loss": 0.6853291988372803
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2293245643377304,
      "epoch": 14.64,
      "learning_rate": 1.3306199123356294e-06,
      "loss": 0.4229,
      "step": 17320,
      "task_loss": 0.24237465858459473
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26593366265296936,
      "epoch": 14.64,
      "learning_rate": 1.3274890419536631e-06,
      "loss": 0.383,
      "step": 17321,
      "task_loss": 0.13682004809379578
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38023146986961365,
      "epoch": 14.64,
      "learning_rate": 1.324358171571697e-06,
      "loss": 0.3263,
      "step": 17322,
      "task_loss": 0.6493584513664246
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3394341468811035,
      "epoch": 14.64,
      "learning_rate": 1.321227301189731e-06,
      "loss": 0.3428,
      "step": 17323,
      "task_loss": 0.9056917428970337
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4006498456001282,
      "epoch": 14.64,
      "learning_rate": 1.3180964308077646e-06,
      "loss": 0.4714,
      "step": 17324,
      "task_loss": 0.6913872361183167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39156514406204224,
      "epoch": 14.64,
      "learning_rate": 1.3149655604257985e-06,
      "loss": 0.3509,
      "step": 17325,
      "task_loss": 0.682421863079071
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5162192583084106,
      "epoch": 14.65,
      "learning_rate": 1.3118346900438324e-06,
      "loss": 0.4333,
      "step": 17326,
      "task_loss": 1.0378249883651733
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34804651141166687,
      "epoch": 14.65,
      "learning_rate": 1.308703819661866e-06,
      "loss": 0.4198,
      "step": 17327,
      "task_loss": 0.28543534874916077
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4196206331253052,
      "epoch": 14.65,
      "learning_rate": 1.3055729492798998e-06,
      "loss": 0.3214,
      "step": 17328,
      "task_loss": 0.47839874029159546
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23498983681201935,
      "epoch": 14.65,
      "learning_rate": 1.3024420788979337e-06,
      "loss": 0.3362,
      "step": 17329,
      "task_loss": 0.053035132586956024
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30291736125946045,
      "epoch": 14.65,
      "learning_rate": 1.2993112085159674e-06,
      "loss": 0.3664,
      "step": 17330,
      "task_loss": 0.0866217091679573
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39516544342041016,
      "epoch": 14.65,
      "learning_rate": 1.2961803381340013e-06,
      "loss": 0.3211,
      "step": 17331,
      "task_loss": 0.32983914017677307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43149691820144653,
      "epoch": 14.65,
      "learning_rate": 1.2930494677520352e-06,
      "loss": 0.4812,
      "step": 17332,
      "task_loss": 0.4982120394706726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37537384033203125,
      "epoch": 14.65,
      "learning_rate": 1.2899185973700688e-06,
      "loss": 0.4215,
      "step": 17333,
      "task_loss": 0.8161500096321106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2348639965057373,
      "epoch": 14.65,
      "learning_rate": 1.2867877269881027e-06,
      "loss": 0.3724,
      "step": 17334,
      "task_loss": 0.050869494676589966
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3106135129928589,
      "epoch": 14.65,
      "learning_rate": 1.2836568566061366e-06,
      "loss": 0.3454,
      "step": 17335,
      "task_loss": 0.20367896556854248
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4267975687980652,
      "epoch": 14.65,
      "learning_rate": 1.2805259862241703e-06,
      "loss": 0.347,
      "step": 17336,
      "task_loss": 0.5396055579185486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5422550439834595,
      "epoch": 14.65,
      "learning_rate": 1.2773951158422042e-06,
      "loss": 0.5408,
      "step": 17337,
      "task_loss": 0.7073110938072205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4812384843826294,
      "epoch": 14.66,
      "learning_rate": 1.2742642454602381e-06,
      "loss": 0.3293,
      "step": 17338,
      "task_loss": 1.171248197555542
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5541421175003052,
      "epoch": 14.66,
      "learning_rate": 1.2711333750782718e-06,
      "loss": 0.3957,
      "step": 17339,
      "task_loss": 0.9048150777816772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2813737988471985,
      "epoch": 14.66,
      "learning_rate": 1.2680025046963057e-06,
      "loss": 0.3664,
      "step": 17340,
      "task_loss": 0.42456522583961487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39900636672973633,
      "epoch": 14.66,
      "learning_rate": 1.2648716343143396e-06,
      "loss": 0.4364,
      "step": 17341,
      "task_loss": 0.3720570504665375
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3787494897842407,
      "epoch": 14.66,
      "learning_rate": 1.2617407639323733e-06,
      "loss": 0.4323,
      "step": 17342,
      "task_loss": 0.7346801161766052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3247024714946747,
      "epoch": 14.66,
      "learning_rate": 1.2586098935504072e-06,
      "loss": 0.4424,
      "step": 17343,
      "task_loss": 0.5584707856178284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38433927297592163,
      "epoch": 14.66,
      "learning_rate": 1.2554790231684409e-06,
      "loss": 0.373,
      "step": 17344,
      "task_loss": 0.19019602239131927
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5202157497406006,
      "epoch": 14.66,
      "learning_rate": 1.2523481527864748e-06,
      "loss": 0.4585,
      "step": 17345,
      "task_loss": 1.3662285804748535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26578718423843384,
      "epoch": 14.66,
      "learning_rate": 1.2492172824045085e-06,
      "loss": 0.4264,
      "step": 17346,
      "task_loss": 0.18300405144691467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4707932472229004,
      "epoch": 14.66,
      "learning_rate": 1.2460864120225422e-06,
      "loss": 0.5369,
      "step": 17347,
      "task_loss": 0.6052685976028442
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29120200872421265,
      "epoch": 14.66,
      "learning_rate": 1.242955541640576e-06,
      "loss": 0.3963,
      "step": 17348,
      "task_loss": 0.5371758937835693
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5255059003829956,
      "epoch": 14.66,
      "learning_rate": 1.23982467125861e-06,
      "loss": 0.4466,
      "step": 17349,
      "task_loss": 0.45712339878082275
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40821969509124756,
      "epoch": 14.67,
      "learning_rate": 1.2366938008766436e-06,
      "loss": 0.4004,
      "step": 17350,
      "task_loss": 0.5345869660377502
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2725977897644043,
      "epoch": 14.67,
      "learning_rate": 1.2335629304946775e-06,
      "loss": 0.3883,
      "step": 17351,
      "task_loss": 0.4434405267238617
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28785955905914307,
      "epoch": 14.67,
      "learning_rate": 1.2304320601127114e-06,
      "loss": 0.4715,
      "step": 17352,
      "task_loss": 0.6909152269363403
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5244784355163574,
      "epoch": 14.67,
      "learning_rate": 1.2273011897307451e-06,
      "loss": 0.4769,
      "step": 17353,
      "task_loss": 0.5924908518791199
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2312956154346466,
      "epoch": 14.67,
      "learning_rate": 1.224170319348779e-06,
      "loss": 0.4093,
      "step": 17354,
      "task_loss": 0.25616440176963806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22343634068965912,
      "epoch": 14.67,
      "learning_rate": 1.221039448966813e-06,
      "loss": 0.4333,
      "step": 17355,
      "task_loss": 0.2728278338909149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8343144655227661,
      "epoch": 14.67,
      "learning_rate": 1.2179085785848466e-06,
      "loss": 0.48,
      "step": 17356,
      "task_loss": 0.3452765941619873
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5060250163078308,
      "epoch": 14.67,
      "learning_rate": 1.2147777082028805e-06,
      "loss": 0.4382,
      "step": 17357,
      "task_loss": 0.4810221493244171
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3893536329269409,
      "epoch": 14.67,
      "learning_rate": 1.2116468378209144e-06,
      "loss": 0.5207,
      "step": 17358,
      "task_loss": 0.7343451976776123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2749096751213074,
      "epoch": 14.67,
      "learning_rate": 1.208515967438948e-06,
      "loss": 0.351,
      "step": 17359,
      "task_loss": 0.6341217160224915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33660343289375305,
      "epoch": 14.67,
      "learning_rate": 1.205385097056982e-06,
      "loss": 0.4,
      "step": 17360,
      "task_loss": 0.8653087615966797
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37508708238601685,
      "epoch": 14.67,
      "learning_rate": 1.202254226675016e-06,
      "loss": 0.4525,
      "step": 17361,
      "task_loss": 1.0624148845672607
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3612176179885864,
      "epoch": 14.68,
      "learning_rate": 1.1991233562930496e-06,
      "loss": 0.5289,
      "step": 17362,
      "task_loss": 1.0991487503051758
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25758111476898193,
      "epoch": 14.68,
      "learning_rate": 1.1959924859110833e-06,
      "loss": 0.3172,
      "step": 17363,
      "task_loss": 0.32445183396339417
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4308975636959076,
      "epoch": 14.68,
      "learning_rate": 1.1928616155291172e-06,
      "loss": 0.3682,
      "step": 17364,
      "task_loss": 0.32317912578582764
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1985877901315689,
      "epoch": 14.68,
      "learning_rate": 1.1897307451471509e-06,
      "loss": 0.3949,
      "step": 17365,
      "task_loss": 0.24320802092552185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3549959659576416,
      "epoch": 14.68,
      "learning_rate": 1.1865998747651848e-06,
      "loss": 0.4008,
      "step": 17366,
      "task_loss": 0.30011215806007385
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2536064088344574,
      "epoch": 14.68,
      "learning_rate": 1.1834690043832184e-06,
      "loss": 0.4361,
      "step": 17367,
      "task_loss": 0.592095136642456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42818060517311096,
      "epoch": 14.68,
      "learning_rate": 1.1803381340012523e-06,
      "loss": 0.3571,
      "step": 17368,
      "task_loss": 0.24397972226142883
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3769943118095398,
      "epoch": 14.68,
      "learning_rate": 1.1772072636192862e-06,
      "loss": 0.4642,
      "step": 17369,
      "task_loss": 0.21095257997512817
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2481415867805481,
      "epoch": 14.68,
      "learning_rate": 1.17407639323732e-06,
      "loss": 0.3922,
      "step": 17370,
      "task_loss": 0.10882478952407837
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4800458550453186,
      "epoch": 14.68,
      "learning_rate": 1.1709455228553538e-06,
      "loss": 0.4952,
      "step": 17371,
      "task_loss": 0.5917230248451233
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4422609508037567,
      "epoch": 14.68,
      "learning_rate": 1.1678146524733877e-06,
      "loss": 0.4287,
      "step": 17372,
      "task_loss": 0.9385318756103516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3874049484729767,
      "epoch": 14.69,
      "learning_rate": 1.1646837820914214e-06,
      "loss": 0.36,
      "step": 17373,
      "task_loss": 0.25232720375061035
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.376666396856308,
      "epoch": 14.69,
      "learning_rate": 1.1615529117094553e-06,
      "loss": 0.3961,
      "step": 17374,
      "task_loss": 0.29091933369636536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3603006601333618,
      "epoch": 14.69,
      "learning_rate": 1.1584220413274892e-06,
      "loss": 0.3844,
      "step": 17375,
      "task_loss": 0.6357316970825195
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5914411544799805,
      "epoch": 14.69,
      "learning_rate": 1.1552911709455229e-06,
      "loss": 0.4495,
      "step": 17376,
      "task_loss": 0.9139946699142456
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29654550552368164,
      "epoch": 14.69,
      "learning_rate": 1.1521603005635568e-06,
      "loss": 0.3222,
      "step": 17377,
      "task_loss": 0.32494306564331055
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.415818989276886,
      "epoch": 14.69,
      "learning_rate": 1.1490294301815907e-06,
      "loss": 0.5121,
      "step": 17378,
      "task_loss": 0.7932120561599731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.460249125957489,
      "epoch": 14.69,
      "learning_rate": 1.1458985597996244e-06,
      "loss": 0.3762,
      "step": 17379,
      "task_loss": 1.0070444345474243
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.639504075050354,
      "epoch": 14.69,
      "learning_rate": 1.1427676894176583e-06,
      "loss": 0.5678,
      "step": 17380,
      "task_loss": 1.273556113243103
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6360897421836853,
      "epoch": 14.69,
      "learning_rate": 1.139636819035692e-06,
      "loss": 0.4435,
      "step": 17381,
      "task_loss": 1.1172157526016235
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34216105937957764,
      "epoch": 14.69,
      "learning_rate": 1.1365059486537257e-06,
      "loss": 0.3918,
      "step": 17382,
      "task_loss": 0.671303391456604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5708301067352295,
      "epoch": 14.69,
      "learning_rate": 1.1333750782717596e-06,
      "loss": 0.5533,
      "step": 17383,
      "task_loss": 0.8994846940040588
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5834185481071472,
      "epoch": 14.69,
      "learning_rate": 1.1302442078897934e-06,
      "loss": 0.5211,
      "step": 17384,
      "task_loss": 0.7600444555282593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42027348279953003,
      "epoch": 14.7,
      "learning_rate": 1.1271133375078271e-06,
      "loss": 0.4344,
      "step": 17385,
      "task_loss": 0.5078406929969788
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7834392786026001,
      "epoch": 14.7,
      "learning_rate": 1.123982467125861e-06,
      "loss": 0.5621,
      "step": 17386,
      "task_loss": 0.41875359416007996
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34334659576416016,
      "epoch": 14.7,
      "learning_rate": 1.120851596743895e-06,
      "loss": 0.4132,
      "step": 17387,
      "task_loss": 0.30398181080818176
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6912457942962646,
      "epoch": 14.7,
      "learning_rate": 1.1177207263619286e-06,
      "loss": 0.4895,
      "step": 17388,
      "task_loss": 1.6065850257873535
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7028560638427734,
      "epoch": 14.7,
      "learning_rate": 1.1145898559799625e-06,
      "loss": 0.4504,
      "step": 17389,
      "task_loss": 0.3876378536224365
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.13954076170921326,
      "epoch": 14.7,
      "learning_rate": 1.1114589855979962e-06,
      "loss": 0.4218,
      "step": 17390,
      "task_loss": 0.1344662606716156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4366316795349121,
      "epoch": 14.7,
      "learning_rate": 1.10832811521603e-06,
      "loss": 0.4222,
      "step": 17391,
      "task_loss": 0.6768348217010498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.407121866941452,
      "epoch": 14.7,
      "learning_rate": 1.105197244834064e-06,
      "loss": 0.4499,
      "step": 17392,
      "task_loss": 0.15005278587341309
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2684584856033325,
      "epoch": 14.7,
      "learning_rate": 1.1020663744520977e-06,
      "loss": 0.3569,
      "step": 17393,
      "task_loss": 0.3548615276813507
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3194260597229004,
      "epoch": 14.7,
      "learning_rate": 1.0989355040701316e-06,
      "loss": 0.3383,
      "step": 17394,
      "task_loss": 0.1356050670146942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4407597780227661,
      "epoch": 14.7,
      "learning_rate": 1.0958046336881655e-06,
      "loss": 0.4217,
      "step": 17395,
      "task_loss": 0.9829456806182861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29224491119384766,
      "epoch": 14.7,
      "learning_rate": 1.0926737633061992e-06,
      "loss": 0.4157,
      "step": 17396,
      "task_loss": 0.6412857174873352
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20881730318069458,
      "epoch": 14.71,
      "learning_rate": 1.089542892924233e-06,
      "loss": 0.3567,
      "step": 17397,
      "task_loss": 0.254591703414917
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33709707856178284,
      "epoch": 14.71,
      "learning_rate": 1.0864120225422668e-06,
      "loss": 0.5665,
      "step": 17398,
      "task_loss": 0.8532932996749878
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4143275022506714,
      "epoch": 14.71,
      "learning_rate": 1.0832811521603007e-06,
      "loss": 0.4538,
      "step": 17399,
      "task_loss": 1.2819515466690063
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4600514769554138,
      "epoch": 14.71,
      "learning_rate": 1.0801502817783343e-06,
      "loss": 0.3806,
      "step": 17400,
      "task_loss": 0.6199791431427002
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34286630153656006,
      "epoch": 14.71,
      "learning_rate": 1.0770194113963682e-06,
      "loss": 0.4145,
      "step": 17401,
      "task_loss": 0.809653639793396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39348769187927246,
      "epoch": 14.71,
      "learning_rate": 1.073888541014402e-06,
      "loss": 0.4032,
      "step": 17402,
      "task_loss": 0.6886075139045715
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43215420842170715,
      "epoch": 14.71,
      "learning_rate": 1.0707576706324358e-06,
      "loss": 0.361,
      "step": 17403,
      "task_loss": 0.39189571142196655
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40688496828079224,
      "epoch": 14.71,
      "learning_rate": 1.0676268002504697e-06,
      "loss": 0.368,
      "step": 17404,
      "task_loss": 0.35265645384788513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3959280252456665,
      "epoch": 14.71,
      "learning_rate": 1.0644959298685034e-06,
      "loss": 0.4171,
      "step": 17405,
      "task_loss": 0.4814203381538391
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31471648812294006,
      "epoch": 14.71,
      "learning_rate": 1.0613650594865373e-06,
      "loss": 0.309,
      "step": 17406,
      "task_loss": 0.8572899103164673
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30698534846305847,
      "epoch": 14.71,
      "learning_rate": 1.0582341891045712e-06,
      "loss": 0.5049,
      "step": 17407,
      "task_loss": 0.3886871635913849
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7809884548187256,
      "epoch": 14.71,
      "learning_rate": 1.055103318722605e-06,
      "loss": 0.5281,
      "step": 17408,
      "task_loss": 1.0888711214065552
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3002720773220062,
      "epoch": 14.72,
      "learning_rate": 1.0519724483406388e-06,
      "loss": 0.4001,
      "step": 17409,
      "task_loss": 0.7748699188232422
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49653035402297974,
      "epoch": 14.72,
      "learning_rate": 1.0488415779586727e-06,
      "loss": 0.6249,
      "step": 17410,
      "task_loss": 0.5444968342781067
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31930750608444214,
      "epoch": 14.72,
      "learning_rate": 1.0457107075767064e-06,
      "loss": 0.3162,
      "step": 17411,
      "task_loss": 0.16732609272003174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34647712111473083,
      "epoch": 14.72,
      "learning_rate": 1.0425798371947403e-06,
      "loss": 0.4434,
      "step": 17412,
      "task_loss": 0.6444751620292664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23883169889450073,
      "epoch": 14.72,
      "learning_rate": 1.039448966812774e-06,
      "loss": 0.4472,
      "step": 17413,
      "task_loss": 1.1905170679092407
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31375470757484436,
      "epoch": 14.72,
      "learning_rate": 1.0363180964308079e-06,
      "loss": 0.3518,
      "step": 17414,
      "task_loss": 0.453307569026947
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5161420106887817,
      "epoch": 14.72,
      "learning_rate": 1.0331872260488418e-06,
      "loss": 0.384,
      "step": 17415,
      "task_loss": 0.6035832762718201
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.505784809589386,
      "epoch": 14.72,
      "learning_rate": 1.0300563556668755e-06,
      "loss": 0.325,
      "step": 17416,
      "task_loss": 0.4957762062549591
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16352707147598267,
      "epoch": 14.72,
      "learning_rate": 1.0269254852849091e-06,
      "loss": 0.3376,
      "step": 17417,
      "task_loss": 0.16791246831417084
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3442937135696411,
      "epoch": 14.72,
      "learning_rate": 1.023794614902943e-06,
      "loss": 0.3803,
      "step": 17418,
      "task_loss": 0.7513871192932129
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23505069315433502,
      "epoch": 14.72,
      "learning_rate": 1.0206637445209767e-06,
      "loss": 0.4604,
      "step": 17419,
      "task_loss": 0.0573924221098423
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5975992679595947,
      "epoch": 14.72,
      "learning_rate": 1.0175328741390106e-06,
      "loss": 0.4332,
      "step": 17420,
      "task_loss": 1.0179466009140015
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3659694492816925,
      "epoch": 14.73,
      "learning_rate": 1.0144020037570445e-06,
      "loss": 0.3809,
      "step": 17421,
      "task_loss": 1.4169472455978394
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.560700535774231,
      "epoch": 14.73,
      "learning_rate": 1.0112711333750782e-06,
      "loss": 0.4484,
      "step": 17422,
      "task_loss": 0.8913619518280029
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49463433027267456,
      "epoch": 14.73,
      "learning_rate": 1.0081402629931121e-06,
      "loss": 0.4759,
      "step": 17423,
      "task_loss": 1.0891544818878174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2712947726249695,
      "epoch": 14.73,
      "learning_rate": 1.005009392611146e-06,
      "loss": 0.3221,
      "step": 17424,
      "task_loss": 0.637656033039093
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4720640182495117,
      "epoch": 14.73,
      "learning_rate": 1.0018785222291797e-06,
      "loss": 0.3757,
      "step": 17425,
      "task_loss": 0.9228683114051819
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3467295169830322,
      "epoch": 14.73,
      "learning_rate": 9.987476518472136e-07,
      "loss": 0.4439,
      "step": 17426,
      "task_loss": 0.8807796239852905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34752440452575684,
      "epoch": 14.73,
      "learning_rate": 9.956167814652475e-07,
      "loss": 0.4187,
      "step": 17427,
      "task_loss": 0.04205408692359924
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3150089979171753,
      "epoch": 14.73,
      "learning_rate": 9.924859110832812e-07,
      "loss": 0.4544,
      "step": 17428,
      "task_loss": 0.3654564917087555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4225042164325714,
      "epoch": 14.73,
      "learning_rate": 9.89355040701315e-07,
      "loss": 0.3925,
      "step": 17429,
      "task_loss": 0.982194185256958
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39625781774520874,
      "epoch": 14.73,
      "learning_rate": 9.86224170319349e-07,
      "loss": 0.3319,
      "step": 17430,
      "task_loss": 0.05219617113471031
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.252630352973938,
      "epoch": 14.73,
      "learning_rate": 9.830932999373827e-07,
      "loss": 0.4429,
      "step": 17431,
      "task_loss": 0.18696680665016174
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4000331163406372,
      "epoch": 14.73,
      "learning_rate": 9.799624295554166e-07,
      "loss": 0.4659,
      "step": 17432,
      "task_loss": 0.3604182302951813
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43774551153182983,
      "epoch": 14.74,
      "learning_rate": 9.768315591734503e-07,
      "loss": 0.4623,
      "step": 17433,
      "task_loss": 0.7056487202644348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.320538729429245,
      "epoch": 14.74,
      "learning_rate": 9.737006887914842e-07,
      "loss": 0.4072,
      "step": 17434,
      "task_loss": 0.3710910677909851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26145827770233154,
      "epoch": 14.74,
      "learning_rate": 9.705698184095178e-07,
      "loss": 0.4368,
      "step": 17435,
      "task_loss": 0.26749199628829956
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2123226821422577,
      "epoch": 14.74,
      "learning_rate": 9.674389480275515e-07,
      "loss": 0.4299,
      "step": 17436,
      "task_loss": 0.19484879076480865
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6983475685119629,
      "epoch": 14.74,
      "learning_rate": 9.643080776455854e-07,
      "loss": 0.4502,
      "step": 17437,
      "task_loss": 0.3637765049934387
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39821961522102356,
      "epoch": 14.74,
      "learning_rate": 9.611772072636193e-07,
      "loss": 0.3823,
      "step": 17438,
      "task_loss": 0.7282067537307739
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5302053093910217,
      "epoch": 14.74,
      "learning_rate": 9.58046336881653e-07,
      "loss": 0.5213,
      "step": 17439,
      "task_loss": 0.2823602855205536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33287501335144043,
      "epoch": 14.74,
      "learning_rate": 9.54915466499687e-07,
      "loss": 0.4575,
      "step": 17440,
      "task_loss": 1.3701931238174438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.16663630306720734,
      "epoch": 14.74,
      "learning_rate": 9.517845961177208e-07,
      "loss": 0.3661,
      "step": 17441,
      "task_loss": 0.013462650589644909
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39852631092071533,
      "epoch": 14.74,
      "learning_rate": 9.486537257357545e-07,
      "loss": 0.3821,
      "step": 17442,
      "task_loss": 1.2780202627182007
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42874374985694885,
      "epoch": 14.74,
      "learning_rate": 9.455228553537884e-07,
      "loss": 0.4517,
      "step": 17443,
      "task_loss": 0.5594418048858643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3272033929824829,
      "epoch": 14.75,
      "learning_rate": 9.423919849718223e-07,
      "loss": 0.4178,
      "step": 17444,
      "task_loss": 0.5640364289283752
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4368686079978943,
      "epoch": 14.75,
      "learning_rate": 9.39261114589856e-07,
      "loss": 0.5698,
      "step": 17445,
      "task_loss": 0.2570543885231018
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3082779049873352,
      "epoch": 14.75,
      "learning_rate": 9.361302442078899e-07,
      "loss": 0.4276,
      "step": 17446,
      "task_loss": 0.31510087847709656
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.23514336347579956,
      "epoch": 14.75,
      "learning_rate": 9.329993738259237e-07,
      "loss": 0.3427,
      "step": 17447,
      "task_loss": 0.21492718160152435
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3259336054325104,
      "epoch": 14.75,
      "learning_rate": 9.298685034439575e-07,
      "loss": 0.4189,
      "step": 17448,
      "task_loss": 0.7075896263122559
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3067833483219147,
      "epoch": 14.75,
      "learning_rate": 9.267376330619913e-07,
      "loss": 0.3505,
      "step": 17449,
      "task_loss": 0.1717100292444229
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5601735711097717,
      "epoch": 14.75,
      "learning_rate": 9.236067626800252e-07,
      "loss": 0.5265,
      "step": 17450,
      "task_loss": 0.9018524885177612
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3329622745513916,
      "epoch": 14.75,
      "learning_rate": 9.204758922980588e-07,
      "loss": 0.4976,
      "step": 17451,
      "task_loss": 0.5651460289955139
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4696974456310272,
      "epoch": 14.75,
      "learning_rate": 9.173450219160927e-07,
      "loss": 0.5509,
      "step": 17452,
      "task_loss": 1.4400758743286133
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6467139720916748,
      "epoch": 14.75,
      "learning_rate": 9.142141515341266e-07,
      "loss": 0.5047,
      "step": 17453,
      "task_loss": 1.5452544689178467
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8448483943939209,
      "epoch": 14.75,
      "learning_rate": 9.110832811521603e-07,
      "loss": 0.4616,
      "step": 17454,
      "task_loss": 0.27767035365104675
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4567837715148926,
      "epoch": 14.75,
      "learning_rate": 9.079524107701942e-07,
      "loss": 0.4324,
      "step": 17455,
      "task_loss": 0.42696890234947205
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26188087463378906,
      "epoch": 14.76,
      "learning_rate": 9.04821540388228e-07,
      "loss": 0.4912,
      "step": 17456,
      "task_loss": 0.1051701158285141
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.343291699886322,
      "epoch": 14.76,
      "learning_rate": 9.016906700062617e-07,
      "loss": 0.5523,
      "step": 17457,
      "task_loss": 0.5831454992294312
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3836226463317871,
      "epoch": 14.76,
      "learning_rate": 8.985597996242956e-07,
      "loss": 0.503,
      "step": 17458,
      "task_loss": 0.13538476824760437
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3833887577056885,
      "epoch": 14.76,
      "learning_rate": 8.954289292423293e-07,
      "loss": 0.4067,
      "step": 17459,
      "task_loss": 0.7514165043830872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48567795753479004,
      "epoch": 14.76,
      "learning_rate": 8.922980588603632e-07,
      "loss": 0.4322,
      "step": 17460,
      "task_loss": 0.702591061592102
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41265633702278137,
      "epoch": 14.76,
      "learning_rate": 8.891671884783971e-07,
      "loss": 0.3855,
      "step": 17461,
      "task_loss": 0.9043744802474976
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30036476254463196,
      "epoch": 14.76,
      "learning_rate": 8.860363180964308e-07,
      "loss": 0.4103,
      "step": 17462,
      "task_loss": 0.8510677814483643
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3822983503341675,
      "epoch": 14.76,
      "learning_rate": 8.829054477144647e-07,
      "loss": 0.4527,
      "step": 17463,
      "task_loss": 0.6902025938034058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5090236067771912,
      "epoch": 14.76,
      "learning_rate": 8.797745773324986e-07,
      "loss": 0.4017,
      "step": 17464,
      "task_loss": 0.21932515501976013
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3839564919471741,
      "epoch": 14.76,
      "learning_rate": 8.766437069505323e-07,
      "loss": 0.4784,
      "step": 17465,
      "task_loss": 0.7465022802352905
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.35774463415145874,
      "epoch": 14.76,
      "learning_rate": 8.735128365685661e-07,
      "loss": 0.3798,
      "step": 17466,
      "task_loss": 0.4019920825958252
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2913977801799774,
      "epoch": 14.76,
      "learning_rate": 8.703819661866e-07,
      "loss": 0.2911,
      "step": 17467,
      "task_loss": 0.5612772107124329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4239044785499573,
      "epoch": 14.77,
      "learning_rate": 8.672510958046336e-07,
      "loss": 0.4932,
      "step": 17468,
      "task_loss": 1.431950330734253
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3280411958694458,
      "epoch": 14.77,
      "learning_rate": 8.641202254226675e-07,
      "loss": 0.3995,
      "step": 17469,
      "task_loss": 0.6154451966285706
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5969080924987793,
      "epoch": 14.77,
      "learning_rate": 8.609893550407014e-07,
      "loss": 0.4401,
      "step": 17470,
      "task_loss": 0.732383668422699
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4905722737312317,
      "epoch": 14.77,
      "learning_rate": 8.578584846587351e-07,
      "loss": 0.506,
      "step": 17471,
      "task_loss": 0.7851163148880005
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34914064407348633,
      "epoch": 14.77,
      "learning_rate": 8.54727614276769e-07,
      "loss": 0.2991,
      "step": 17472,
      "task_loss": 0.22110235691070557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6537275314331055,
      "epoch": 14.77,
      "learning_rate": 8.515967438948028e-07,
      "loss": 0.4077,
      "step": 17473,
      "task_loss": 0.7838630080223083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40424567461013794,
      "epoch": 14.77,
      "learning_rate": 8.484658735128366e-07,
      "loss": 0.4139,
      "step": 17474,
      "task_loss": 0.5364176034927368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27456700801849365,
      "epoch": 14.77,
      "learning_rate": 8.453350031308704e-07,
      "loss": 0.4089,
      "step": 17475,
      "task_loss": 0.6102344989776611
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7104566693305969,
      "epoch": 14.77,
      "learning_rate": 8.422041327489043e-07,
      "loss": 0.44,
      "step": 17476,
      "task_loss": 0.9411097764968872
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2729089856147766,
      "epoch": 14.77,
      "learning_rate": 8.39073262366938e-07,
      "loss": 0.349,
      "step": 17477,
      "task_loss": 0.501157283782959
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42582279443740845,
      "epoch": 14.77,
      "learning_rate": 8.359423919849719e-07,
      "loss": 0.4453,
      "step": 17478,
      "task_loss": 0.5360393524169922
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34667107462882996,
      "epoch": 14.77,
      "learning_rate": 8.328115216030058e-07,
      "loss": 0.2978,
      "step": 17479,
      "task_loss": 0.3711074888706207
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4704796075820923,
      "epoch": 14.78,
      "learning_rate": 8.296806512210395e-07,
      "loss": 0.4074,
      "step": 17480,
      "task_loss": 0.22302082180976868
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.587498664855957,
      "epoch": 14.78,
      "learning_rate": 8.265497808390734e-07,
      "loss": 0.5165,
      "step": 17481,
      "task_loss": 0.2699899971485138
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33280861377716064,
      "epoch": 14.78,
      "learning_rate": 8.234189104571071e-07,
      "loss": 0.3306,
      "step": 17482,
      "task_loss": 0.2420700639486313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5269851684570312,
      "epoch": 14.78,
      "learning_rate": 8.20288040075141e-07,
      "loss": 0.309,
      "step": 17483,
      "task_loss": 0.8841294646263123
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8096013069152832,
      "epoch": 14.78,
      "learning_rate": 8.171571696931748e-07,
      "loss": 0.4249,
      "step": 17484,
      "task_loss": 1.155704379081726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36395174264907837,
      "epoch": 14.78,
      "learning_rate": 8.140262993112084e-07,
      "loss": 0.4649,
      "step": 17485,
      "task_loss": 0.3848752975463867
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20805776119232178,
      "epoch": 14.78,
      "learning_rate": 8.108954289292423e-07,
      "loss": 0.4177,
      "step": 17486,
      "task_loss": 0.17736120522022247
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5451095104217529,
      "epoch": 14.78,
      "learning_rate": 8.077645585472762e-07,
      "loss": 0.5641,
      "step": 17487,
      "task_loss": 0.5736080408096313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.30495142936706543,
      "epoch": 14.78,
      "learning_rate": 8.046336881653099e-07,
      "loss": 0.3108,
      "step": 17488,
      "task_loss": 0.30009031295776367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41035521030426025,
      "epoch": 14.78,
      "learning_rate": 8.015028177833438e-07,
      "loss": 0.3932,
      "step": 17489,
      "task_loss": 0.8912566304206848
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2616909146308899,
      "epoch": 14.78,
      "learning_rate": 7.983719474013777e-07,
      "loss": 0.458,
      "step": 17490,
      "task_loss": 0.5497511029243469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2604526877403259,
      "epoch": 14.78,
      "learning_rate": 7.952410770194114e-07,
      "loss": 0.4477,
      "step": 17491,
      "task_loss": 0.25668787956237793
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3615787923336029,
      "epoch": 14.79,
      "learning_rate": 7.921102066374452e-07,
      "loss": 0.4801,
      "step": 17492,
      "task_loss": 0.9310441017150879
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.9154462218284607,
      "epoch": 14.79,
      "learning_rate": 7.889793362554791e-07,
      "loss": 0.6573,
      "step": 17493,
      "task_loss": 0.5186396241188049
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3194252848625183,
      "epoch": 14.79,
      "learning_rate": 7.858484658735128e-07,
      "loss": 0.3876,
      "step": 17494,
      "task_loss": 0.7270980477333069
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5203757286071777,
      "epoch": 14.79,
      "learning_rate": 7.827175954915467e-07,
      "loss": 0.5252,
      "step": 17495,
      "task_loss": 0.8221213221549988
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3201165199279785,
      "epoch": 14.79,
      "learning_rate": 7.795867251095805e-07,
      "loss": 0.3535,
      "step": 17496,
      "task_loss": 0.7729270458221436
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42389512062072754,
      "epoch": 14.79,
      "learning_rate": 7.764558547276143e-07,
      "loss": 0.563,
      "step": 17497,
      "task_loss": 0.7029582858085632
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7272272109985352,
      "epoch": 14.79,
      "learning_rate": 7.733249843456482e-07,
      "loss": 0.5191,
      "step": 17498,
      "task_loss": 0.43924814462661743
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46120187640190125,
      "epoch": 14.79,
      "learning_rate": 7.70194113963682e-07,
      "loss": 0.3977,
      "step": 17499,
      "task_loss": 0.5990526080131531
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40943384170532227,
      "epoch": 14.79,
      "learning_rate": 7.670632435817158e-07,
      "loss": 0.4136,
      "step": 17500,
      "task_loss": 0.5921612977981567
    },
    {
      "epoch": 14.79,
      "eval_accuracy": 0.9140990099009901,
      "eval_loss": 0.2976529002189636,
      "eval_runtime": 206.8137,
      "eval_samples_per_second": 122.091,
      "eval_steps_per_second": 0.957,
      "step": 17500
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2598341405391693,
      "epoch": 14.79,
      "learning_rate": 7.639323731997496e-07,
      "loss": 0.3664,
      "step": 17501,
      "task_loss": 0.025721464306116104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1979258805513382,
      "epoch": 14.79,
      "learning_rate": 7.608015028177833e-07,
      "loss": 0.3513,
      "step": 17502,
      "task_loss": 0.08259792625904083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4841429889202118,
      "epoch": 14.79,
      "learning_rate": 7.576706324358171e-07,
      "loss": 0.4214,
      "step": 17503,
      "task_loss": 0.577531099319458
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.76414555311203,
      "epoch": 14.8,
      "learning_rate": 7.54539762053851e-07,
      "loss": 0.6161,
      "step": 17504,
      "task_loss": 2.748385429382324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5579216480255127,
      "epoch": 14.8,
      "learning_rate": 7.514088916718848e-07,
      "loss": 0.48,
      "step": 17505,
      "task_loss": 0.8262220025062561
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5748134255409241,
      "epoch": 14.8,
      "learning_rate": 7.482780212899186e-07,
      "loss": 0.4692,
      "step": 17506,
      "task_loss": 0.48197776079177856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3231087625026703,
      "epoch": 14.8,
      "learning_rate": 7.451471509079525e-07,
      "loss": 0.3773,
      "step": 17507,
      "task_loss": 1.1516470909118652
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7705633044242859,
      "epoch": 14.8,
      "learning_rate": 7.420162805259863e-07,
      "loss": 0.4414,
      "step": 17508,
      "task_loss": 0.5439612865447998
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2558196485042572,
      "epoch": 14.8,
      "learning_rate": 7.388854101440201e-07,
      "loss": 0.3254,
      "step": 17509,
      "task_loss": 1.0462419986724854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46708303689956665,
      "epoch": 14.8,
      "learning_rate": 7.357545397620539e-07,
      "loss": 0.3844,
      "step": 17510,
      "task_loss": 0.5954985022544861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.42407864332199097,
      "epoch": 14.8,
      "learning_rate": 7.326236693800877e-07,
      "loss": 0.378,
      "step": 17511,
      "task_loss": 0.945533037185669
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3543528914451599,
      "epoch": 14.8,
      "learning_rate": 7.294927989981215e-07,
      "loss": 0.3777,
      "step": 17512,
      "task_loss": 0.3572937846183777
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5372596383094788,
      "epoch": 14.8,
      "learning_rate": 7.263619286161553e-07,
      "loss": 0.4151,
      "step": 17513,
      "task_loss": 0.5137104392051697
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.8001260161399841,
      "epoch": 14.8,
      "learning_rate": 7.232310582341892e-07,
      "loss": 0.4848,
      "step": 17514,
      "task_loss": 0.7138250470161438
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43612268567085266,
      "epoch": 14.81,
      "learning_rate": 7.20100187852223e-07,
      "loss": 0.3718,
      "step": 17515,
      "task_loss": 0.31604647636413574
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3975498676300049,
      "epoch": 14.81,
      "learning_rate": 7.169693174702568e-07,
      "loss": 0.4253,
      "step": 17516,
      "task_loss": 1.1441733837127686
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38566941022872925,
      "epoch": 14.81,
      "learning_rate": 7.138384470882907e-07,
      "loss": 0.4213,
      "step": 17517,
      "task_loss": 0.049607452005147934
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.197536438703537,
      "epoch": 14.81,
      "learning_rate": 7.107075767063245e-07,
      "loss": 0.363,
      "step": 17518,
      "task_loss": 0.09107402712106705
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3784664273262024,
      "epoch": 14.81,
      "learning_rate": 7.075767063243581e-07,
      "loss": 0.3426,
      "step": 17519,
      "task_loss": 1.3022325038909912
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4547731280326843,
      "epoch": 14.81,
      "learning_rate": 7.044458359423919e-07,
      "loss": 0.5645,
      "step": 17520,
      "task_loss": 0.7327596545219421
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4261188507080078,
      "epoch": 14.81,
      "learning_rate": 7.013149655604258e-07,
      "loss": 0.3802,
      "step": 17521,
      "task_loss": 0.9268866181373596
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40910184383392334,
      "epoch": 14.81,
      "learning_rate": 6.981840951784596e-07,
      "loss": 0.3579,
      "step": 17522,
      "task_loss": 1.0435246229171753
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.831295371055603,
      "epoch": 14.81,
      "learning_rate": 6.950532247964934e-07,
      "loss": 0.6164,
      "step": 17523,
      "task_loss": 0.5343356132507324
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6697612404823303,
      "epoch": 14.81,
      "learning_rate": 6.919223544145273e-07,
      "loss": 0.4787,
      "step": 17524,
      "task_loss": 0.8470689058303833
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40081679821014404,
      "epoch": 14.81,
      "learning_rate": 6.887914840325611e-07,
      "loss": 0.3513,
      "step": 17525,
      "task_loss": 0.5980989933013916
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3950958251953125,
      "epoch": 14.81,
      "learning_rate": 6.856606136505949e-07,
      "loss": 0.3481,
      "step": 17526,
      "task_loss": 0.9271990060806274
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3536144196987152,
      "epoch": 14.82,
      "learning_rate": 6.825297432686287e-07,
      "loss": 0.4374,
      "step": 17527,
      "task_loss": 0.39516815543174744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2720435857772827,
      "epoch": 14.82,
      "learning_rate": 6.793988728866625e-07,
      "loss": 0.3892,
      "step": 17528,
      "task_loss": 0.1648320108652115
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39514821767807007,
      "epoch": 14.82,
      "learning_rate": 6.762680025046963e-07,
      "loss": 0.2902,
      "step": 17529,
      "task_loss": 0.3208186626434326
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5034984350204468,
      "epoch": 14.82,
      "learning_rate": 6.731371321227302e-07,
      "loss": 0.428,
      "step": 17530,
      "task_loss": 0.8440741896629333
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.505757212638855,
      "epoch": 14.82,
      "learning_rate": 6.70006261740764e-07,
      "loss": 0.4813,
      "step": 17531,
      "task_loss": 0.7865477204322815
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4364761412143707,
      "epoch": 14.82,
      "learning_rate": 6.668753913587978e-07,
      "loss": 0.4035,
      "step": 17532,
      "task_loss": 0.9838846325874329
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4231335520744324,
      "epoch": 14.82,
      "learning_rate": 6.637445209768316e-07,
      "loss": 0.4172,
      "step": 17533,
      "task_loss": 0.4857509136199951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.48028767108917236,
      "epoch": 14.82,
      "learning_rate": 6.606136505948655e-07,
      "loss": 0.3843,
      "step": 17534,
      "task_loss": 1.2388051748275757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5117086172103882,
      "epoch": 14.82,
      "learning_rate": 6.574827802128993e-07,
      "loss": 0.4853,
      "step": 17535,
      "task_loss": 0.7916340231895447
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6138275861740112,
      "epoch": 14.82,
      "learning_rate": 6.54351909830933e-07,
      "loss": 0.5149,
      "step": 17536,
      "task_loss": 1.1724854707717896
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3642282485961914,
      "epoch": 14.82,
      "learning_rate": 6.512210394489668e-07,
      "loss": 0.3558,
      "step": 17537,
      "task_loss": 0.32095590233802795
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4202703535556793,
      "epoch": 14.82,
      "learning_rate": 6.480901690670006e-07,
      "loss": 0.3946,
      "step": 17538,
      "task_loss": 0.6058179140090942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34916841983795166,
      "epoch": 14.83,
      "learning_rate": 6.449592986850344e-07,
      "loss": 0.3996,
      "step": 17539,
      "task_loss": 0.10230612009763718
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28134337067604065,
      "epoch": 14.83,
      "learning_rate": 6.418284283030683e-07,
      "loss": 0.392,
      "step": 17540,
      "task_loss": 0.5215031504631042
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5221632719039917,
      "epoch": 14.83,
      "learning_rate": 6.386975579211021e-07,
      "loss": 0.5479,
      "step": 17541,
      "task_loss": 1.4279117584228516
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4339410066604614,
      "epoch": 14.83,
      "learning_rate": 6.355666875391359e-07,
      "loss": 0.3485,
      "step": 17542,
      "task_loss": 1.6459170579910278
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.33682870864868164,
      "epoch": 14.83,
      "learning_rate": 6.324358171571698e-07,
      "loss": 0.4242,
      "step": 17543,
      "task_loss": 0.32505449652671814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37038639187812805,
      "epoch": 14.83,
      "learning_rate": 6.293049467752036e-07,
      "loss": 0.3847,
      "step": 17544,
      "task_loss": 0.5257224440574646
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2917725145816803,
      "epoch": 14.83,
      "learning_rate": 6.261740763932374e-07,
      "loss": 0.3892,
      "step": 17545,
      "task_loss": 1.35243558883667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3776872754096985,
      "epoch": 14.83,
      "learning_rate": 6.230432060112711e-07,
      "loss": 0.4617,
      "step": 17546,
      "task_loss": 0.5930166840553284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49372828006744385,
      "epoch": 14.83,
      "learning_rate": 6.19912335629305e-07,
      "loss": 0.4772,
      "step": 17547,
      "task_loss": 0.8281850218772888
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18115711212158203,
      "epoch": 14.83,
      "learning_rate": 6.167814652473388e-07,
      "loss": 0.3798,
      "step": 17548,
      "task_loss": 0.18855668604373932
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41381436586380005,
      "epoch": 14.83,
      "learning_rate": 6.136505948653726e-07,
      "loss": 0.5021,
      "step": 17549,
      "task_loss": 1.2749016284942627
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36895155906677246,
      "epoch": 14.83,
      "learning_rate": 6.105197244834065e-07,
      "loss": 0.4032,
      "step": 17550,
      "task_loss": 0.5066489577293396
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6858806014060974,
      "epoch": 14.84,
      "learning_rate": 6.073888541014403e-07,
      "loss": 0.4899,
      "step": 17551,
      "task_loss": 1.055842399597168
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24971146881580353,
      "epoch": 14.84,
      "learning_rate": 6.04257983719474e-07,
      "loss": 0.4572,
      "step": 17552,
      "task_loss": 0.21455754339694977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3308858871459961,
      "epoch": 14.84,
      "learning_rate": 6.01127113337508e-07,
      "loss": 0.5633,
      "step": 17553,
      "task_loss": 0.5308948755264282
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40589678287506104,
      "epoch": 14.84,
      "learning_rate": 5.979962429555416e-07,
      "loss": 0.4619,
      "step": 17554,
      "task_loss": 0.35316145420074463
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4050978422164917,
      "epoch": 14.84,
      "learning_rate": 5.948653725735754e-07,
      "loss": 0.4544,
      "step": 17555,
      "task_loss": 0.684256374835968
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3541520833969116,
      "epoch": 14.84,
      "learning_rate": 5.917345021916092e-07,
      "loss": 0.363,
      "step": 17556,
      "task_loss": 0.44787025451660156
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3399156630039215,
      "epoch": 14.84,
      "learning_rate": 5.886036318096431e-07,
      "loss": 0.3764,
      "step": 17557,
      "task_loss": 0.2588905990123749
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49765264987945557,
      "epoch": 14.84,
      "learning_rate": 5.854727614276769e-07,
      "loss": 0.4766,
      "step": 17558,
      "task_loss": 0.4553956389427185
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3220192492008209,
      "epoch": 14.84,
      "learning_rate": 5.823418910457107e-07,
      "loss": 0.3247,
      "step": 17559,
      "task_loss": 1.2170994281768799
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36056309938430786,
      "epoch": 14.84,
      "learning_rate": 5.792110206637446e-07,
      "loss": 0.4233,
      "step": 17560,
      "task_loss": 0.5571791529655457
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.306240975856781,
      "epoch": 14.84,
      "learning_rate": 5.760801502817784e-07,
      "loss": 0.3784,
      "step": 17561,
      "task_loss": 0.522879958152771
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4721112847328186,
      "epoch": 14.84,
      "learning_rate": 5.729492798998122e-07,
      "loss": 0.464,
      "step": 17562,
      "task_loss": 0.6090897917747498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3265133202075958,
      "epoch": 14.85,
      "learning_rate": 5.69818409517846e-07,
      "loss": 0.5156,
      "step": 17563,
      "task_loss": 0.4393616020679474
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49956047534942627,
      "epoch": 14.85,
      "learning_rate": 5.666875391358798e-07,
      "loss": 0.4116,
      "step": 17564,
      "task_loss": 1.3780517578125
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6288386583328247,
      "epoch": 14.85,
      "learning_rate": 5.635566687539136e-07,
      "loss": 0.5507,
      "step": 17565,
      "task_loss": 0.928476870059967
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29654383659362793,
      "epoch": 14.85,
      "learning_rate": 5.604257983719475e-07,
      "loss": 0.4465,
      "step": 17566,
      "task_loss": 1.0601093769073486
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6197415590286255,
      "epoch": 14.85,
      "learning_rate": 5.572949279899813e-07,
      "loss": 0.5841,
      "step": 17567,
      "task_loss": 1.2889174222946167
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4269367456436157,
      "epoch": 14.85,
      "learning_rate": 5.54164057608015e-07,
      "loss": 0.4386,
      "step": 17568,
      "task_loss": 0.3141123652458191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5048753619194031,
      "epoch": 14.85,
      "learning_rate": 5.510331872260488e-07,
      "loss": 0.4548,
      "step": 17569,
      "task_loss": 1.103257656097412
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3075945973396301,
      "epoch": 14.85,
      "learning_rate": 5.479023168440827e-07,
      "loss": 0.4447,
      "step": 17570,
      "task_loss": 0.858813464641571
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3894437551498413,
      "epoch": 14.85,
      "learning_rate": 5.447714464621165e-07,
      "loss": 0.4565,
      "step": 17571,
      "task_loss": 0.5231536030769348
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24991455674171448,
      "epoch": 14.85,
      "learning_rate": 5.416405760801503e-07,
      "loss": 0.4259,
      "step": 17572,
      "task_loss": 0.10049643367528915
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5623128414154053,
      "epoch": 14.85,
      "learning_rate": 5.385097056981841e-07,
      "loss": 0.4755,
      "step": 17573,
      "task_loss": 0.33129605650901794
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3157581090927124,
      "epoch": 14.85,
      "learning_rate": 5.353788353162179e-07,
      "loss": 0.3701,
      "step": 17574,
      "task_loss": 0.4209228754043579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41167280077934265,
      "epoch": 14.86,
      "learning_rate": 5.322479649342517e-07,
      "loss": 0.4702,
      "step": 17575,
      "task_loss": 0.21744078397750854
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4107395112514496,
      "epoch": 14.86,
      "learning_rate": 5.291170945522856e-07,
      "loss": 0.5268,
      "step": 17576,
      "task_loss": 0.2712561786174774
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4754185974597931,
      "epoch": 14.86,
      "learning_rate": 5.259862241703194e-07,
      "loss": 0.4596,
      "step": 17577,
      "task_loss": 0.7322368621826172
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3179304301738739,
      "epoch": 14.86,
      "learning_rate": 5.228553537883532e-07,
      "loss": 0.4072,
      "step": 17578,
      "task_loss": 0.20879985392093658
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5530340671539307,
      "epoch": 14.86,
      "learning_rate": 5.19724483406387e-07,
      "loss": 0.4383,
      "step": 17579,
      "task_loss": 0.7900775074958801
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22078537940979004,
      "epoch": 14.86,
      "learning_rate": 5.165936130244209e-07,
      "loss": 0.4432,
      "step": 17580,
      "task_loss": 0.5249754190444946
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5464311838150024,
      "epoch": 14.86,
      "learning_rate": 5.134627426424546e-07,
      "loss": 0.3981,
      "step": 17581,
      "task_loss": 1.3972012996673584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17836017906665802,
      "epoch": 14.86,
      "learning_rate": 5.103318722604884e-07,
      "loss": 0.3898,
      "step": 17582,
      "task_loss": 0.018086811527609825
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6300501823425293,
      "epoch": 14.86,
      "learning_rate": 5.072010018785223e-07,
      "loss": 0.4812,
      "step": 17583,
      "task_loss": 1.1363258361816406
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.47281235456466675,
      "epoch": 14.86,
      "learning_rate": 5.040701314965561e-07,
      "loss": 0.4743,
      "step": 17584,
      "task_loss": 0.5606404542922974
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.21208234131336212,
      "epoch": 14.86,
      "learning_rate": 5.009392611145899e-07,
      "loss": 0.3985,
      "step": 17585,
      "task_loss": 0.5515217781066895
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34449225664138794,
      "epoch": 14.87,
      "learning_rate": 4.978083907326237e-07,
      "loss": 0.3971,
      "step": 17586,
      "task_loss": 1.8762232065200806
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37055498361587524,
      "epoch": 14.87,
      "learning_rate": 4.946775203506575e-07,
      "loss": 0.38,
      "step": 17587,
      "task_loss": 0.7306036353111267
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3581199049949646,
      "epoch": 14.87,
      "learning_rate": 4.915466499686913e-07,
      "loss": 0.484,
      "step": 17588,
      "task_loss": 0.5135178565979004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2960324287414551,
      "epoch": 14.87,
      "learning_rate": 4.884157795867251e-07,
      "loss": 0.3304,
      "step": 17589,
      "task_loss": 0.14335878193378448
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3835577964782715,
      "epoch": 14.87,
      "learning_rate": 4.852849092047589e-07,
      "loss": 0.4825,
      "step": 17590,
      "task_loss": 0.6124812960624695
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40307706594467163,
      "epoch": 14.87,
      "learning_rate": 4.821540388227927e-07,
      "loss": 0.4985,
      "step": 17591,
      "task_loss": 0.9361086487770081
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5105020999908447,
      "epoch": 14.87,
      "learning_rate": 4.790231684408265e-07,
      "loss": 0.4527,
      "step": 17592,
      "task_loss": 0.5390802025794983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3137331008911133,
      "epoch": 14.87,
      "learning_rate": 4.758922980588604e-07,
      "loss": 0.3717,
      "step": 17593,
      "task_loss": 0.23397018015384674
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5652321577072144,
      "epoch": 14.87,
      "learning_rate": 4.727614276768942e-07,
      "loss": 0.3968,
      "step": 17594,
      "task_loss": 0.5541998744010925
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2251037210226059,
      "epoch": 14.87,
      "learning_rate": 4.69630557294928e-07,
      "loss": 0.3843,
      "step": 17595,
      "task_loss": 0.6369791626930237
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2663033604621887,
      "epoch": 14.87,
      "learning_rate": 4.6649968691296184e-07,
      "loss": 0.4792,
      "step": 17596,
      "task_loss": 0.11835335940122604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3358374536037445,
      "epoch": 14.87,
      "learning_rate": 4.6336881653099563e-07,
      "loss": 0.2809,
      "step": 17597,
      "task_loss": 0.8153470754623413
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25809627771377563,
      "epoch": 14.88,
      "learning_rate": 4.602379461490294e-07,
      "loss": 0.3003,
      "step": 17598,
      "task_loss": 0.2918861508369446
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2904086709022522,
      "epoch": 14.88,
      "learning_rate": 4.571070757670633e-07,
      "loss": 0.3751,
      "step": 17599,
      "task_loss": 0.3954797089099884
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43943268060684204,
      "epoch": 14.88,
      "learning_rate": 4.539762053850971e-07,
      "loss": 0.5454,
      "step": 17600,
      "task_loss": 0.23605696856975555
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4396343231201172,
      "epoch": 14.88,
      "learning_rate": 4.5084533500313085e-07,
      "loss": 0.5032,
      "step": 17601,
      "task_loss": 0.03237997740507126
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20469655096530914,
      "epoch": 14.88,
      "learning_rate": 4.4771446462116465e-07,
      "loss": 0.3348,
      "step": 17602,
      "task_loss": 0.25800418853759766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.44377076625823975,
      "epoch": 14.88,
      "learning_rate": 4.4458359423919855e-07,
      "loss": 0.4258,
      "step": 17603,
      "task_loss": 0.6069327592849731
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2625168263912201,
      "epoch": 14.88,
      "learning_rate": 4.4145272385723234e-07,
      "loss": 0.3542,
      "step": 17604,
      "task_loss": 0.4182102382183075
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3382393419742584,
      "epoch": 14.88,
      "learning_rate": 4.3832185347526613e-07,
      "loss": 0.4722,
      "step": 17605,
      "task_loss": 0.28137171268463135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3344721496105194,
      "epoch": 14.88,
      "learning_rate": 4.351909830933e-07,
      "loss": 0.3694,
      "step": 17606,
      "task_loss": 0.27721765637397766
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3416728079319,
      "epoch": 14.88,
      "learning_rate": 4.3206011271133377e-07,
      "loss": 0.3935,
      "step": 17607,
      "task_loss": 1.5352779626846313
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4634465277194977,
      "epoch": 14.88,
      "learning_rate": 4.2892924232936756e-07,
      "loss": 0.4282,
      "step": 17608,
      "task_loss": 0.43033042550086975
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3956453502178192,
      "epoch": 14.88,
      "learning_rate": 4.257983719474014e-07,
      "loss": 0.3738,
      "step": 17609,
      "task_loss": 0.7599621415138245
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39760684967041016,
      "epoch": 14.89,
      "learning_rate": 4.226675015654352e-07,
      "loss": 0.4372,
      "step": 17610,
      "task_loss": 0.28803345561027527
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17225588858127594,
      "epoch": 14.89,
      "learning_rate": 4.19536631183469e-07,
      "loss": 0.3616,
      "step": 17611,
      "task_loss": 0.07472171634435654
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4491419792175293,
      "epoch": 14.89,
      "learning_rate": 4.164057608015029e-07,
      "loss": 0.3904,
      "step": 17612,
      "task_loss": 0.5757243037223816
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.284164696931839,
      "epoch": 14.89,
      "learning_rate": 4.132748904195367e-07,
      "loss": 0.3669,
      "step": 17613,
      "task_loss": 0.3568648099899292
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4325053095817566,
      "epoch": 14.89,
      "learning_rate": 4.101440200375705e-07,
      "loss": 0.3356,
      "step": 17614,
      "task_loss": 0.9708911776542664
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4102494716644287,
      "epoch": 14.89,
      "learning_rate": 4.070131496556042e-07,
      "loss": 0.4197,
      "step": 17615,
      "task_loss": 1.0905511379241943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31898927688598633,
      "epoch": 14.89,
      "learning_rate": 4.038822792736381e-07,
      "loss": 0.3821,
      "step": 17616,
      "task_loss": 0.12836097180843353
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3192773461341858,
      "epoch": 14.89,
      "learning_rate": 4.007514088916719e-07,
      "loss": 0.3998,
      "step": 17617,
      "task_loss": 0.3166307806968689
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2971268892288208,
      "epoch": 14.89,
      "learning_rate": 3.976205385097057e-07,
      "loss": 0.4231,
      "step": 17618,
      "task_loss": 0.1345132738351822
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34349939227104187,
      "epoch": 14.89,
      "learning_rate": 3.9448966812773955e-07,
      "loss": 0.3349,
      "step": 17619,
      "task_loss": 0.21473681926727295
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2855689227581024,
      "epoch": 14.89,
      "learning_rate": 3.9135879774577334e-07,
      "loss": 0.4952,
      "step": 17620,
      "task_loss": 1.1192454099655151
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5287128686904907,
      "epoch": 14.89,
      "learning_rate": 3.8822792736380714e-07,
      "loss": 0.4184,
      "step": 17621,
      "task_loss": 1.2449426651000977
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3846719264984131,
      "epoch": 14.9,
      "learning_rate": 3.85097056981841e-07,
      "loss": 0.5279,
      "step": 17622,
      "task_loss": 0.2531341314315796
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20635715126991272,
      "epoch": 14.9,
      "learning_rate": 3.819661865998748e-07,
      "loss": 0.3537,
      "step": 17623,
      "task_loss": 0.48051387071609497
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.19678714871406555,
      "epoch": 14.9,
      "learning_rate": 3.7883531621790857e-07,
      "loss": 0.3831,
      "step": 17624,
      "task_loss": 0.5995179414749146
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3667167127132416,
      "epoch": 14.9,
      "learning_rate": 3.757044458359424e-07,
      "loss": 0.3717,
      "step": 17625,
      "task_loss": 0.7488047480583191
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5668405294418335,
      "epoch": 14.9,
      "learning_rate": 3.7257357545397626e-07,
      "loss": 0.4703,
      "step": 17626,
      "task_loss": 0.4997750222682953
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.22011932730674744,
      "epoch": 14.9,
      "learning_rate": 3.6944270507201005e-07,
      "loss": 0.3207,
      "step": 17627,
      "task_loss": 0.3595038950443268
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2270529568195343,
      "epoch": 14.9,
      "learning_rate": 3.6631183469004385e-07,
      "loss": 0.4266,
      "step": 17628,
      "task_loss": 0.5726651549339294
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2128572016954422,
      "epoch": 14.9,
      "learning_rate": 3.6318096430807764e-07,
      "loss": 0.438,
      "step": 17629,
      "task_loss": 0.2950975000858307
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5031152367591858,
      "epoch": 14.9,
      "learning_rate": 3.600500939261115e-07,
      "loss": 0.3766,
      "step": 17630,
      "task_loss": 0.7206988334655762
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3759785294532776,
      "epoch": 14.9,
      "learning_rate": 3.5691922354414533e-07,
      "loss": 0.4701,
      "step": 17631,
      "task_loss": 0.8151062726974487
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.284443199634552,
      "epoch": 14.9,
      "learning_rate": 3.5378835316217907e-07,
      "loss": 0.4094,
      "step": 17632,
      "task_loss": 0.5158631801605225
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.43754443526268005,
      "epoch": 14.9,
      "learning_rate": 3.506574827802129e-07,
      "loss": 0.42,
      "step": 17633,
      "task_loss": 0.917314887046814
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29839521646499634,
      "epoch": 14.91,
      "learning_rate": 3.475266123982467e-07,
      "loss": 0.2594,
      "step": 17634,
      "task_loss": 0.5234326720237732
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26470157504081726,
      "epoch": 14.91,
      "learning_rate": 3.4439574201628056e-07,
      "loss": 0.3845,
      "step": 17635,
      "task_loss": 0.7388529181480408
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.262781023979187,
      "epoch": 14.91,
      "learning_rate": 3.4126487163431435e-07,
      "loss": 0.3405,
      "step": 17636,
      "task_loss": 0.859865665435791
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5761114954948425,
      "epoch": 14.91,
      "learning_rate": 3.3813400125234814e-07,
      "loss": 0.4632,
      "step": 17637,
      "task_loss": 0.9745572209358215
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3674583435058594,
      "epoch": 14.91,
      "learning_rate": 3.35003130870382e-07,
      "loss": 0.458,
      "step": 17638,
      "task_loss": 0.6946890950202942
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4425508379936218,
      "epoch": 14.91,
      "learning_rate": 3.318722604884158e-07,
      "loss": 0.3762,
      "step": 17639,
      "task_loss": 0.8066801428794861
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27836722135543823,
      "epoch": 14.91,
      "learning_rate": 3.287413901064496e-07,
      "loss": 0.4019,
      "step": 17640,
      "task_loss": 0.19153276085853577
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3243670165538788,
      "epoch": 14.91,
      "learning_rate": 3.256105197244834e-07,
      "loss": 0.469,
      "step": 17641,
      "task_loss": 0.28611400723457336
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6165218353271484,
      "epoch": 14.91,
      "learning_rate": 3.224796493425172e-07,
      "loss": 0.4719,
      "step": 17642,
      "task_loss": 0.6709120869636536
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3201737403869629,
      "epoch": 14.91,
      "learning_rate": 3.1934877896055106e-07,
      "loss": 0.4949,
      "step": 17643,
      "task_loss": 0.21267947554588318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.20068439841270447,
      "epoch": 14.91,
      "learning_rate": 3.162179085785849e-07,
      "loss": 0.2511,
      "step": 17644,
      "task_loss": 0.05503396317362785
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4900583028793335,
      "epoch": 14.91,
      "learning_rate": 3.130870381966187e-07,
      "loss": 0.351,
      "step": 17645,
      "task_loss": 1.112764835357666
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5228042006492615,
      "epoch": 14.92,
      "learning_rate": 3.099561678146525e-07,
      "loss": 0.5099,
      "step": 17646,
      "task_loss": 0.7502408623695374
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38042783737182617,
      "epoch": 14.92,
      "learning_rate": 3.068252974326863e-07,
      "loss": 0.4406,
      "step": 17647,
      "task_loss": 1.6200642585754395
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.424304723739624,
      "epoch": 14.92,
      "learning_rate": 3.0369442705072013e-07,
      "loss": 0.3872,
      "step": 17648,
      "task_loss": 0.29938241839408875
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24452419579029083,
      "epoch": 14.92,
      "learning_rate": 3.00563556668754e-07,
      "loss": 0.4435,
      "step": 17649,
      "task_loss": 0.3204987049102783
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6119600534439087,
      "epoch": 14.92,
      "learning_rate": 2.974326862867877e-07,
      "loss": 0.4946,
      "step": 17650,
      "task_loss": 1.0370515584945679
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32277339696884155,
      "epoch": 14.92,
      "learning_rate": 2.9430181590482156e-07,
      "loss": 0.3057,
      "step": 17651,
      "task_loss": 0.1638922244310379
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.372586727142334,
      "epoch": 14.92,
      "learning_rate": 2.9117094552285535e-07,
      "loss": 0.4255,
      "step": 17652,
      "task_loss": 0.779973566532135
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2662366032600403,
      "epoch": 14.92,
      "learning_rate": 2.880400751408892e-07,
      "loss": 0.3166,
      "step": 17653,
      "task_loss": 0.29961293935775757
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2663744390010834,
      "epoch": 14.92,
      "learning_rate": 2.84909204758923e-07,
      "loss": 0.3607,
      "step": 17654,
      "task_loss": 0.3134545087814331
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34819838404655457,
      "epoch": 14.92,
      "learning_rate": 2.817783343769568e-07,
      "loss": 0.3942,
      "step": 17655,
      "task_loss": 0.17172372341156006
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3003309369087219,
      "epoch": 14.92,
      "learning_rate": 2.7864746399499063e-07,
      "loss": 0.4249,
      "step": 17656,
      "task_loss": 0.5041530728340149
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5178362727165222,
      "epoch": 14.93,
      "learning_rate": 2.755165936130244e-07,
      "loss": 0.3988,
      "step": 17657,
      "task_loss": 0.33355239033699036
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5845444798469543,
      "epoch": 14.93,
      "learning_rate": 2.7238572323105827e-07,
      "loss": 0.3575,
      "step": 17658,
      "task_loss": 0.9513549208641052
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4537816643714905,
      "epoch": 14.93,
      "learning_rate": 2.6925485284909206e-07,
      "loss": 0.3547,
      "step": 17659,
      "task_loss": 0.5008144974708557
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3117698132991791,
      "epoch": 14.93,
      "learning_rate": 2.6612398246712585e-07,
      "loss": 0.389,
      "step": 17660,
      "task_loss": 0.6406015753746033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.309421569108963,
      "epoch": 14.93,
      "learning_rate": 2.629931120851597e-07,
      "loss": 0.4529,
      "step": 17661,
      "task_loss": 0.3461102247238159
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3088131844997406,
      "epoch": 14.93,
      "learning_rate": 2.598622417031935e-07,
      "loss": 0.4368,
      "step": 17662,
      "task_loss": 0.3051970303058624
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4856882095336914,
      "epoch": 14.93,
      "learning_rate": 2.567313713212273e-07,
      "loss": 0.5728,
      "step": 17663,
      "task_loss": 0.49107104539871216
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3714711666107178,
      "epoch": 14.93,
      "learning_rate": 2.5360050093926113e-07,
      "loss": 0.3414,
      "step": 17664,
      "task_loss": 0.2670043706893921
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.279105544090271,
      "epoch": 14.93,
      "learning_rate": 2.504696305572949e-07,
      "loss": 0.3767,
      "step": 17665,
      "task_loss": 0.2608501613140106
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4319036304950714,
      "epoch": 14.93,
      "learning_rate": 2.4733876017532877e-07,
      "loss": 0.3281,
      "step": 17666,
      "task_loss": 0.2595122456550598
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2723411023616791,
      "epoch": 14.93,
      "learning_rate": 2.4420788979336256e-07,
      "loss": 0.4384,
      "step": 17667,
      "task_loss": 0.7524128556251526
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5171504020690918,
      "epoch": 14.93,
      "learning_rate": 2.4107701941139636e-07,
      "loss": 0.4155,
      "step": 17668,
      "task_loss": 0.6023274064064026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.24918577075004578,
      "epoch": 14.94,
      "learning_rate": 2.379461490294302e-07,
      "loss": 0.3922,
      "step": 17669,
      "task_loss": 0.5215128064155579
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5472376942634583,
      "epoch": 14.94,
      "learning_rate": 2.34815278647464e-07,
      "loss": 0.5556,
      "step": 17670,
      "task_loss": 0.5129343271255493
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.28533339500427246,
      "epoch": 14.94,
      "learning_rate": 2.3168440826549781e-07,
      "loss": 0.2976,
      "step": 17671,
      "task_loss": 0.5082351565361023
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4810675382614136,
      "epoch": 14.94,
      "learning_rate": 2.2855353788353166e-07,
      "loss": 0.538,
      "step": 17672,
      "task_loss": 0.3577061891555786
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.25956273078918457,
      "epoch": 14.94,
      "learning_rate": 2.2542266750156543e-07,
      "loss": 0.334,
      "step": 17673,
      "task_loss": 0.047693341970443726
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3272782564163208,
      "epoch": 14.94,
      "learning_rate": 2.2229179711959927e-07,
      "loss": 0.3212,
      "step": 17674,
      "task_loss": 0.7277323007583618
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5272454619407654,
      "epoch": 14.94,
      "learning_rate": 2.1916092673763307e-07,
      "loss": 0.5016,
      "step": 17675,
      "task_loss": 1.7146008014678955
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5584010481834412,
      "epoch": 14.94,
      "learning_rate": 2.1603005635566689e-07,
      "loss": 0.5199,
      "step": 17676,
      "task_loss": 0.48655539751052856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46018683910369873,
      "epoch": 14.94,
      "learning_rate": 2.128991859737007e-07,
      "loss": 0.3822,
      "step": 17677,
      "task_loss": 0.469916969537735
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3087535798549652,
      "epoch": 14.94,
      "learning_rate": 2.097683155917345e-07,
      "loss": 0.3573,
      "step": 17678,
      "task_loss": 0.10643457621335983
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5647298097610474,
      "epoch": 14.94,
      "learning_rate": 2.0663744520976834e-07,
      "loss": 0.3788,
      "step": 17679,
      "task_loss": 0.6593875288963318
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7062994241714478,
      "epoch": 14.94,
      "learning_rate": 2.035065748278021e-07,
      "loss": 0.5581,
      "step": 17680,
      "task_loss": 1.197843074798584
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.34617745876312256,
      "epoch": 14.95,
      "learning_rate": 2.0037570444583596e-07,
      "loss": 0.3957,
      "step": 17681,
      "task_loss": 0.36241739988327026
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6047194004058838,
      "epoch": 14.95,
      "learning_rate": 1.9724483406386978e-07,
      "loss": 0.429,
      "step": 17682,
      "task_loss": 0.11992556601762772
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41939419507980347,
      "epoch": 14.95,
      "learning_rate": 1.9411396368190357e-07,
      "loss": 0.4941,
      "step": 17683,
      "task_loss": 0.5133957862854004
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2541331648826599,
      "epoch": 14.95,
      "learning_rate": 1.909830932999374e-07,
      "loss": 0.3356,
      "step": 17684,
      "task_loss": 0.26775655150413513
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27744925022125244,
      "epoch": 14.95,
      "learning_rate": 1.878522229179712e-07,
      "loss": 0.31,
      "step": 17685,
      "task_loss": 0.2689451277256012
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.18323099613189697,
      "epoch": 14.95,
      "learning_rate": 1.8472135253600503e-07,
      "loss": 0.3176,
      "step": 17686,
      "task_loss": 0.15737859904766083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.17710766196250916,
      "epoch": 14.95,
      "learning_rate": 1.8159048215403882e-07,
      "loss": 0.3905,
      "step": 17687,
      "task_loss": 0.020725395530462265
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4390680491924286,
      "epoch": 14.95,
      "learning_rate": 1.7845961177207267e-07,
      "loss": 0.4626,
      "step": 17688,
      "task_loss": 1.110566258430481
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.32032376527786255,
      "epoch": 14.95,
      "learning_rate": 1.7532874139010646e-07,
      "loss": 0.4299,
      "step": 17689,
      "task_loss": 0.09557007998228073
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39051729440689087,
      "epoch": 14.95,
      "learning_rate": 1.7219787100814028e-07,
      "loss": 0.5228,
      "step": 17690,
      "task_loss": 0.6805740594863892
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4595537483692169,
      "epoch": 14.95,
      "learning_rate": 1.6906700062617407e-07,
      "loss": 0.3918,
      "step": 17691,
      "task_loss": 0.33104637265205383
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.375398725271225,
      "epoch": 14.95,
      "learning_rate": 1.659361302442079e-07,
      "loss": 0.3532,
      "step": 17692,
      "task_loss": 0.4346473217010498
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.27125802636146545,
      "epoch": 14.96,
      "learning_rate": 1.628052598622417e-07,
      "loss": 0.4653,
      "step": 17693,
      "task_loss": 0.26340827345848083
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5297833681106567,
      "epoch": 14.96,
      "learning_rate": 1.5967438948027553e-07,
      "loss": 0.56,
      "step": 17694,
      "task_loss": 0.41308343410491943
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29006141424179077,
      "epoch": 14.96,
      "learning_rate": 1.5654351909830935e-07,
      "loss": 0.2663,
      "step": 17695,
      "task_loss": 0.2736333906650543
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4184926152229309,
      "epoch": 14.96,
      "learning_rate": 1.5341264871634314e-07,
      "loss": 0.3493,
      "step": 17696,
      "task_loss": 0.7829653024673462
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.384692907333374,
      "epoch": 14.96,
      "learning_rate": 1.50281778334377e-07,
      "loss": 0.4681,
      "step": 17697,
      "task_loss": 0.6243430972099304
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3380065858364105,
      "epoch": 14.96,
      "learning_rate": 1.4715090795241078e-07,
      "loss": 0.4102,
      "step": 17698,
      "task_loss": 0.7630986571311951
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.31436991691589355,
      "epoch": 14.96,
      "learning_rate": 1.440200375704446e-07,
      "loss": 0.3699,
      "step": 17699,
      "task_loss": 0.3381306529045105
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5032584071159363,
      "epoch": 14.96,
      "learning_rate": 1.408891671884784e-07,
      "loss": 0.4149,
      "step": 17700,
      "task_loss": 0.6535839438438416
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5881023406982422,
      "epoch": 14.96,
      "learning_rate": 1.377582968065122e-07,
      "loss": 0.5044,
      "step": 17701,
      "task_loss": 0.368975967168808
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3048665523529053,
      "epoch": 14.96,
      "learning_rate": 1.3462742642454603e-07,
      "loss": 0.4193,
      "step": 17702,
      "task_loss": 0.626523494720459
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.4814201891422272,
      "epoch": 14.96,
      "learning_rate": 1.3149655604257985e-07,
      "loss": 0.3988,
      "step": 17703,
      "task_loss": 0.29614001512527466
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41782140731811523,
      "epoch": 14.96,
      "learning_rate": 1.2836568566061364e-07,
      "loss": 0.336,
      "step": 17704,
      "task_loss": 0.588909387588501
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6296596527099609,
      "epoch": 14.97,
      "learning_rate": 1.2523481527864746e-07,
      "loss": 0.4192,
      "step": 17705,
      "task_loss": 1.821213960647583
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2432197630405426,
      "epoch": 14.97,
      "learning_rate": 1.2210394489668128e-07,
      "loss": 0.332,
      "step": 17706,
      "task_loss": 0.5642341375350952
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2715016007423401,
      "epoch": 14.97,
      "learning_rate": 1.189730745147151e-07,
      "loss": 0.4343,
      "step": 17707,
      "task_loss": 0.8865232467651367
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.40872323513031006,
      "epoch": 14.97,
      "learning_rate": 1.1584220413274891e-07,
      "loss": 0.4647,
      "step": 17708,
      "task_loss": 0.6493148803710938
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1956721395254135,
      "epoch": 14.97,
      "learning_rate": 1.1271133375078271e-07,
      "loss": 0.2819,
      "step": 17709,
      "task_loss": 0.17170341312885284
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.38174229860305786,
      "epoch": 14.97,
      "learning_rate": 1.0958046336881653e-07,
      "loss": 0.488,
      "step": 17710,
      "task_loss": 0.6999618411064148
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2841135561466217,
      "epoch": 14.97,
      "learning_rate": 1.0644959298685035e-07,
      "loss": 0.3803,
      "step": 17711,
      "task_loss": 0.30578944087028503
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5259791016578674,
      "epoch": 14.97,
      "learning_rate": 1.0331872260488417e-07,
      "loss": 0.3932,
      "step": 17712,
      "task_loss": 0.7537779211997986
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6430478096008301,
      "epoch": 14.97,
      "learning_rate": 1.0018785222291798e-07,
      "loss": 0.5307,
      "step": 17713,
      "task_loss": 0.7224963903427124
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.37145647406578064,
      "epoch": 14.97,
      "learning_rate": 9.705698184095178e-08,
      "loss": 0.4161,
      "step": 17714,
      "task_loss": 1.2658225297927856
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7267906665802002,
      "epoch": 14.97,
      "learning_rate": 9.39261114589856e-08,
      "loss": 0.5041,
      "step": 17715,
      "task_loss": 0.7551901340484619
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2146683931350708,
      "epoch": 14.97,
      "learning_rate": 9.079524107701941e-08,
      "loss": 0.3704,
      "step": 17716,
      "task_loss": 0.2300504893064499
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.49091100692749023,
      "epoch": 14.98,
      "learning_rate": 8.766437069505323e-08,
      "loss": 0.407,
      "step": 17717,
      "task_loss": 0.6440739631652832
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.41270673274993896,
      "epoch": 14.98,
      "learning_rate": 8.453350031308704e-08,
      "loss": 0.3425,
      "step": 17718,
      "task_loss": 0.6616591215133667
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3102077543735504,
      "epoch": 14.98,
      "learning_rate": 8.140262993112085e-08,
      "loss": 0.3757,
      "step": 17719,
      "task_loss": 0.3418375551700592
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.39616596698760986,
      "epoch": 14.98,
      "learning_rate": 7.827175954915467e-08,
      "loss": 0.3568,
      "step": 17720,
      "task_loss": 0.3934228718280792
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3543587625026703,
      "epoch": 14.98,
      "learning_rate": 7.51408891671885e-08,
      "loss": 0.4369,
      "step": 17721,
      "task_loss": 1.143181324005127
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.2768803536891937,
      "epoch": 14.98,
      "learning_rate": 7.20100187852223e-08,
      "loss": 0.4273,
      "step": 17722,
      "task_loss": 1.2091238498687744
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6343824863433838,
      "epoch": 14.98,
      "learning_rate": 6.88791484032561e-08,
      "loss": 0.498,
      "step": 17723,
      "task_loss": 0.13667918741703033
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6028141975402832,
      "epoch": 14.98,
      "learning_rate": 6.574827802128993e-08,
      "loss": 0.4411,
      "step": 17724,
      "task_loss": 2.0306191444396973
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3386038541793823,
      "epoch": 14.98,
      "learning_rate": 6.261740763932373e-08,
      "loss": 0.4958,
      "step": 17725,
      "task_loss": 0.7755573391914368
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3860078454017639,
      "epoch": 14.98,
      "learning_rate": 5.948653725735755e-08,
      "loss": 0.3348,
      "step": 17726,
      "task_loss": 0.7015226483345032
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5790970921516418,
      "epoch": 14.98,
      "learning_rate": 5.635566687539136e-08,
      "loss": 0.4937,
      "step": 17727,
      "task_loss": 0.3056791126728058
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3524666428565979,
      "epoch": 14.99,
      "learning_rate": 5.3224796493425176e-08,
      "loss": 0.3947,
      "step": 17728,
      "task_loss": 1.5284773111343384
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29941999912261963,
      "epoch": 14.99,
      "learning_rate": 5.009392611145899e-08,
      "loss": 0.4895,
      "step": 17729,
      "task_loss": 0.30867427587509155
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.29999321699142456,
      "epoch": 14.99,
      "learning_rate": 4.69630557294928e-08,
      "loss": 0.2893,
      "step": 17730,
      "task_loss": 0.24930277466773987
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.36976271867752075,
      "epoch": 14.99,
      "learning_rate": 4.3832185347526615e-08,
      "loss": 0.3958,
      "step": 17731,
      "task_loss": 0.3603629767894745
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.7327448129653931,
      "epoch": 14.99,
      "learning_rate": 4.070131496556043e-08,
      "loss": 0.5276,
      "step": 17732,
      "task_loss": 1.042410135269165
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3764733672142029,
      "epoch": 14.99,
      "learning_rate": 3.757044458359425e-08,
      "loss": 0.43,
      "step": 17733,
      "task_loss": 0.8457286357879639
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.45506879687309265,
      "epoch": 14.99,
      "learning_rate": 3.443957420162805e-08,
      "loss": 0.421,
      "step": 17734,
      "task_loss": 0.4726117253303528
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5280320048332214,
      "epoch": 14.99,
      "learning_rate": 3.1308703819661866e-08,
      "loss": 0.4135,
      "step": 17735,
      "task_loss": 0.677895188331604
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3642042577266693,
      "epoch": 14.99,
      "learning_rate": 2.817783343769568e-08,
      "loss": 0.3653,
      "step": 17736,
      "task_loss": 0.3693331778049469
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3142012357711792,
      "epoch": 14.99,
      "learning_rate": 2.5046963055729494e-08,
      "loss": 0.4261,
      "step": 17737,
      "task_loss": 1.6189566850662231
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3734574019908905,
      "epoch": 14.99,
      "learning_rate": 2.1916092673763307e-08,
      "loss": 0.4688,
      "step": 17738,
      "task_loss": 0.7763621807098389
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.1641080677509308,
      "epoch": 14.99,
      "learning_rate": 1.8785222291797123e-08,
      "loss": 0.2917,
      "step": 17739,
      "task_loss": 0.015387102961540222
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.3648202419281006,
      "epoch": 15.0,
      "learning_rate": 1.5654351909830933e-08,
      "loss": 0.4145,
      "step": 17740,
      "task_loss": 0.5035169124603271
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5697094202041626,
      "epoch": 15.0,
      "learning_rate": 1.2523481527864747e-08,
      "loss": 0.3603,
      "step": 17741,
      "task_loss": 0.6707842350006104
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.46914881467819214,
      "epoch": 15.0,
      "learning_rate": 9.392611145898562e-09,
      "loss": 0.3854,
      "step": 17742,
      "task_loss": 0.4619447588920593
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.5434233546257019,
      "epoch": 15.0,
      "learning_rate": 6.261740763932374e-09,
      "loss": 0.4922,
      "step": 17743,
      "task_loss": 0.9814426302909851
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.26151156425476074,
      "epoch": 15.0,
      "learning_rate": 3.130870381966187e-09,
      "loss": 0.42,
      "step": 17744,
      "task_loss": 1.0141013860702515
    },
    {
      "compression/movement_sparsity/importance_regularization_factor": 1.0,
      "compression/movement_sparsity/importance_threshold": 0.0,
      "compression/movement_sparsity/linear_layer_sparsity": 0.43105931586566787,
      "compression/movement_sparsity/model_sparsity": 0.4162511022721184,
      "compression_loss": 0.0,
      "distillation_loss": 0.6076030731201172,
      "epoch": 15.0,
      "learning_rate": 0.0,
      "loss": 0.4777,
      "step": 17745,
      "task_loss": 0.30477121472358704
    },
    {
      "epoch": 15.0,
      "step": 17745,
      "total_flos": 8.94984447373277e+19,
      "train_loss": 17.32710409305085,
      "train_runtime": 64003.0137,
      "train_samples_per_second": 17.753,
      "train_steps_per_second": 0.277
    }
  ],
  "max_steps": 17745,
  "num_train_epochs": 15,
  "total_flos": 8.94984447373277e+19,
  "trial_name": null,
  "trial_params": null
}